จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

Googlebot

Googlebot เป็นชื่อทั่วไปของ Web Crawler ของ Google ซึ่งมีอยู่ 2 ประเภทดังนี้

คุณระบุประเภทย่อยของ Googlebot ได้จากการดูสตริง User Agent ในคำขอ แต่ Crawler ทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดเป้าหมาย Googlebot สำหรับสมาร์ทโฟน หรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

สําหรับเว็บไซต์ส่วนใหญ่ Google จะจัดทําดัชนีเนื้อหาของรุ่นอุปกรณ์เคลื่อนที่เป็นหลัก ด้วยเหตุนี้ คําขอทำการ Crawl ส่วนใหญ่ของ Googlebot ก็จะทําโดยใช้ Crawler สำหรับอุปกรณ์เคลื่อนที่ และใช้ Crawler สำหรับเดสก์ท็อปเป็นส่วนน้อย

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ

Googlebot ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับเว็บไซต์ที่โปรแกรมอาจรวบรวมข้อมูลเพื่อเป็นการลดการใช้แบนด์วิดท์ด้วย ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากที่อยู่ IP หลายรายการ โดยทั้งหมดใช้ User Agent ของ Googlebot เป้าหมายของเราคือทำการ Crawl หน้าเว็บในเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทําให้เซิร์ฟเวอร์ของคุณทํางานหนักเกินไป หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคําขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl

Googlebot ทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกาเป็นหลัก ในกรณีที่ Googlebot ตรวจพบว่าเว็บไซต์หนึ่งบล็อกคำขอจากสหรัฐอเมริกา เว็บไซต์อาจพยายามทำการ Crawl จากที่อยู่ IP ในประเทศอื่นๆ ทั้งนี้ รายการของการบล็อกที่อยู่ IP ที่ Googlebot ใช้ในปัจจุบันมีให้บริการในรูปแบบ JSON

Googlebot จะทำการ Crawl ผ่าน HTTP/1.1 และ HTTP/2 หากเว็บไซต์รองรับ เวอร์ชันโปรโตคอลที่ใช้ในการ Crawl เว็บไซต์ไม่ได้เอื้อประโยชน์ต่อการจัดอันดับ อย่างไรก็ตาม การ Crawl ผ่าน HTTP/2 อาจช่วยประหยัดทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot
หากเลือกที่จะไม่ทำการ Crawl ผ่าน HTTP/2 โปรดกำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Googlebot พยายามทำการ Crawl เว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีม Googlebot (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)

Googlebot สามารถทำการ Crawl 15 MB แรกของไฟล์ HTML หรือไฟล์ข้อความที่รองรับ โดยระบบจะดึงข้อมูลทรัพยากรที่อ้างอิงใน HTML เช่น รูปภาพ, วิดีโอ, CSS และ JavaScript แยกต่างหาก หลังจากไฟล์ 15 MB แรก Googlebot จะหยุด Crawl และจะพิจารณาเฉพาะ 15 MB แรกของไฟล์ในการจัดทําดัชนี และมีการจํากัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ ของ Google อาจมีขีดจำกัดที่แตกต่างออกไป

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

การเก็บเว็บเซิร์ฟเวอร์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บเซิร์ฟเวอร์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเซิร์ฟเวอร์ "ลับ" ของคุณไปยังเว็บเซิร์ฟเวอร์อื่น URL "ลับ" ของคุณอาจจะปรากฏในแท็กผู้อ้างอิงและจะจัดเก็บหรือเผยแพร่ได้โดยเว็บเซิร์ฟเวอร์อื่นในบันทึกผู้อ้างอิง ในทำนองเดียวกัน เว็บมีลิงก์ที่ล้าสมัยและเสียเป็นจำนวนมาก เมื่อใดก็ตามที่มีคนเผยแพร่ลิงก์ที่ไม่ถูกต้องไปยังเว็บไซต์ของคุณหรือไม่ได้อัปเดตลิงก์ให้สอดคล้องกับการเปลี่ยนแปลงในเซิร์ฟเวอร์ Googlebot จะพยายามรวบรวมข้อมูลลิงก์ที่ไม่ถูกต้องจากเว็บไซต์ของคุณ

หากต้องการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลเนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าสตริง User Agent ที่ Googlebot ใช้นั้นมักจะถูกโปรแกรมรวบรวมข้อมูลอื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot