Googlebot

Googlebot เป็นชื่อทั่วไปของโปรแกรมรวบรวมข้อมูลเว็บของ Google ชื่อนี้เป็นชื่อทั่วไปสำหรับโปรแกรมรวบรวมข้อมูล 2 ประเภทด้วยกัน ได้แก่ โปรแกรมรวบรวมข้อมูลเดสก์ท็อปซึ่งจำลองผู้ใช้ในเดสก์ท็อป และโปรแกรมรวบรวมข้อมูลในอุปกรณ์เคลื่อนที่ซึ่งจำลองผู้ใช้ในอุปกรณ์เคลื่อนที่

เว็บไซต์ของคุณน่าจะได้รับการรวบรวมข้อมูลจากทั้ง Googlebot สำหรับเดสก์ท็อปและ Googlebot สำหรับสมาร์ทโฟน คุณระบุประเภทย่อยของ Googlebot ได้จากการดูสตริง User Agent ในคำขอ แต่โปรแกรมรวบรวมข้อมูลทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดเป้าหมาย Googlebot สำหรับสมาร์ทโฟน หรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ

Googlebot ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับเว็บไซต์ที่โปรแกรมอาจรวบรวมข้อมูลเพื่อเป็นการลดการใช้แบนด์วิดท์ด้วย ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากคอมพิวเตอร์หลายเครื่องที่ Google.com โดยทั้งหมดใช้ User Agent ของ Googlebot เป้าหมายของเราคือรวบรวมข้อมูลหน้าเว็บจากเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทำให้เกิดปัญหากับแบนด์วิดท์ของเซิร์ฟเวอร์ของคุณ หากเว็บไซต์ตามคำขอให้รวบรวมข้อมูลของ Google ไม่ทัน ให้ขอเปลี่ยนอัตราการรวบรวมข้อมูล

โดยทั่วไป Googlebot จะรวบรวมข้อมูลผ่าน HTTP/1.1 อย่างไรก็ตาม ตั้งแต่เดือนพฤศจิกายน 2020 Googlebot อาจรวบรวมข้อมูลเว็บไซต์ที่อาจได้รับประโยชน์จากการดำเนินการนี้ผ่าน HTTP/2 หากเว็บไซต์ดังกล่าวรองรับ การรวบรวมข้อมูลนี้อาจบันทึกทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot แต่จะไม่ส่งผลต่อการจัดทําดัชนีหรือการจัดอันดับเว็บไซต์

หากเลือกที่จะไม่รวบรวมข้อมูลผ่าน HTTP/2 โปรดกำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Googlebot พยายามรวบรวมข้อมูลเว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีม Googlebot (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)

Googlebot สามารถทำการ Crawl 15 MB แรกของไฟล์ HTML หรือไฟล์ข้อความที่รองรับ โดยระบบจะดึงข้อมูลทรัพยากรที่อ้างอิงใน HTML เช่น รูปภาพ, วิดีโอ, CSS และ JavaScript แยกต่างหาก หลังจากไฟล์ 15 MB แรก Googlebot จะหยุด Crawl และจะพิจารณาเฉพาะ 15 MB แรกของไฟล์ในการจัดทําดัชนี และมีการจํากัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ อาจมีขีดจำกัดที่แตกต่างออกไป

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

การเก็บเว็บเซิร์ฟเวอร์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บเซิร์ฟเวอร์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเซิร์ฟเวอร์ "ลับ" ของคุณไปยังเว็บเซิร์ฟเวอร์อื่น URL "ลับ" ของคุณอาจจะปรากฏในแท็กผู้อ้างอิงและจะจัดเก็บหรือเผยแพร่ได้โดยเว็บเซิร์ฟเวอร์อื่นในบันทึกผู้อ้างอิง ในทำนองเดียวกัน เว็บมีลิงก์ที่ล้าสมัยและเสียเป็นจำนวนมาก เมื่อใดก็ตามที่มีคนเผยแพร่ลิงก์ที่ไม่ถูกต้องไปยังเว็บไซต์ของคุณหรือไม่ได้อัปเดตลิงก์ให้สอดคล้องกับการเปลี่ยนแปลงในเซิร์ฟเวอร์ Googlebot จะพยายามรวบรวมข้อมูลลิงก์ที่ไม่ถูกต้องจากเว็บไซต์ของคุณ

หากต้องการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลเนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าสตริง User Agent ที่ Googlebot ใช้นั้นมักจะถูกโปรแกรมรวบรวมข้อมูลอื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot