Googlebot

Googlebot เป็นชื่อทั่วไปของ Web Crawler ซึ่งมีอยู่ 2 ประเภทที่ Google Search ใช้ดังนี้

Googlebot Smartphone: Crawler สำหรับอุปกรณ์เคลื่อนที่ซึ่งจำลองเป็นผู้ใช้ในอุปกรณ์เคลื่อนที่
Googlebot สำหรับเดสก์ท็อป: Crawler ในเดสก์ท็อปซึ่งจำลองเป็นผู้ใช้ในเดสก์ท็อป

คุณระบุประเภทย่อยของ Googlebot ได้จากการดูส่วนหัวของคำขอ user-agent HTTP ในคำขอ อย่างไรก็ตาม Crawler ทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดกลุ่มเป้าหมาย Googlebot Smartphone หรือ Googlebot Desktop อย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

สำหรับเว็บไซต์ส่วนใหญ่ Google Search จะจัดทำดัชนีเนื้อหาเวอร์ชันสำหรับอุปกรณ์เคลื่อนที่เป็นหลัก ด้วยเหตุนี้ คำขอทำการ Crawl ส่วนใหญ่ของ Googlebot ก็จะทำโดยใช้ Crawler สำหรับอุปกรณ์เคลื่อนที่ และใช้ Crawler สำหรับเดสก์ท็อปเป็นส่วนน้อย

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคำขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl

Googlebot สามารถทำการ Crawl 15 MB แรกของไฟล์ HTML หรือไฟล์ข้อความที่รองรับ โดยจะดึงข้อมูลทรัพยากรแต่ละรายการที่อ้างอิงใน HTML เช่น CSS และ JavaScript แยกกัน และการดึงข้อมูลแต่ละรายการจะอยู่ในขอบเขตของขีดจํากัดขนาดไฟล์เดียวกัน หลังจาก 15 MB แรกของไฟล์ Googlebot จะหยุดทำการ Crawl และจะส่งเฉพาะ 15 MB แรกของไฟล์ในการจัดทำดัชนี และมีการจำกัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ ของ Google เช่น Googlebot Video และ Googlebot Image อาจมีขีดจำกัดที่แตกต่างออกไป

เมื่อทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกา เขตเวลาของ Googlebot คือเวลาเขตแปซิฟิก

คุณสมบัติทางเทคนิคอื่นๆ ของ Googlebot มีอธิบายอยู่ในภาพรวมเกี่ยวกับ Crawler ของ Google

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

Googlebot จะค้นพบ URL ใหม่ที่จะทำการ Crawl ได้จากลิงก์ที่ฝังอยู่ในหน้าที่ทำการ Crawl ไปก่อนหน้านี้เป็นหลัก การเก็บเว็บไซต์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บไซต์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนคลิกลิงก์จากเว็บไซต์ "ลับ" ของคุณไปยังเว็บไซต์อื่น URL ของเว็บไซต์ "ลับ" อาจจะปรากฏในแท็กผู้บอกต่อ รวมถึงจะจัดเก็บและเผยแพร่ได้โดยเว็บไซต์อื่นในบันทึกผู้บอกต่อ

หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl เนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าการ Crawl และการจัดทำดัชนีนั้นแตกต่างกัน การบล็อก Googlebot ไม่ให้ทำการ Crawl หน้าเว็บไม่ได้ป้องกันไม่ให้ URL ของหน้าเว็บปรากฏในผลการค้นหา

หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl หน้าเว็บ ใช้ ไฟล์ robots.txt
หากไม่ต้องการให้ Google จัดทำดัชนีหน้าเว็บ ใช้ noindex
หากต้องการป้องกันไม่ให้ทั้ง Crawler หรือผู้ใช้เข้าถึงหน้าเว็บเลย ใช้วิธีอื่น เช่น การป้องกันด้วยรหัสผ่าน

การบล็อก Googlebot จะส่งผลต่อ Google Search (รวมถึงฟีเจอร์สำรวจและฟีเจอร์ทั้งหมดของ Google Search) รวมถึงผลิตภัณฑ์อื่นๆ เช่น Google รูปภาพ, Google วิดีโอ และ Google News

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าส่วนหัวของคำขอ user-agent HTTP ที่ Googlebot ใช้นั้นมักจะถูก Crawler อื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot