ภาพรวมของ Crawler และตัวดึงข้อมูลของ Google (User Agent)
Google ใช้ Crawler และตัวดึงข้อมูลเพื่อดําเนินการต่างๆ กับผลิตภัณฑ์ ไม่ว่าจะแบบอัตโนมัติหรือที่ทริกเกอร์จากคําขอของผู้ใช้
"Crawler" (บางครั้งเรียกว่า "โรบ็อต" หรือ "สไปเดอร์") เป็นคําทั่วไปที่ใช้เรียกโปรแกรมสํารวจและสแกนเว็บไซต์ด้วยการติดตามลิงก์จากหน้าเว็บหนึ่งไปยังอีกหน้าเว็บหนึ่งโดยอัตโนมัติ Crawler หลักของ Google ที่ใช้สำหรับ Google Search เรียกว่า Googlebot
ตัวดึงข้อมูลก็เหมือนกับเบราว์เซอร์ คือเป็นเครื่องมือที่ขอ URL เดียวเมื่อได้รับข้อความแจ้งจากผู้ใช้
ตารางต่อไปนี้แสดงรายการ Crawler และตัวดึงข้อมูลของ Google ที่ผลิตภัณฑ์และบริการต่างๆ ใช้ รวมถึงวิธีที่คุณจะเห็นในบันทึกผู้อ้างอิง และวิธีระบุใน robots.txt รายการนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น โดยจะครอบคลุมเฉพาะผู้ขอที่พบบ่อยที่สุดที่อาจปรากฏในไฟล์บันทึก
-
โทเค็น User Agent จะใช้ในบรรทัด
User-agent:
ของ robots.txt เพื่อจับคู่กับประเภท Crawler เมื่อเขียนกฎการ Crawl สำหรับเว็บไซต์ Crawler บางตัวมีมากกว่า 1 โทเค็นดังที่แสดงในตาราง คุณต้องจับคู่โทเค็นของ Crawler เพียง 1 ตัวเท่านั้นเพื่อใช้กฎ รายการนี้ยังไม่ใช่ทั้งหมด แต่ครอบคลุม Crawler ส่วนใหญ่ที่อาจเห็นในเว็บไซต์ของคุณ - สตริง User Agent แบบเต็มเป็นคำอธิบายแบบเต็มของ Crawler และจะปรากฏในคำขอ HTTP และบันทึกการใช้เว็บ
Crawler ทั่วไป
Crawler ทั่วไปของ Google ใช้เพื่อค้นหาข้อมูลสำหรับสร้างดัชนีการค้นหาของ Google, ทำการ Crawl เฉพาะสำหรับผลิตภัณฑ์อื่นๆ และใช้สำหรับการวิเคราะห์ Crawler ประเภทนี้จะทําตามกฎของ robots.txt เสมอ และโดยทั่วไปจะทำการ Crawl จากช่วง IP ที่เผยแพร่ในออบเจ็กต์ googlebot.json
Crawler ทั่วไป | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
ใช้สําหรับทำการ Crawl URL ของรูปภาพสำหรับ Google รูปภาพและผลิตภัณฑ์ที่อ้างอิงรูปภาพ
|
||||
Googlebot News |
Googlebot News ใช้ Googlebot ในการ Crawl บทความข่าว แต่จะทำตามโทเค็น User Agent เก่า
|
||||
Googlebot Video |
ใช้สําหรับทำการ Crawl URL ของวิดีโอสําหรับ Google Video และผลิตภัณฑ์ที่อ้างอิงวิดีโอ
|
||||
Google StoreBot |
Google StoreBot จะทำการ Crawl ผ่านหน้าเว็บบางประเภท ซึ่งรวมถึงแต่ไม่จำกัดเพียงหน้ารายละเอียดผลิตภัณฑ์ หน้ารถเข็น และหน้าชำระเงิน
|
||||
Google-InspectionTool |
Google-InspectionTool เป็น Crawler ที่ Search ใช้ เช่น การทดสอบผลการค้นหาที่เป็นริชมีเดียและการตรวจสอบ URL ใน Search Console นอกจาก User Agent และโทเค็น User Agent แล้ว Crawler นี้จะเหมือนกับ Googlebot
|
||||
GoogleOther |
GoogleOther เป็น Crawler ทั่วไปที่ทีมผลิตภัณฑ์ต่างๆ อาจใช้เพื่อดึงเนื้อหาที่เข้าถึงได้แบบสาธารณะจากเว็บไซต์ เช่น ใช้สําหรับทำการ Crawl เพียงครั้งเดียวสำหรับการค้นคว้าและพัฒนาภายใน
|
||||
GoogleOther-Image |
GoogleOther-Image คือ GoogleOther เวอร์ชันที่ได้รับการเพิ่มประสิทธิภาพสำหรับการดึงข้อมูล URL รูปภาพที่เข้าถึงได้แบบสาธารณะ
|
||||
GoogleOther-Video |
GoogleOther-Video คือ GoogleOther เวอร์ชันที่ได้รับการเพิ่มประสิทธิภาพสำหรับการดึงข้อมูล URL ของวิดีโอที่เข้าถึงได้แบบสาธารณะ
|
||||
Google-Extended |
|
Crawler กรณีพิเศษ
Crawler กรณีพิเศษจะใช้โดยผลิตภัณฑ์ที่เฉพาะเจาะจง ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์เกี่ยวกับขั้นตอนการ Crawl เช่น AdsBot
จะไม่สนใจ User Agent ใน robots.txt ส่วนกลาง (*
) เมื่อได้รับอนุญาตจากผู้เผยแพร่โฆษณา Crawler กรณีพิเศษอาจไม่สนใจกฎของ robots.txt ดังนั้นจึงทํางานจากช่วง IP ที่ต่างจาก Crawler ทั่วไป ช่วง IP จะเผยแพร่ในออบเจ็กต์ special-crawlers.json
Crawler กรณีพิเศษ | |||||
---|---|---|---|---|---|
APIs-Google |
ใช้โดย Google API เพื่อส่งข้อความ Push ไม่สนใจ User Agent ส่วนกลาง (
|
||||
AdsBot Mobile Web |
ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของอุปกรณ์เคลื่อนที่
ไม่สนใจ User Agent ส่วนกลาง (
|
||||
AdsBot |
ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของเดสก์ท็อป
ไม่สนใจ User Agent ส่วนกลาง (
|
||||
AdSense |
Crawler ของ AdSense จะไปยังเว็บไซต์ของคุณเพื่อพิจารณาเนื้อหาและนำเสนอโฆษณาที่เกี่ยวข้อง ไม่สนใจ User Agent ส่วนกลาง (
|
||||
Mobile AdSense |
Crawler ของ AdSense บนอุปกรณ์เคลื่อนที่จะเข้าเว็บไซต์เพื่อพิจารณาเนื้อหาและแสดงโฆษณาที่เกี่ยวข้อง ไม่สนใจ User Agent ส่วนกลาง (
|
||||
Google-Safety |
User Agent "Google-Safety" จะจัดการการ Crawl สำหรับการละเมิดโดยเฉพาะ เช่น การค้นหามัลแวร์สำหรับลิงก์ที่โพสต์แบบสาธารณะในผลิตภัณฑ์และบริการของ Google User Agent นี้ไม่สนใจกฎของ robots.txt
|
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้
ผู้ใช้เป็นผู้เริ่มตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้เพื่อใช้ฟังก์ชันการดึงข้อมูลเฉพาะผลิตภัณฑ์ ตัวอย่างเช่น Google Site Verifier ดำเนินการตามคำขอของผู้ใช้ หรือเว็บไซต์ที่โฮสต์บน Google Cloud (GCP) มีฟีเจอร์ที่อนุญาตให้ผู้ใช้ของเว็บไซต์เรียกข้อมูลฟีด RSS ภายนอก โดยทั่วไปตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ช่วง IP ที่ใช้โดยตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้จะเผยแพร่ในออบเจ็กต์ user-triggered-fetchers.json และ user-triggered-fetchers-google.json
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher ใช้สําหรับทำการ Crawl ฟีด RSS หรือ Atom สำหรับ Google Podcasts, Google News และ PubSubHubbub
|
||||
ศูนย์ผู้เผยแพร่เนื้อหาของ Google |
การดึงข้อมูลและประมวลผลฟีดที่ผู้เผยแพร่เนื้อหาระบุไว้อย่างชัดเจนผ่านศูนย์ผู้เผยแพร่เนื้อหาของ Google เพื่อใช้ในหน้า Landing Page ของ Google News
|
||||
Google อ่านออกเสียง |
Google อ่านออกเสียงจะดึงข้อมูลและอ่านหน้าเว็บตามคําขอของผู้ใช้โดยใช้การอ่านออกเสียงข้อความ (TTS)
|
||||
เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites |
เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะดึงข้อมูลเมื่อผู้ใช้ขอโทเค็นการยืนยันของ Search Console
|
หมายเหตุเกี่ยวกับW.X.Y.Z ใน User Agent
เมื่อใดที่เห็นสตริง Chrome/W.X.Y.Z ในสตริง User Agent ในตาราง W.X.Y.Z คือตัวยึดตำแหน่งจริงๆ ที่แสดงถึงเวอร์ชันของเบราว์เซอร์ Chrome ที่ใช้โดย User Agent ดังกล่าว เช่น 41.0.2272.96
หมายเลขเวอร์ชันนี้จะเพิ่มขึ้นเมื่อเวลาผ่านไปเพื่อจับคู่กับ Chromium เวอร์ชันที่เผยแพร่ล่าสุดซึ่ง Googlebot ใช้
หากกำลังค้นหาบันทึกหรือกรองเซิร์ฟเวอร์สำหรับ User Agent ที่มีรูปแบบนี้ ให้ใช้ไวลด์การ์ดหมายเลขเวอร์ชันแทนการระบุหมายเลขเวอร์ชันที่ถูกต้อง
User Agent ใน robots.txt
เมื่อระบบรู้จัก User Agent หลายตัวในไฟล์ robots.txt แล้ว Google จะดำเนินการตาม User Agent ที่เจาะจงที่สุด หากต้องการให้ Crawler ของ Google ทั้งหมดสามารถทำการ Crawl หน้าเว็บได้ คุณไม่จำเป็นต้องใช้ไฟล์ robots.txt เลย แต่หากต้องการบล็อกหรืออนุญาตให้เข้าถึงเนื้อหาบางส่วน สามารถทำได้โดยระบุ Googlebot เป็น User Agent ตัวอย่างเช่น ไม่จำเป็นต้องใช้ไฟล์ robots.txt หากต้องการให้หน้าทั้งหมดปรากฏใน Google Search และหากต้องการให้โฆษณา AdSense ปรากฏในหน้า เช่นเดียวกัน หากต้องการบล็อกไม่ให้ Google เข้าถึงบางหน้าโดยสมบูรณ์ การบล็อก User Agent ของ Googlebot
จะบล็อก User Agent อื่นๆ ทั้งหมดของ Google ด้วย
แต่หากต้องการการควบคุมที่ละเอียดยิ่งขึ้น คุณระบุให้เจาะจงกว่าเดิมได้ ตัวอย่างเช่น คุณอาจต้องการให้หน้าทั้งหมดปรากฏใน Google Search แต่ไม่ต้องการให้มีการ Crawl รูปภาพในไดเรกทอรีส่วนตัว ในกรณีนี้ ให้ใช้ robots.txt เพื่อไม่อนุญาตให้ User Agent ของ Googlebot-Image
ทำการ Crawl ไฟล์ในไดเรกทอรีส่วนตัว (แต่อนุญาตให้ Googlebot ทำการ Crawl ไฟล์ทั้งหมด) ดังต่อไปนี้
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
อีกตัวอย่างหนึ่ง เช่น สมมติว่าต้องการแสดงโฆษณาในหน้าทั้งหมด แต่ไม่ต้องการให้หน้าเหล่านั้นปรากฏใน Google Search คุณบล็อก Googlebot แต่อนุญาต User Agent ของ Mediapartners-Google
ได้ดังต่อไปนี้
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
การควบคุมความเร็วในการรวบรวมข้อมูล
Crawler ของ Google แต่ละโปรแกรมจะเข้าถึงเว็บไซต์เพื่อวัตถุประสงค์เฉพาะในอัตราที่ต่างกัน Google ใช้อัลกอริทึมเพื่อกำหนดอัตราการ Crawl ที่เหมาะสมสำหรับแต่ละเว็บไซต์ หาก Crawler ของ Google ทำการ Crawl เว็บไซต์ของคุณบ่อยเกินไป คุณลดอัตราการ Crawl ได้
Crawler ของ Google ที่เลิกใช้แล้ว
Crawler ของ Google ต่อไปนี้ไม่ได้ใช้งานอีกต่อไป และมีการบันทึกไว้ที่นี่เพื่อเป็นประวัติอ้างอิงเท่านั้น
Crawler ของ Google ที่เลิกใช้แล้ว | |||||
---|---|---|---|---|---|
Duplex on the web |
รองรับบริการ Duplex on the web
|
||||
Web Light |
ตรวจสอบว่ามีส่วนหัว
|
||||
AdsBot Mobile Web |
ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของ iPhone
ไม่สนใจ User Agent ส่วนกลาง (
|
||||
Mobile Apps Android |
ตรวจสอบคุณภาพโฆษณาในหน้าแอป Android
ทำตามกฎของโรบ็อต
|
||||
Google Favicon |
|