ภาพรวมของ Crawler และตัวดึงข้อมูลของ Google (User Agent)

Google ใช้ Crawler และตัวดึงข้อมูลเพื่อดําเนินการต่างๆ กับผลิตภัณฑ์ ไม่ว่าจะแบบอัตโนมัติหรือที่ทริกเกอร์จากคําขอของผู้ใช้

"Crawler" (บางครั้งเรียกว่า "โรบ็อต" หรือ "สไปเดอร์") เป็นคําทั่วไปที่ใช้เรียกโปรแกรมสํารวจและสแกนเว็บไซต์ด้วยการติดตามลิงก์จากหน้าเว็บหนึ่งไปยังอีกหน้าเว็บหนึ่งโดยอัตโนมัติ Crawler หลักของ Google ที่ใช้สำหรับ Google Search เรียกว่า Googlebot

ตัวดึงข้อมูลก็เหมือนกับเบราว์เซอร์ คือเป็นเครื่องมือที่ขอ URL เดียวเมื่อได้รับข้อความแจ้งจากผู้ใช้

ตารางต่อไปนี้แสดงรายการ Crawler และตัวดึงข้อมูลของ Google ที่ผลิตภัณฑ์และบริการต่างๆ ใช้ รวมถึงวิธีที่คุณจะเห็นในบันทึกผู้อ้างอิง และวิธีระบุใน robots.txt รายการนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น โดยจะครอบคลุมเฉพาะผู้ขอที่พบบ่อยที่สุดที่อาจปรากฏในไฟล์บันทึก

  • โทเค็น User Agent จะใช้ในบรรทัด User-agent: ของ robots.txt เพื่อจับคู่กับประเภท Crawler เมื่อเขียนกฎการ Crawl สำหรับเว็บไซต์ Crawler บางตัวมีมากกว่า 1 โทเค็นดังที่แสดงในตาราง คุณต้องจับคู่โทเค็นของ Crawler เพียง 1 ตัวเท่านั้นเพื่อใช้กฎ รายการนี้ยังไม่ใช่ทั้งหมด แต่ครอบคลุม Crawler ส่วนใหญ่ที่อาจเห็นในเว็บไซต์ของคุณ
  • สตริง User Agent แบบเต็มเป็นคำอธิบายแบบเต็มของ Crawler และจะปรากฏในคำขอ HTTP และบันทึกการใช้เว็บ

Crawler ทั่วไป

Crawler ทั่วไปของ Google ใช้เพื่อค้นหาข้อมูลสำหรับสร้างดัชนีการค้นหาของ Google, ทำการ Crawl เฉพาะสำหรับผลิตภัณฑ์อื่นๆ และใช้สำหรับการวิเคราะห์ Crawler ประเภทนี้จะทําตามกฎของ robots.txt เสมอ และโดยทั่วไปจะทำการ Crawl จากช่วง IP ที่เผยแพร่ในออบเจ็กต์ googlebot.json

Crawler ทั่วไป
โทเค็น User Agent Googlebot
สตริง User Agent แบบเต็ม Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
โทเค็น User Agent Googlebot
สตริง User Agent แบบเต็ม
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • น้อยครั้ง
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

ใช้สําหรับทำการ Crawl URL ของรูปภาพสำหรับ Google รูปภาพและผลิตภัณฑ์ที่อ้างอิงรูปภาพ

โทเค็น User Agent
  • Googlebot-Image
  • Googlebot
สตริง User Agent แบบเต็ม Googlebot-Image/1.0

Googlebot News ใช้ Googlebot ในการ Crawl บทความข่าว แต่จะทำตามโทเค็น User Agent เก่า Googlebot-News

โทเค็น User Agent
  • Googlebot-News
  • Googlebot
สตริง User Agent แบบเต็ม User Agent ของ Googlebot-News ใช้สตริง User Agent หลายรายการของ Googlebot

ใช้สําหรับทำการ Crawl URL ของวิดีโอสําหรับ Google Video และผลิตภัณฑ์ที่อ้างอิงวิดีโอ

โทเค็น User Agent
  • Googlebot-Video
  • Googlebot
สตริง User Agent แบบเต็ม Googlebot-Video/1.0

Google StoreBot จะทำการ Crawl ผ่านหน้าเว็บบางประเภท ซึ่งรวมถึงแต่ไม่จำกัดเพียงหน้ารายละเอียดผลิตภัณฑ์ หน้ารถเข็น และหน้าชำระเงิน

โทเค็น User Agent Storebot-Google
สตริง User Agent แบบเต็ม
  • Agent ในเดสก์ท็อป:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agent ในอุปกรณ์เคลื่อนที่:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool เป็น Crawler ที่ Search ใช้ เช่น การทดสอบผลการค้นหาที่เป็นริชมีเดียและการตรวจสอบ URL ใน Search Console นอกจาก User Agent และโทเค็น User Agent แล้ว Crawler นี้จะเหมือนกับ Googlebot

โทเค็น User Agent
  • Google-InspectionTool
  • Googlebot
สตริง User Agent แบบเต็ม
  • อุปกรณ์เคลื่อนที่
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • เดสก์ท็อป
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther เป็น Crawler ทั่วไปที่ทีมผลิตภัณฑ์ต่างๆ อาจใช้เพื่อดึงเนื้อหาที่เข้าถึงได้แบบสาธารณะจากเว็บไซต์ เช่น ใช้สําหรับทำการ Crawl เพียงครั้งเดียวสำหรับการค้นคว้าและพัฒนาภายใน

โทเค็น User Agent GoogleOther
สตริง User Agent แบบเต็ม
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image คือ GoogleOther เวอร์ชันที่ได้รับการเพิ่มประสิทธิภาพสำหรับการดึงข้อมูล URL รูปภาพที่เข้าถึงได้แบบสาธารณะ

โทเค็น User Agent
  • GoogleOther-Image
  • GoogleOther
สตริง User Agent แบบเต็ม GoogleOther-Image/1.0

GoogleOther-Video คือ GoogleOther เวอร์ชันที่ได้รับการเพิ่มประสิทธิภาพสำหรับการดึงข้อมูล URL ของวิดีโอที่เข้าถึงได้แบบสาธารณะ

โทเค็น User Agent
  • GoogleOther-Video
  • GoogleOther
สตริง User Agent แบบเต็ม GoogleOther-Video/1.0

Google-Extended เป็นโทเค็นผลิตภัณฑ์แบบสแตนด์อโลนซึ่งทำหน้าที่เป็นส่วนควบคุมใหม่ที่ผู้เผยแพร่เว็บสามารถใช้จัดการว่าจะให้เว็บไซต์ของตนช่วยปรับปรุงแอป Gemini และ Vertex AI Generative API รวมถึงโมเดลรุ่นใหม่ๆ ที่ขับเคลื่อนผลิตภัณฑ์เหล่านั้นหรือไม่ Google-Extended ไม่ส่งผลต่อการรวมหรือการจัดอันดับเว็บไซต์ใน Google Search

โทเค็น User Agent Google-Extended
สตริง User Agent แบบเต็ม Google-Extended ไม่มีสตริง User Agent ของคำขอ HTTP แยกต่างหาก การ Crawl จะดําเนินการด้วยสตริง User Agent ของ Google ที่มีอยู่ มีการใช้ โทเค็น User Agent ของ robots.txt ในความสามารถในการควบคุม

Crawler กรณีพิเศษ

Crawler กรณีพิเศษจะใช้โดยผลิตภัณฑ์ที่เฉพาะเจาะจง ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์เกี่ยวกับขั้นตอนการ Crawl เช่น AdsBot จะไม่สนใจ User Agent ใน robots.txt ส่วนกลาง (*) เมื่อได้รับอนุญาตจากผู้เผยแพร่โฆษณา Crawler กรณีพิเศษอาจไม่สนใจกฎของ robots.txt ดังนั้นจึงทํางานจากช่วง IP ที่ต่างจาก Crawler ทั่วไป ช่วง IP จะเผยแพร่ในออบเจ็กต์ special-crawlers.json

Crawler กรณีพิเศษ

ใช้โดย Google API เพื่อส่งข้อความ Push ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent APIs-Google
สตริง User Agent แบบเต็ม APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของอุปกรณ์เคลื่อนที่ ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent AdsBot-Google-Mobile
สตริง User Agent แบบเต็ม Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของเดสก์ท็อป ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent AdsBot-Google
สตริง User Agent แบบเต็ม AdsBot-Google (+http://www.google.com/adsbot.html)

Crawler ของ AdSense จะไปยังเว็บไซต์ของคุณเพื่อพิจารณาเนื้อหาและนำเสนอโฆษณาที่เกี่ยวข้อง ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent Mediapartners-Google
สตริง User Agent แบบเต็ม Mediapartners-Google

Crawler ของ AdSense บนอุปกรณ์เคลื่อนที่จะเข้าเว็บไซต์เพื่อพิจารณาเนื้อหาและแสดงโฆษณาที่เกี่ยวข้อง ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent Mediapartners-Google
สตริง User Agent แบบเต็ม (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

User Agent "Google-Safety" จะจัดการการ Crawl สำหรับการละเมิดโดยเฉพาะ เช่น การค้นหามัลแวร์สำหรับลิงก์ที่โพสต์แบบสาธารณะในผลิตภัณฑ์และบริการของ Google User Agent นี้ไม่สนใจกฎของ robots.txt

สตริง User Agent แบบเต็ม Google-Safety

ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้

ผู้ใช้เป็นผู้เริ่มตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้เพื่อใช้ฟังก์ชันการดึงข้อมูลเฉพาะผลิตภัณฑ์ ตัวอย่างเช่น Google Site Verifier ดำเนินการตามคำขอของผู้ใช้ หรือเว็บไซต์ที่โฮสต์บน Google Cloud (GCP) มีฟีเจอร์ที่อนุญาตให้ผู้ใช้ของเว็บไซต์เรียกข้อมูลฟีด RSS ภายนอก โดยทั่วไปตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ช่วง IP ที่ใช้โดยตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้จะเผยแพร่ในออบเจ็กต์ user-triggered-fetchers.json และ user-triggered-fetchers-google.json

ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้

Feedfetcher ใช้สําหรับทำการ Crawl ฟีด RSS หรือ Atom สำหรับ Google Podcasts, Google News และ PubSubHubbub

โทเค็น User Agent FeedFetcher-Google
สตริง User Agent แบบเต็ม FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

การดึงข้อมูลและประมวลผลฟีดที่ผู้เผยแพร่เนื้อหาระบุไว้อย่างชัดเจนผ่านศูนย์ผู้เผยแพร่เนื้อหาของ Google เพื่อใช้ในหน้า Landing Page ของ Google News

สตริง User Agent แบบเต็ม GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Google อ่านออกเสียงจะดึงข้อมูลและอ่านหน้าเว็บตามคําขอของผู้ใช้โดยใช้การอ่านออกเสียงข้อความ (TTS)

สตริง User Agent แบบเต็ม

Agent ปัจจุบัน:

  • Agent ในเดสก์ท็อป:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agent ในอุปกรณ์เคลื่อนที่:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agent เดิม (เลิกใช้งาน):

google-speakr

เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะดึงข้อมูลเมื่อผู้ใช้ขอโทเค็นการยืนยันของ Search Console

สตริง User Agent แบบเต็ม Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

หมายเหตุเกี่ยวกับW.X.Y.Z ใน User Agent

เมื่อใดที่เห็นสตริง Chrome/W.X.Y.Z ในสตริง User Agent ในตาราง W.X.Y.Z คือตัวยึดตำแหน่งจริงๆ ที่แสดงถึงเวอร์ชันของเบราว์เซอร์ Chrome ที่ใช้โดย User Agent ดังกล่าว เช่น 41.0.2272.96 หมายเลขเวอร์ชันนี้จะเพิ่มขึ้นเมื่อเวลาผ่านไปเพื่อจับคู่กับ Chromium เวอร์ชันที่เผยแพร่ล่าสุดซึ่ง Googlebot ใช้

หากกำลังค้นหาบันทึกหรือกรองเซิร์ฟเวอร์สำหรับ User Agent ที่มีรูปแบบนี้ ให้ใช้ไวลด์การ์ดหมายเลขเวอร์ชันแทนการระบุหมายเลขเวอร์ชันที่ถูกต้อง

User Agent ใน robots.txt

เมื่อระบบรู้จัก User Agent หลายตัวในไฟล์ robots.txt แล้ว Google จะดำเนินการตาม User Agent ที่เจาะจงที่สุด หากต้องการให้ Crawler ของ Google ทั้งหมดสามารถทำการ Crawl หน้าเว็บได้ คุณไม่จำเป็นต้องใช้ไฟล์ robots.txt เลย แต่หากต้องการบล็อกหรืออนุญาตให้เข้าถึงเนื้อหาบางส่วน สามารถทำได้โดยระบุ Googlebot เป็น User Agent ตัวอย่างเช่น ไม่จำเป็นต้องใช้ไฟล์ robots.txt หากต้องการให้หน้าทั้งหมดปรากฏใน Google Search และหากต้องการให้โฆษณา AdSense ปรากฏในหน้า เช่นเดียวกัน หากต้องการบล็อกไม่ให้ Google เข้าถึงบางหน้าโดยสมบูรณ์ การบล็อก User Agent ของ Googlebot จะบล็อก User Agent อื่นๆ ทั้งหมดของ Google ด้วย

แต่หากต้องการการควบคุมที่ละเอียดยิ่งขึ้น คุณระบุให้เจาะจงกว่าเดิมได้ ตัวอย่างเช่น คุณอาจต้องการให้หน้าทั้งหมดปรากฏใน Google Search แต่ไม่ต้องการให้มีการ Crawl รูปภาพในไดเรกทอรีส่วนตัว ในกรณีนี้ ให้ใช้ robots.txt เพื่อไม่อนุญาตให้ User Agent ของ Googlebot-Image ทำการ Crawl ไฟล์ในไดเรกทอรีส่วนตัว (แต่อนุญาตให้ Googlebot ทำการ Crawl ไฟล์ทั้งหมด) ดังต่อไปนี้

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

อีกตัวอย่างหนึ่ง เช่น สมมติว่าต้องการแสดงโฆษณาในหน้าทั้งหมด แต่ไม่ต้องการให้หน้าเหล่านั้นปรากฏใน Google Search คุณบล็อก Googlebot แต่อนุญาต User Agent ของ Mediapartners-Google ได้ดังต่อไปนี้

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

การควบคุมความเร็วในการรวบรวมข้อมูล

Crawler ของ Google แต่ละโปรแกรมจะเข้าถึงเว็บไซต์เพื่อวัตถุประสงค์เฉพาะในอัตราที่ต่างกัน Google ใช้อัลกอริทึมเพื่อกำหนดอัตราการ Crawl ที่เหมาะสมสำหรับแต่ละเว็บไซต์ หาก Crawler ของ Google ทำการ Crawl เว็บไซต์ของคุณบ่อยเกินไป คุณลดอัตราการ Crawl ได้

Crawler ของ Google ที่เลิกใช้แล้ว

Crawler ของ Google ต่อไปนี้ไม่ได้ใช้งานอีกต่อไป และมีการบันทึกไว้ที่นี่เพื่อเป็นประวัติอ้างอิงเท่านั้น

Crawler ของ Google ที่เลิกใช้แล้ว

Duplex on the web

รองรับบริการ Duplex on the web

โทเค็น User Agent DuplexWeb-Google
สตริง User Agent แบบเต็ม Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

ตรวจสอบว่ามีส่วนหัว no-transform แสดงขึ้นมาหรือไม่เมื่อใดก็ตามที่ผู้ใช้คลิกหน้าของคุณในการค้นหาภายใต้เงื่อนไขที่เหมาะสม ระบบใช้ User Agent ของ Web Light เฉพาะสำหรับคำขอการเรียกดูที่ชัดแจ้งของบุคคลที่เข้าชม ดังนั้นจึงไม่สนใจกฎ robots.txt ที่ใช้เพื่อบล็อกคำขอรวบรวมข้อมูลอัตโนมัติได้

โทเค็น User Agent googleweblight
สตริง User Agent แบบเต็ม Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของ iPhone ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent AdsBot-Google-Mobile
สตริง User Agent แบบเต็ม Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

ตรวจสอบคุณภาพโฆษณาในหน้าแอป Android ทำตามกฎของโรบ็อต AdsBot-Google แต่ไม่สนใจ User Agent ส่วนกลาง (*) ใน robots.txt

โทเค็น User Agent AdsBot-Google-Mobile-Apps
สตริง User Agent แบบเต็ม AdsBot-Google-Mobile-Apps
โทเค็น User Agent
  • Googlebot-Image
  • Googlebot
สตริง User Agent แบบเต็ม Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon