การยืนยัน Googlebot และโปรแกรมรวบรวมข้อมูลอื่นๆ ของ Google
คุณยืนยันได้ว่า Crawler ที่เข้าถึงเซิร์ฟเวอร์ของคุณคือ Crawler ของ Google จริง เช่น Googlebot วิธีนี้มีประโยชน์หากกังวลว่านักส่งสแปมหรือผู้ไม่ประสงค์ดีอื่นๆ กำลังเข้าถึงเว็บไซต์ของคุณโดยอ้างตัวเป็น Googlebot
Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้
ประเภท | คำอธิบาย | มาสก์ DNS แบบย้อนกลับ | ช่วง IP |
---|---|---|---|
Googlebot | Crawler หลักสําหรับผลิตภัณฑ์การค้นหาของ Google ทำตามกฎของ robots.txt เสมอ |
crawl-***-***-***-***.googlebot.com หรือ geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Crawler กรณีพิเศษ | Crawler ที่ใช้ฟังก์ชันเฉพาะ (เช่น AdsBot) ซึ่งอาจทำตามหรือไม่ทำตามกฎของ robots.txt | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ |
เครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ ตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ตัวดึงข้อมูลที่ควบคุมโดย Google จะมาจาก IP ในออบเจ็กต์ user-triggered-fetchers-google.json และแปลเป็นชื่อโฮสต์ google.com IP ในออบเจ็กต์ user-triggered-fetchers.json จะแปลเป็นชื่อโฮสต์ gae.googleusercontent.com ตัวอย่างเช่น ระบบจะใช้ IP เหล่านี้ หากเว็บไซต์ที่ทำงานบน Google Cloud (GCP) มีฟีเจอร์ที่ต้องดึงข้อมูลฟีด RSS ภายนอกตามคำขอของผู้ใช้เว็บไซต์นั้น
|
***-***-***-***.gae.googleusercontent.com หรือ google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json และ user-triggered-fetchers-google.json |
การยืนยัน Crawler ของ Google ทําได้ 2 วิธี ดังนี้
- ทำด้วยตนเอง: สําหรับการค้นหาแบบครั้งเดียว ให้ใช้เครื่องมือบรรทัดคําสั่ง โดยวิธีนี้เพียงพอแล้วสําหรับกรณีใช้งานส่วนใหญ่
- ทำโดยอัตโนมัติ: สําหรับการค้นหาขนาดใหญ่ ให้ใช้โซลูชันอัตโนมัติเพื่อจับคู่ที่อยู่ IP ของ Crawler กับรายการที่อยู่ IP ของ Googlebot ที่เผยแพร่
ใช้เครื่องมือบรรทัดคำสั่ง
-
เรียกใช้การค้นหา DNS แบบย้อนกลับกับที่อยู่ IP ที่เข้าถึงจากบันทึกของคุณโดยใช้คำสั่ง
host
-
ยืนยันว่าชื่อโดเมนเป็น
googlebot.com
,google.com
, หรือgoogleusercontent.com
-
เรียกใช้การค้นหา DNS แบบส่งต่อกับชื่อโดเมนที่ได้รับในขั้นตอนที่ 1 โดยใช้คำสั่ง
host
กับชื่อโดเมนที่ได้รับนั้น - จากนั้นตรวจดูว่าชื่อโดเมนที่ได้นั้นเป็นที่อยู่ IP เดิมที่เข้าถึงจากบันทึกของคุณ
ตัวอย่างที่ 1
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
ตัวอย่างที่ 2
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
ตัวอย่างที่ 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
ใช้โซลูชันอัตโนมัติ
หรือจะระบุ Googlebot ตามที่อยู่ IP ก็ได้ โดยจับคู่ที่อยู่ IP ของ Crawler กับรายการช่วง IP ของ Crawler และตัวดึงข้อมูลของ Google ดังนี้
สําหรับที่อยู่ IP ของ Google อื่นๆ จากจุดที่อาจมีการเข้าถึงเว็บไซต์ของคุณ (เช่น Apps Script) ให้จับคู่ที่อยู่ IP ที่เข้าถึงกับรายการที่อยู่ IP ของ Google โปรดทราบว่าที่อยู่ IP ในไฟล์ JSON จะแสดงในรูปแบบ CIDR