Memverifikasi Googlebot dan crawler Google lainnya
Anda dapat memverifikasi apakah web crawler yang mengakses server Anda benar-benar crawler Google, seperti Googlebot. Tindakan ini berguna jika Anda khawatir terhadap spammer atau pembuat masalah lainnya yang mengakses situs Anda dengan mengaku sebagai Googlebot.
Crawler Google dibagi menjadi tiga kategori:
Jenis | Deskripsi | Mask DNS terbalik | Rentang IP |
---|---|---|---|
Googlebot | Crawler utama untuk produk penelusuran Google. Selalu mematuhi aturan robots.txt. |
crawl-***-***-***-***.googlebot.com atau
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Crawler kasus khusus | Crawler yang melakukan fungsi tertentu (seperti AdsBot), yang mungkin mematuhi atau tidak mematuhi aturan robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Pengambil yang dipicu pengguna |
Alat dan fungsi produk tempat pengambilan dipicu pengguna akhir. Misalnya,
Pemverifikasi Situs Google
bertindak atas permintaan pengguna. Karena pengambilan diminta oleh pengguna, pengambil ini
mengabaikan aturan robots.txt. Pengambil yang dikontrol oleh Google berasal dari IP di objek user-triggered-fetchers-google.json dan di-resolve ke
nama host google.com . IP dalam objek user-triggered-fetchers.json
akan di-resolve ke nama host gae.googleusercontent.com . IP ini digunakan, misalnya,
jika situs yang berjalan di Google Cloud (GCP) memiliki fitur yang memerlukan pengambilan feed RSS
eksternal atas permintaan pengguna situs tersebut.
|
***-***-***-***.gae.googleusercontent.com atau
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json dan user-triggered-fetchers-google.json |
Ada dua metode untuk memverifikasi crawler Google:
- Secara manual: Untuk pencarian satu kali, gunakan alat command line. Metode ini sudah cukup bagi sebagian besar kasus penggunaan.
- Secara otomatis: Untuk pencarian dalam skala besar, gunakan solusi otomatis untuk mencocokkan alamat IP crawler dengan daftar alamat IP Googlebot yang dipublikasikan.
Menggunakan alat command line
-
Jalankan pencarian balik DNS di alamat IP pengaksesan dari log Anda, menggunakan
perintah
host
. -
Verifikasi bahwa nama domainnya adalah
googlebot.com
,google.com
, ataugoogleusercontent.com
. -
Jalankan pencarian DNS maju pada nama domain yang diambil di langkah pertama menggunakan
perintah
host
pada nama domain yang diambil. - Verifikasi bahwa alamat tersebut sama dengan alamat IP pengaksesan asli dari log Anda.
Contoh 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Contoh 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Contoh 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Menggunakan solusi otomatis
Atau, Anda dapat mengidentifikasi Googlebot berdasarkan alamat IP dengan mencocokkan alamat IP crawler dengan daftar rentang IP crawler dan pengambil Google:
Untuk alamat IP Google lain tempat situs Anda dapat diakses (misalnya Apps Script), cocokkan alamat IP pengaksesan dengan daftar umum alamat IP Google. Perhatikan bahwa alamat IP dalam file JSON ditampilkan dalam format CIDR.