Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Ringkasan tentang crawler Google (agen pengguna)
"Crawler" (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang
digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke
halaman web lainnya. Crawler utama Google disebut
Googlebot. Tabel ini mencantumkan informasi
tentang crawler Google umum yang mungkin Anda lihat di log perujuk, serta cara menentukan crawler tersebut di
robots.txt,
tag metarobots, dan
aturan HTTP X-Robots-Tag.
Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:
Token agen pengguna digunakan di baris User-agent: dalam robots.txt
agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari
satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu
aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs
Anda.
String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di
log web dan permintaan HTTP Anda.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Saat Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna
dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi
browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96. Nomor versi
ini akan bertambah dari waktu ke waktu untuk
mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.
Jika Anda menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini,
gunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi
yang tepat.
Agen pengguna dalam robots.txt
Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling
spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt
sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses
sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya,
jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul
di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman
sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot juga akan memblokir semua
agen pengguna Google lainnya.
Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin
semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori
pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang
agen pengguna Googlebot-Image meng-crawl file dalam direktori pribadi Anda
(sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:
Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman
tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan
agen pengguna Mediapartners-Google, seperti ini:
Setiap crawler Google mengakses situs untuk tujuan tertentu dan dengan kecepatan yang berbeda. Google menggunakan
algoritme untuk menentukan kecepatan crawling yang optimal bagi setiap situs. Jika crawler Google terlalu sering
meng-crawl situs, Anda dapat
mengurangi frekuensi crawling.
Crawler Google yang sudah dihentikan
Crawler Google berikut tidak lagi digunakan, dan hanya tercatat di sini untuk referensi historis.
Crawler Google yang sudah dihentikan
Duplex on the web
Mendukung layanan Duplex on the web.
Token agen pengguna
DuplexWeb-Google
String agen pengguna lengkap
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Memeriksa keberadaan header no-transform setiap kali pengguna mengklik
halaman Anda di penelusuran dalam kondisi yang sesuai. Agen pengguna Web Light hanya digunakan
untuk permintaan penjelajahan eksplisit dari pengunjung manusia, sehingga akan mengabaikan aturan robots.txt,
yang digunakan untuk memblokir permintaan crawling otomatis.
Token agen pengguna
googleweblight
String agen pengguna lengkap
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19