Ringkasan tentang pengambil dan crawler Google (agen pengguna)
Google menggunakan crawler dan pengambil untuk melakukan tindakan terhadap produknya, baik secara otomatis ataupun dipicu oleh permintaan pengguna.
"Crawler" (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Crawler utama Google disebut Googlebot.
Pengambil, seperti browser, adalah alat yang meminta satu URL saat diminta oleh pengguna.
Tabel berikut menunjukkan crawler dan pengambil Google yang digunakan oleh berbagai produk dan layanan, cara melihatnya di log perujuk, dan cara menentukannya di robots.txt.
-
Token agen pengguna digunakan di baris
User-agent:
di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda. - String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di log web dan permintaan HTTP Anda.
Crawler umum
Crawler umum Google digunakan untuk membangun indeks penelusuran Google, melakukan crawl spesifik per produk lainnya, dan untuk analisis. Crawler ini selalu mematuhi aturan robots.txt dan umumnya meng-crawl dari rentang IP yang dipublikasikan di objek googlebot.json.
Crawler Umum | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Digunakan untuk meng-crawl byte gambar untuk Google Gambar dan produk lainnya yang bergantung pada gambar.
|
||||
Googlebot-News |
Googlebot-News menggunakan Googlebot untuk meng-crawl artikel berita, tetapi tetap mematuhi
token agen pengguna historisnya,
|
||||
Googlebot Video |
Digunakan untuk meng-crawl byte video untuk Google Video dan produk lainnya yang bergantung pada video.
|
||||
Google Favicon |
|
||||
Google StoreBot |
Google Storebot meng-crawl jenis halaman tertentu, termasuk, tetapi tidak terbatas pada, halaman detail produk, halaman keranjang, dan halaman checkout.
|
||||
|
|
||||
|
Crawler umum yang dapat digunakan oleh berbagai tim produk untuk mengambil konten yang dapat diakses secara publik dari situs. Misalnya, situs ini dapat digunakan untuk crawl satu kali untuk riset dan pengembangan internal.
|
Crawler kasus khusus
Crawler kasus khusus digunakan oleh produk tertentu saat ada perjanjian antara
situs yang di-crawl dan produk tersebut tentang proses crawl-nya. Misalnya, AdsBot
mengabaikan
agen pengguna robots.txt global (*
) dengan izin penayang iklan. Crawler
kasus khusus mungkin mengabaikan aturan robots.txt sehingga beroperasi dari rentang IP yang berbeda
dengan crawler umum. Rentang IP dipublikasikan di
objek special-crawlers.json.
Crawler kasus khusus | |||||
---|---|---|---|---|---|
APIs-Google |
Digunakan oleh Google API untuk mengirimkan pesan notifikasi push. Mengabaikan agen pengguna global
(
|
||||
AdsBot Mobile Web Android |
Memeriksa
kualitas iklan halaman web Android.
Mengabaikan agen pengguna global (
|
||||
AdsBot Mobile Web |
Memeriksa
kualitas iklan halaman web iPhone.
Mengabaikan agen pengguna global (
|
||||
AdsBot |
Memeriksa
kualitas iklan halaman web desktop.
Mengabaikan agen pengguna global (
|
||||
AdSense |
Crawler AdSense mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan
yang relevan. Mengabaikan agen pengguna global (
|
||||
Mobile AdSense |
Crawler AdSense Seluler mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan
iklan yang relevan. Mengabaikan agen pengguna global (
|
Pengambil yang dipicu pengguna
Pengambil yang dipicu pengguna dipicu oleh pengguna untuk melakukan fungsi spesifik per produk. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna. Karena pengambilan diminta oleh pengguna, pengambilan ini umumnya mengabaikan aturan robots.txt. Rentang IP yang digunakan pengambil yang dipicu pengguna dipublikasikan di objek user-triggered-fetchers.json.
Pengambil yang dipicu pengguna | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher digunakan untuk meng-crawl feed RSS atau Atom untuk Google Podcast, Google Berita, dan PubSubHubbub.
|
||||
Pusat Penerbit Google |
Mengambil dan memproses feed yang disediakan secara eksplisit oleh penerbit melalui Pusat Penerbit Google untuk digunakan di halaman landing Google News.
|
||||
Google Read Aloud |
Atas permintaan pengguna, Google Read Aloud mengambil dan membaca halaman web menggunakan text-to-speech (TTS).
|
||||
Pemverifikasi Situs Google |
Pemverifikasi Situs Google mengambil token verifikasi Search Console atas permintaan pengguna.
|
Catatan tentang Chrome/W.X.Y.Z pada agen pengguna
Saat Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna
dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi
browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96
. Nomor versi
ini akan bertambah seiring waktu untuk
mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.
Jika Anda menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, gunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.
Agen pengguna dalam robots.txt
Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling
spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt
sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses
sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya,
jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul
di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman
sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot
juga akan memblokir semua
agen pengguna Google lainnya.
Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin
semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori
pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang
agen pengguna Googlebot-Image
meng-crawl file dalam direktori pribadi Anda
(sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman
tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan
agen pengguna Mediapartners-Google
, seperti ini:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Mengontrol kecepatan crawling
Setiap crawler Google mengakses situs untuk tujuan tertentu dan dengan kecepatan yang berbeda. Google menggunakan algoritma untuk menentukan frekuensi crawling yang optimal bagi setiap situs. Jika crawler Google terlalu sering meng-crawl situs, Anda dapat mengurangi frekuensi crawling.
Crawler Google yang sudah dihentikan
Crawler Google berikut tidak lagi digunakan, dan hanya tercatat di sini untuk referensi historis.
Crawler Google yang sudah dihentikan | |||||
---|---|---|---|---|---|
Duplex on the web |
Mendukung layanan Duplex on the web.
|
||||
Web Light |
Memeriksa keberadaan header
|
||||
Mobile Apps Android |
Memeriksa kualitas iklan pada
halaman aplikasi Android.
Mematuhi aturan robots
|