Ringkasan tentang pengambil dan crawler Google (agen pengguna)
Google menggunakan crawler dan pengambil untuk melakukan tindakan terhadap produknya, baik secara otomatis ataupun dipicu oleh permintaan pengguna.
"Crawler" (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Crawler utama Google yang digunakan untuk Google Penelusuran disebut Googlebot.
Pengambil, seperti browser, adalah alat yang meminta satu URL saat diminta oleh pengguna.
Tabel berikut menunjukkan crawler dan pengambil Google yang digunakan oleh berbagai produk dan layanan, cara melihatnya di log perujuk, dan cara menentukannya di robots.txt. Daftar ini tidak lengkap, dan hanya mencakup pemohon paling umum yang mungkin muncul dalam file log.
-
Token agen pengguna digunakan di baris
User-agent:
di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda. - String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di log web dan permintaan HTTP Anda.
Crawler umum
Crawler umum Google digunakan untuk menemukan informasi guna membuat indeks penelusuran Google, melakukan crawl khusus produk lainnya, dan untuk analisis. Crawler ini selalu mematuhi aturan robots.txt dan umumnya meng-crawl dari rentang IP yang dipublikasikan di objek googlebot.json.
Crawler Umum | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Digunakan untuk meng-crawl URL gambar untuk Google Gambar dan produk lainnya yang bergantung pada gambar.
|
||||
Googlebot-News |
Googlebot-News menggunakan Googlebot untuk meng-crawl artikel berita, tetapi tetap mematuhi
token agen pengguna historisnya,
|
||||
Googlebot Video |
Digunakan untuk meng-crawl URL video untuk Google Video dan produk lainnya yang bergantung pada video.
|
||||
Google StoreBot |
Google StoreBot meng-crawl jenis halaman tertentu, termasuk, tetapi tidak terbatas pada, halaman detail produk, halaman keranjang, dan halaman checkout.
|
||||
Google-InspectionTool |
Google-InspectionTool adalah crawler yang digunakan oleh alat pengujian Penelusuran seperti Pengujian Hasil Multimedia dan inspeksi URL di Search Console. Selain agen pengguna dan token agen pengguna, crawler ini sama seperti Googlebot.
|
||||
GoogleOther |
GoogleOther adalah crawler umum yang dapat digunakan oleh berbagai tim produk untuk mengambil konten yang dapat diakses secara publik dari situs. Misalnya, crawler ini dapat digunakan untuk crawl satu kali untuk riset dan pengembangan internal.
|
||||
GoogleOther-Image |
GoogleOther-Image adalah versi GoogleOther yang dioptimalkan untuk mengambil URL gambar yang dapat diakses secara publik.
|
||||
GoogleOther-Video |
GoogleOther-Video adalah versi GoogleOther yang dioptimalkan untuk mengambil URL video yang dapat diakses secara publik.
|
||||
Google-CloudVertexBot |
Google-CloudVertexBot meng-crawl situs berdasarkan permintaan pemilik situs saat mem-build Agen Vertex AI.
|
||||
Google-Extended |
|
Crawler kasus khusus
Crawler kasus khusus digunakan oleh produk tertentu saat ada perjanjian antara
situs yang di-crawl dan produk tersebut tentang proses crawl-nya. Misalnya, AdsBot
mengabaikan
agen pengguna robots.txt global (*
) dengan izin penayang iklan. Crawler
kasus khusus mungkin mengabaikan aturan robots.txt sehingga beroperasi dari rentang IP yang berbeda
dengan crawler umum. Rentang IP dipublikasikan di
objek special-crawlers.json.
Crawler kasus khusus | |||||
---|---|---|---|---|---|
APIs-Google |
Digunakan oleh Google API untuk mengirimkan pesan notifikasi push. Mengabaikan agen pengguna global
(
|
||||
AdsBot Mobile Web |
Memeriksa
kualitas iklan halaman web seluler.
Mengabaikan agen pengguna global (
|
||||
AdsBot |
Memeriksa
kualitas iklan halaman web desktop.
Mengabaikan agen pengguna global (
|
||||
AdSense |
Crawler AdSense mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan
yang relevan. Mengabaikan agen pengguna global (
|
||||
Mobile AdSense |
Crawler AdSense Seluler mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan
iklan yang relevan. Mengabaikan agen pengguna global (
|
||||
Google-Safety |
Agen pengguna Google-Safety menangani crawling khusus penyalahgunaan, seperti penemuan malware untuk link yang diposting secara publik di properti Google. Agen pengguna ini mengabaikan aturan robots.txt.
|
Pengambil yang dipicu pengguna
Pengambil yang dipicu pengguna dimulai oleh pengguna untuk menjalankan fungsi pengambilan spesifik per produk. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna, atau situs yang dihosting di Google Cloud (GCP) memiliki fitur yang memungkinkan pengguna situs mengambil feed RSS eksternal. Karena pengambilan diminta oleh pengguna, pengambil ini umumnya mengabaikan aturan robots.txt. Rentang IP yang digunakan oleh pengambil yang dipicu pengguna dipublikasikan di objek user-triggered-fetchers.json dan user-triggered-fetchers-google.json.
Pengambil yang dipicu pengguna | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher digunakan untuk meng-crawl feed RSS atau Atom untuk Google Podcast, Google Berita, dan PubSubHubbub.
|
||||
Pusat Penerbit Google |
Mengambil dan memproses feed yang disediakan secara eksplisit oleh penerbit melalui Pusat Penerbit Google untuk digunakan di halaman landing Google News.
|
||||
Google Read Aloud |
Atas permintaan pengguna, Google Read Aloud mengambil dan membaca halaman web menggunakan text-to-speech (TTS).
|
||||
Pemverifikasi Situs Google |
Pemverifikasi Situs Google mengambil token verifikasi Search Console atas permintaan pengguna.
|
Catatan tentang Chrome/W.X.Y.Z pada agen pengguna
Saat Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna
dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi
browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96
. Nomor versi
ini akan bertambah seiring waktu untuk
mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.
Jika Anda menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, gunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.
Agen pengguna dalam robots.txt
Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling
spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt
sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses
sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya,
jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul
di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman
sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot
juga akan memblokir semua
agen pengguna Google lainnya.
Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin
semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori
pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang
agen pengguna Googlebot-Image
meng-crawl file dalam direktori pribadi Anda
(sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman
tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan
agen pengguna Mediapartners-Google
, seperti ini:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Mengontrol kecepatan crawling
Setiap crawler Google mengakses situs untuk tujuan tertentu dan dengan kecepatan yang berbeda. Google menggunakan algoritma untuk menentukan frekuensi crawling yang optimal bagi setiap situs. Jika crawler Google terlalu sering meng-crawl situs, Anda dapat mengurangi frekuensi crawling.
Crawler Google yang sudah dihentikan
Crawler Google berikut tidak lagi digunakan, dan hanya tercatat di sini untuk referensi historis.
Crawler Google yang sudah dihentikan | |||||
---|---|---|---|---|---|
Duplex on the web |
Mendukung layanan Duplex on the web.
|
||||
Web Light |
Memeriksa keberadaan header
|
||||
AdsBot Mobile Web |
Memeriksa
kualitas iklan halaman web iPhone.
Mengabaikan agen pengguna global (
|
||||
Mobile Apps Android |
Memeriksa kualitas iklan pada
halaman aplikasi Android.
Mematuhi aturan robots
|
||||
Google Favicon |
|