Ringkasan tentang pengambil dan crawler Google (agen pengguna)

Google menggunakan crawler dan pengambil untuk melakukan tindakan terhadap produknya, baik secara otomatis ataupun dipicu oleh permintaan pengguna.

"Crawler" (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Crawler utama Google yang digunakan untuk Google Penelusuran disebut Googlebot.

Pengambil, seperti browser, adalah alat yang meminta satu URL saat diminta oleh pengguna.

Tabel berikut menunjukkan crawler dan pengambil Google yang digunakan oleh berbagai produk dan layanan, cara melihatnya di log perujuk, dan cara menentukannya di robots.txt. Daftar ini tidak lengkap, dan hanya mencakup pemohon paling umum yang mungkin muncul dalam file log.

  • Token agen pengguna digunakan di baris User-agent: di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di log web dan permintaan HTTP Anda.

Crawler umum

Crawler umum Google digunakan untuk membangun indeks penelusuran Google, melakukan crawl spesifik per produk lainnya, dan untuk analisis. Crawler ini selalu mematuhi aturan robots.txt dan umumnya meng-crawl dari rentang IP yang dipublikasikan di objek googlebot.json.

Crawler Umum

Googlebot Smartphone

Token agen pengguna Googlebot
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

Token agen pengguna Googlebot
String agen pengguna lengkap
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Jarang:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Image

Digunakan untuk meng-crawl byte gambar untuk Google Gambar dan produk lainnya yang bergantung pada gambar.

Token agen pengguna
  • Googlebot-Image
  • Googlebot
String agen pengguna lengkap Googlebot-Image/1.0

Googlebot-News

Googlebot-News menggunakan Googlebot untuk meng-crawl artikel berita, tetapi tetap mematuhi token agen pengguna historisnya, Googlebot-News.

Token agen pengguna
  • Googlebot-News
  • Googlebot
String agen pengguna lengkap Agen pengguna Googlebot-News menggunakan berbagai string agen pengguna Googlebot.

Googlebot Video

Digunakan untuk meng-crawl byte video untuk Google Video dan produk lainnya yang bergantung pada video.

Token agen pengguna
  • Googlebot-Video
  • Googlebot
String agen pengguna lengkap Googlebot-Video/1.0

Google StoreBot

Google Storebot meng-crawl jenis halaman tertentu, termasuk, tetapi tidak terbatas pada, halaman detail produk, halaman keranjang, dan halaman checkout.

Token agen pengguna Storebot-Google
String agen pengguna lengkap
  • Agen desktop:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
  • Agen seluler:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google-InspectionTool

Google-InspectionTool adalah crawler yang digunakan oleh alat pengujian Penelusuran seperti Pengujian Hasil Multimedia dan inspeksi URL di Search Console. Selain agen pengguna dan token agen pengguna, crawler ini sama seperti Googlebot.

Token agen pengguna
  • Google-InspectionTool
  • Googlebot
String agen pengguna lengkap
  • Seluler
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Desktop
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

GoogleOther adalah crawler umum yang dapat digunakan oleh berbagai tim produk untuk mengambil konten yang dapat diakses secara publik dari situs. Misalnya, situs ini dapat digunakan untuk crawl satu kali untuk riset dan pengembangan internal.

Token agen pengguna GoogleOther
String agen pengguna lengkap GoogleOther

Google-Extended

Google-Extended adalah token produk mandiri yang dapat digunakan penayang web untuk mengelola apakah situs mereka dapat membantu meningkatkan kualitas API generatif Vertex AI dan Bard, termasuk model generasi mendatang yang mendukung produk tersebut.

Token agen pengguna Google-Extended
String agen pengguna lengkap Google-Extended tidak memiliki string agen pengguna permintaan HTTP yang terpisah. Crawling dilakukan dengan string agen pengguna Google yang sudah ada; token agen pengguna robots.txt digunakan dalam kapasitas kontrol.

Crawler kasus khusus

Crawler kasus khusus digunakan oleh produk tertentu saat ada perjanjian antara situs yang di-crawl dan produk tersebut tentang proses crawl-nya. Misalnya, AdsBot mengabaikan agen pengguna robots.txt global (*) dengan izin penayang iklan. Crawler kasus khusus mungkin mengabaikan aturan robots.txt sehingga beroperasi dari rentang IP yang berbeda dengan crawler umum. Rentang IP dipublikasikan di objek special-crawlers.json.

Crawler kasus khusus

APIs-Google

Digunakan oleh Google API untuk mengirimkan pesan notifikasi push. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna APIs-Google
String agen pengguna lengkap APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Memeriksa kualitas iklan halaman web Android. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Memeriksa kualitas iklan halaman web iPhone. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan halaman web desktop. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google
String agen pengguna lengkap AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Crawler AdSense mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan yang relevan. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap Mediapartners-Google

Mobile AdSense

Crawler AdSense Seluler mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan yang relevan. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety

Agen pengguna Google-Safety menangani crawling khusus penyalahgunaan, seperti penemuan malware untuk link yang diposting secara publik di properti Google. Agen pengguna ini mengabaikan aturan robots.txt.

String agen pengguna lengkap Google-Safety

Pengambil yang dipicu pengguna

Pengambil yang dipicu pengguna dipicu oleh pengguna untuk melakukan fungsi spesifik per produk. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna. Karena pengambilan diminta oleh pengguna, pengambilan ini umumnya mengabaikan aturan robots.txt. Rentang IP yang digunakan pengambil yang dipicu pengguna dipublikasikan di objek user-triggered-fetchers.json.

Pengambil yang dipicu pengguna

Feedfetcher

Feedfetcher digunakan untuk meng-crawl feed RSS atau Atom untuk Google Podcast, Google Berita, dan PubSubHubbub.

Token agen pengguna FeedFetcher-Google
String agen pengguna lengkap FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Pusat Penerbit Google

Mengambil dan memproses feed yang disediakan secara eksplisit oleh penerbit melalui Pusat Penerbit Google untuk digunakan di halaman landing Google News.

String agen pengguna lengkap GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud

Atas permintaan pengguna, Google Read Aloud mengambil dan membaca halaman web menggunakan text-to-speech (TTS).

String agen pengguna lengkap

Agen saat ini:

  • Agen desktop:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agen seluler:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agen lama (tidak digunakan lagi):

google-speakr

Pemverifikasi Situs Google

Pemverifikasi Situs Google mengambil token verifikasi Search Console atas permintaan pengguna.

String agen pengguna lengkap Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Catatan tentang Chrome/W.X.Y.Z pada agen pengguna

Saat Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96. Nomor versi ini akan bertambah seiring waktu untuk mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.

Jika Anda menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, gunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.

Agen pengguna dalam robots.txt

Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya, jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-Image meng-crawl file dalam direktori pribadi Anda (sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan agen pengguna Mediapartners-Google, seperti ini:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Mengontrol kecepatan crawling

Setiap crawler Google mengakses situs untuk tujuan tertentu dan dengan kecepatan yang berbeda. Google menggunakan algoritma untuk menentukan frekuensi crawling yang optimal bagi setiap situs. Jika crawler Google terlalu sering meng-crawl situs, Anda dapat mengurangi frekuensi crawling.

Crawler Google yang sudah dihentikan

Crawler Google berikut tidak lagi digunakan, dan hanya tercatat di sini untuk referensi historis.

Crawler Google yang sudah dihentikan

Duplex on the web

Mendukung layanan Duplex on the web.

Token agen pengguna DuplexWeb-Google
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Memeriksa keberadaan header no-transform setiap kali pengguna mengklik halaman Anda di penelusuran dalam kondisi yang sesuai. Agen pengguna Web Light hanya digunakan untuk permintaan penjelajahan eksplisit dari pengunjung manusia, sehingga akan mengabaikan aturan robots.txt, yang digunakan untuk memblokir permintaan crawling otomatis.

Token agen pengguna googleweblight
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Mobile Apps Android

Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robots AdsBot-Google, tetapi mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile-Apps
String agen pengguna lengkap AdsBot-Google-Mobile-Apps

Google Favicon

Token agen pengguna
  • Googlebot-Image
  • Googlebot
String agen pengguna lengkap Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon