Ringkasan tentang pengambil dan crawler Google (agen pengguna)

Google menggunakan crawler dan pengambil untuk melakukan tindakan terhadap produknya, baik secara otomatis ataupun dipicu oleh permintaan pengguna.

"Crawler" (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Crawler utama Google yang digunakan untuk Google Penelusuran disebut Googlebot.

Pengambil, seperti browser, adalah alat yang meminta satu URL saat diminta oleh pengguna.

Tabel berikut menunjukkan crawler dan pengambil Google yang digunakan oleh berbagai produk dan layanan, cara melihatnya di log perujuk, dan cara menentukannya di robots.txt. Daftar ini tidak lengkap, dan hanya mencakup pemohon paling umum yang mungkin muncul dalam file log.

  • Token agen pengguna digunakan di baris User-agent: di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Crawler tertentu memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan satu aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, yang muncul di log web dan permintaan HTTP Anda.

Crawler umum

Crawler umum Google digunakan untuk menemukan informasi guna membuat indeks penelusuran Google, melakukan crawl khusus produk lainnya, dan untuk analisis. Crawler ini selalu mematuhi aturan robots.txt dan umumnya meng-crawl dari rentang IP yang dipublikasikan di objek googlebot.json.

Crawler Umum
Token agen pengguna Googlebot
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Token agen pengguna Googlebot
String agen pengguna lengkap
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Jarang:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Digunakan untuk meng-crawl URL gambar untuk Google Gambar dan produk lainnya yang bergantung pada gambar.

Token agen pengguna
  • Googlebot-Image
  • Googlebot
String agen pengguna lengkap Googlebot-Image/1.0

Googlebot-News menggunakan Googlebot untuk meng-crawl artikel berita, tetapi tetap mematuhi token agen pengguna historisnya, Googlebot-News.

Token agen pengguna
  • Googlebot-News
  • Googlebot
String agen pengguna lengkap Agen pengguna Googlebot-News menggunakan berbagai string agen pengguna Googlebot.

Digunakan untuk meng-crawl URL video untuk Google Video dan produk lainnya yang bergantung pada video.

Token agen pengguna
  • Googlebot-Video
  • Googlebot
String agen pengguna lengkap Googlebot-Video/1.0

Google StoreBot meng-crawl jenis halaman tertentu, termasuk, tetapi tidak terbatas pada, halaman detail produk, halaman keranjang, dan halaman checkout.

Token agen pengguna Storebot-Google
String agen pengguna lengkap
  • Agen desktop:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agen seluler:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool adalah crawler yang digunakan oleh alat pengujian Penelusuran seperti Pengujian Hasil Multimedia dan inspeksi URL di Search Console. Selain agen pengguna dan token agen pengguna, crawler ini sama seperti Googlebot.

Token agen pengguna
  • Google-InspectionTool
  • Googlebot
String agen pengguna lengkap
  • Seluler
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Desktop
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther adalah crawler umum yang dapat digunakan oleh berbagai tim produk untuk mengambil konten yang dapat diakses secara publik dari situs. Misalnya, crawler ini dapat digunakan untuk crawl satu kali untuk riset dan pengembangan internal.

Token agen pengguna GoogleOther
String agen pengguna lengkap
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image adalah versi GoogleOther yang dioptimalkan untuk mengambil URL gambar yang dapat diakses secara publik.

Token agen pengguna
  • GoogleOther-Image
  • GoogleOther
String agen pengguna lengkap GoogleOther-Image/1.0

GoogleOther-Video adalah versi GoogleOther yang dioptimalkan untuk mengambil URL video yang dapat diakses secara publik.

Token agen pengguna
  • GoogleOther-Video
  • GoogleOther
String agen pengguna lengkap GoogleOther-Video/1.0

Google-CloudVertexBot meng-crawl situs berdasarkan permintaan pemilik situs saat mem-build Agen Vertex AI.

Token agen pengguna
  • Google-CloudVertexBot
  • Googlebot
Substring agen pengguna Google-CloudVertexBot

Google-Extended adalah token produk mandiri yang dapat digunakan penayang web untuk mengelola apakah situs mereka dapat membantu meningkatkan kualitas API generatif Vertex AI dan Aplikasi Gemini, termasuk model generasi mendatang yang mendukung produk tersebut. Google-Extended tidak memengaruhi penyertaan atau peringkat situs di Google Penelusuran.

Token agen pengguna Google-Extended
String agen pengguna lengkap Google-Extended tidak memiliki string agen pengguna permintaan HTTP yang terpisah. Crawling dilakukan dengan string agen pengguna Google yang sudah ada; token agen pengguna robots.txt digunakan dalam kapasitas kontrol.

Crawler kasus khusus

Crawler kasus khusus digunakan oleh produk tertentu saat ada perjanjian antara situs yang di-crawl dan produk tersebut tentang proses crawl-nya. Misalnya, AdsBot mengabaikan agen pengguna robots.txt global (*) dengan izin penayang iklan. Crawler kasus khusus mungkin mengabaikan aturan robots.txt sehingga beroperasi dari rentang IP yang berbeda dengan crawler umum. Rentang IP dipublikasikan di objek special-crawlers.json.

Crawler kasus khusus

Digunakan oleh Google API untuk mengirimkan pesan notifikasi push. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna APIs-Google
String agen pengguna lengkap APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Memeriksa kualitas iklan halaman web seluler. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Memeriksa kualitas iklan halaman web desktop. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google
String agen pengguna lengkap AdsBot-Google (+http://www.google.com/adsbot.html)

Crawler AdSense mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan yang relevan. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap Mediapartners-Google

Crawler AdSense Seluler mengunjungi situs Anda untuk mengetahui kontennya guna menyediakan iklan yang relevan. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna Mediapartners-Google
String agen pengguna lengkap (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Agen pengguna Google-Safety menangani crawling khusus penyalahgunaan, seperti penemuan malware untuk link yang diposting secara publik di properti Google. Agen pengguna ini mengabaikan aturan robots.txt.

String agen pengguna lengkap Google-Safety

Pengambil yang dipicu pengguna

Pengambil yang dipicu pengguna dimulai oleh pengguna untuk menjalankan fungsi pengambilan spesifik per produk. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna, atau situs yang dihosting di Google Cloud (GCP) memiliki fitur yang memungkinkan pengguna situs mengambil feed RSS eksternal. Karena pengambilan diminta oleh pengguna, pengambil ini umumnya mengabaikan aturan robots.txt. Rentang IP yang digunakan oleh pengambil yang dipicu pengguna dipublikasikan di objek user-triggered-fetchers.json dan user-triggered-fetchers-google.json.

Pengambil yang dipicu pengguna

Feedfetcher digunakan untuk meng-crawl feed RSS atau Atom untuk Google Podcast, Google Berita, dan PubSubHubbub.

Token agen pengguna FeedFetcher-Google
String agen pengguna lengkap FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Mengambil dan memproses feed yang disediakan secara eksplisit oleh penerbit melalui Pusat Penerbit Google untuk digunakan di halaman landing Google News.

String agen pengguna lengkap GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Atas permintaan pengguna, Google Read Aloud mengambil dan membaca halaman web menggunakan text-to-speech (TTS).

String agen pengguna lengkap

Agen saat ini:

  • Agen desktop:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agen seluler:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agen lama (tidak digunakan lagi):

google-speakr

Pemverifikasi Situs Google mengambil token verifikasi Search Console atas permintaan pengguna.

String agen pengguna lengkap Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Catatan tentang Chrome/W.X.Y.Z pada agen pengguna

Saat Anda melihat string Chrome/W.X.Y.Z pada string agen pengguna dalam tabel, W.X.Y.Z sebenarnya adalah placeholder yang mewakili versi browser Chrome yang digunakan oleh agen pengguna tersebut: misalnya, 41.0.2272.96. Nomor versi ini akan bertambah seiring waktu untuk mencocokkan dengan versi rilis Chromium terbaru yang digunakan oleh Googlebot.

Jika Anda menelusuri log atau memfilter server untuk menemukan agen pengguna dengan pola ini, gunakan karakter pengganti untuk nomor versi, bukan menentukan nomor versi yang tepat.

Agen pengguna dalam robots.txt

Jika ada beberapa agen pengguna yang dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua crawler Google dapat meng-crawl halaman Anda, file robots.txt sama sekali tidak diperlukan. Anda dapat memblokir atau mengizinkan semua crawler Google mengakses sejumlah konten Anda sesuai keinginan, dengan menentukan Googlebot sebagai agen pengguna. Misalnya, jika ingin semua halaman Anda muncul di Google Penelusuran, dan jika ingin iklan AdSense muncul di halaman Anda, file robots.txt tidak diperlukan. Demikian pula, jika Anda ingin memblokir beberapa halaman sekaligus agar tidak diakses oleh Google, pemblokiran agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat mengaturnya secara lebih spesifik. Misalnya, Anda ingin semua halaman Anda muncul di Google Penelusuran, tetapi tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam kasus ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-Image meng-crawl file dalam direktori pribadi Anda (sekaligus mengizinkan Googlebot meng-crawl semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Contoh lainnya, anggap Anda ingin menayangkan iklan di semua halaman, tetapi tidak ingin halaman tersebut muncul di Google Penelusuran. Di sini, Anda harus memblokir Googlebot, tetapi mengizinkan agen pengguna Mediapartners-Google, seperti ini:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Mengontrol kecepatan crawling

Setiap crawler Google mengakses situs untuk tujuan tertentu dan dengan kecepatan yang berbeda. Google menggunakan algoritma untuk menentukan frekuensi crawling yang optimal bagi setiap situs. Jika crawler Google terlalu sering meng-crawl situs, Anda dapat mengurangi frekuensi crawling.

Crawler Google yang sudah dihentikan

Crawler Google berikut tidak lagi digunakan, dan hanya tercatat di sini untuk referensi historis.

Crawler Google yang sudah dihentikan

Duplex on the web

Mendukung layanan Duplex on the web.

Token agen pengguna DuplexWeb-Google
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Memeriksa keberadaan header no-transform setiap kali pengguna mengklik halaman Anda di penelusuran dalam kondisi yang sesuai. Agen pengguna Web Light hanya digunakan untuk permintaan penjelajahan eksplisit dari pengunjung manusia, sehingga akan mengabaikan aturan robots.txt, yang digunakan untuk memblokir permintaan crawling otomatis.

Token agen pengguna googleweblight
String agen pengguna lengkap Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Memeriksa kualitas iklan halaman web iPhone. Mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile
String agen pengguna lengkap Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robots AdsBot-Google, tetapi mengabaikan agen pengguna global (*) di robots.txt.

Token agen pengguna AdsBot-Google-Mobile-Apps
String agen pengguna lengkap AdsBot-Google-Mobile-Apps
Token agen pengguna
  • Googlebot-Image
  • Googlebot
String agen pengguna lengkap Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon