Ringkasan tentang pengambil dan crawler Google (agen pengguna)

Google menggunakan crawler dan pengambil untuk melakukan tindakan terhadap produknya, baik secara otomatis ataupun dipicu oleh permintaan pengguna. Crawler (terkadang disebut juga "robot" atau "spider") adalah istilah umum untuk program apa pun yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman web ke halaman web lainnya. Pengambil bertindak sebagai program seperti wget yang biasanya membuat satu permintaan atas nama pengguna. Crawler Google dibagi menjadi tiga kategori:

Crawler umum Crawler umum yang digunakan untuk produk Google (seperti Googlebot). Crawler ini selalu mematuhi aturan robots.txt untuk crawl otomatis.
Crawler kasus khusus Crawler kasus khusus mirip dengan crawler umum, tetapi digunakan oleh produk tertentu yang memiliki perjanjian antara situs yang di-crawl dan produk Google tentang proses crawl. Misalnya, AdsBot mengabaikan agen pengguna robots.txt global (*) dengan izin penayang iklan.
Pengambil yang dipicu pengguna Pengambil yang dipicu pengguna adalah bagian dari alat dan fungsi produk tempat pengguna akhir memicu pengambilan. Misalnya, Pemverifikasi Situs Google bertindak atas permintaan pengguna.

Properti teknis crawler dan pengambil Google

Crawler dan pengambil Google didesain untuk dijalankan secara bersamaan oleh ribuan perangkat guna meningkatkan performa dan skala seiring bertumbuhnya web. Untuk mengoptimalkan penggunaan bandwidth, klien ini didistribusikan ke banyak pusat data di seluruh dunia sehingga lokasinya berada di dekat situs yang mungkin diakses. Oleh karena itu, log Anda mungkin menampilkan kunjungan dari beberapa alamat IP. Sebagian besar traffic egress dari Google berasal dari alamat IP di Amerika Serikat. Jika Googlebot mendeteksi bahwa situs memblokir permintaan dari Amerika Serikat, Googlebot mungkin mencoba meng-crawl dari alamat IP yang berada di negara lain.

Crawler dan pengambil Google menggunakan HTTP/1.1 dan, jika didukung oleh situs, HTTP/2. Crawling melalui HTTP/2 dapat menghemat resource komputasi (misalnya CPU, RAM) untuk situs Anda dan Googlebot, tetapi tidak ada manfaat spesifik per produk bagi situs (misalnya, tidak ada peningkatan peringkat di Google Penelusuran). Agar situs tidak di-crawl melalui HTTP/2, minta server yang menghosting situs Anda merespons dengan kode status HTTP 421 saat Google mencoba meng-crawl situs Anda melalui HTTP/2. Jika tidak memungkinkan, Anda dapat mengirim pesan ke tim Crawling (tetapi solusi ini sifatnya sementara).

Crawler dan pengambil Google mendukung encoding konten (kompresi) berikut: gzip, deflate, dan Brotli (br). Encoding konten yang didukung oleh setiap agen pengguna Google diiklankan di header Accept-Encoding dari setiap permintaan yang dibuatnya. Misalnya, Accept-Encoding: gzip, deflate, br.

Tujuan kami adalah meng-crawl sebanyak mungkin halaman dari situs Anda di setiap kunjungan tanpa membuat server Anda mengalami kelebihan beban. Jika situs Anda kesulitan mengimbangi permintaan crawling Google, Anda dapat mengurangi frekuensi crawling. Perhatikan bahwa mengirimkan kode respons HTTP yang tidak sesuai ke crawler Google dapat memengaruhi cara situs Anda muncul di produk Google.

Memverifikasi crawler dan pengambil Google

Crawler Google mengidentifikasi dirinya dengan tiga cara:

  1. Header permintaan user-agent HTTP.
  2. Alamat IP sumber permintaan.
  3. Nama host DNS balik dari IP sumber.

Pelajari cara menggunakan detail ini untuk memverifikasi crawler dan pengambil Google.