Googlebot

Googlebot adalah nama umum untuk dua jenis web crawler Google:

Anda dapat mengenali subjenis Googlebot ini dengan melihat header permintaan user-agent HTTP dalam permintaan. Namun, kedua jenis crawler ini mematuhi token produk yang sama (token agen pengguna) dalam robots.txt, sehingga Anda tidak dapat secara selektif menargetkan Googlebot Smartphone atau Googlebot Desktop menggunakan robots.txt.

Untuk sebagian besar situs, Google mengutamakan pengindeksan versi seluler konten. Dengan begitu, sebagian besar permintaan crawl Googlebot akan dibuat menggunakan crawler seluler, dan sebagian kecilnya menggunakan crawler desktop.

Cara Googlebot mengakses situs Anda

Untuk kebanyakan situs, rata-rata Googlebot tidak akan mengakses situs Anda lebih dari beberapa detik sekali. Namun, akibat penundaan, bisa jadi frekuensi crawling akan sedikit lebih tinggi dalam periode waktu yang singkat.

Googlebot dirancang untuk dijalankan bersamaan oleh ribuan perangkat guna meningkatkan performa dan skala seiring bertumbuhnya web. Selain itu, untuk mengurangi penggunaan bandwidth, kami menjalankan banyak crawler di perangkat yang terletak di dekat situs yang mungkin akan di-crawl. Oleh karena itu, log Anda mungkin menampilkan kunjungan dari beberapa alamat IP, semuanya dengan agen pengguna Googlebot. Tujuan kami adalah meng-crawl sebanyak mungkin halaman dari situs Anda di setiap kunjungan tanpa membuat server Anda mengalami kelebihan beban. Jika situs Anda kesulitan mengimbangi permintaan crawling Google, Anda dapat mengurangi frekuensi crawling.

Googlebot mengutamakan crawl dari alamat IP di Amerika Serikat. Jika Googlebot mendeteksi bahwa situs memblokir permintaan dari Amerika Serikat, Googlebot mungkin mencoba meng-crawl dari alamat IP yang berada di negara lain. Daftar blok alamat IP yang saat ini digunakan oleh Googlebot tersedia dalam format JSON.

Googlebot meng-crawl melalui HTTP/1.1 dan, HTTP/2 jika didukung oleh situs. Tidak ada manfaat peringkat berdasarkan versi protokol yang digunakan untuk meng-crawl situs Anda, tetapi crawling melalui HTTP/2 dapat menghemat resource komputasi (misalnya CPU, RAM) untuk situs Anda dan Googlebot.
Agar situs tidak di-crawl melalui HTTP/2, minta server yang menghosting situs Anda untuk merespons dengan Kode status HTTP 421 saat Googlebot mencoba meng-crawl situs Anda melalui HTTP/2. Jika tidak memungkinkan, Anda dapat mengirim pesan ke tim Googlebot (tetapi solusi ini bersifat sementara).

Googlebot dapat meng-crawl 15 MB pertama dari file HTML atau file berbasis teks yang didukung. Setiap resource yang dirujuk dalam HTML seperti CSS dan JavaScript diambil secara terpisah, dan setiap pengambilan terikat oleh batas ukuran file yang sama. Setelah 15 MB pertama file, Googlebot akan berhenti melakukan crawling dan hanya mempertimbangkan untuk mengindeks 15 MB pertama dari file tersebut. Batas ukuran file diterapkan pada data yang tidak dikompresi. Crawler Google lain, misalnya Googlebot Video dan Googlebot Image, mungkin memiliki batas yang berbeda.

Saat melakukan crawling dari alamat IP di Amerika Serikat, zona waktu Googlebot adalah Waktu Pasifik.

Memblokir Googlebot agar tidak mengunjungi situs Anda

Hampir tidak mungkin untuk menjaga kerahasiaan situs dengan tidak memublikasikan link ke situs tersebut. Misalnya, begitu seseorang mengikuti link dari situs "rahasia" Anda ke situs lain, URL situs "rahasia" Anda dapat muncul dalam tag perujuk dan dapat disimpan serta dipublikasikan oleh situs lain tersebut dalam log perujuknya.

Jika Anda tidak ingin Googlebot meng-crawl konten di situs, Anda memiliki sejumlah opsi. Perhatikan perbedaan antara mencegah Googlebot meng-crawl halaman, mencegah Googlebot mengindeks halaman, dan sepenuhnya mencegah halaman diakses baik oleh crawler ataupun pengguna.

Memverifikasi Googlebot

Sebelum Anda memutuskan untuk memblokir Googlebot, perhatikan bahwa header permintaan user-agent HTTP yang digunakan oleh Googlebot sering di-spoofing oleh crawler lain. Penting untuk memverifikasi bahwa permintaan yang bermasalah benar-benar berasal dari Google. Cara terbaik untuk memverifikasi bahwa permintaan benar-benar berasal dari Googlebot adalah dengan menggunakan pencarian balik DNS di IP sumber permintaan, atau mencocokkan IP sumber dengan rentang IP Googlebot.