Apa Pengaruh Anggaran Crawling untuk Googlebot

Senin, 16 Januari 2017

Akhir-akhir ini, kita mendengar banyak definisi untuk "anggaran crawling", tetapi tidak ada satu istilah yang benar-benar menjelaskan "anggaran crawling" secara eksternal. Melalui postingan ini, kami akan memperjelas definisinya menurut kami dan pengaruhnya bagi Googlebot.

Pertama-tama, kami ingin menekankan bahwa anggaran crawling, seperti yang dijelaskan di bawah, bukanlah hal yang harus dikhawatirkan oleh kebanyakan penayang. Jika halaman baru cenderung di-crawl pada hari yang sama saat ditayangkan, anggaran crawling bukanlah hal yang perlu diperhatikan oleh webmaster. Demikian halnya jika sebuah situs memiliki kurang dari beberapa ribu URL, biasanya situs tersebut akan di-crawl secara efisien.

Menentukan prioritas mengenai apa yang akan di-crawl, kapan, dan seberapa banyak resource yang dapat dialokasikan server yang menghosting situs untuk crawling akan lebih penting bagi situs yang lebih besar, atau situs yang membuat halaman secara otomatis berdasarkan parameter URL.

Batas kecepatan crawling

Googlebot didesain untuk menjadi komponen web yang bermanfaat. Crawling adalah prioritas utamanya, sembari memastikan hal ini tidak menyulitkan pengguna yang mengunjungi situs. Kami menyebut hal ini "batas kecepatan crawling", yang membatasi kecepatan pengambilan maksimum untuk situs tertentu.

Singkatnya, hal ini menunjukkan jumlah koneksi paralel simultan yang dapat digunakan Googlebot untuk melakukan crawling ke situs, serta waktu tunggu antara pengambilan satu ke pengambilan berikutnya. Kecepatan crawling dapat naik dan turun berdasarkan beberapa faktor:

Kualitas crawl: Jika situs merespons dengan sangat cepat untuk sementara waktu, batasnya akan naik, yang berarti lebih banyak koneksi dapat digunakan untuk melakukan crawling. Jika situs melambat atau merespons dengan error server, batasnya akan turun dan Googlebot akan lebih sedikit melakukan crawling.
Batas yang disetel di Search Console: Pemilik situs dapat mengurangi crawling Googlebot di situs mereka. Perlu diperhatikan bahwa menyetel batas yang lebih tinggi tidak akan otomatis meningkatkan crawling.

Permintaan crawl

Meskipun frekuensi crawling belum mencapai batasnya, apabila tidak ada permintaan dari pengindeksan, aktivitas Googlebot akan menjadi rendah. Dua faktor yang memiliki peran penting dalam menentukan permintaan crawl antara lain:

Popularitas: URL yang lebih populer di internet cenderung di-crawl lebih sering untuk mempertahankan posisinya di indeks kami.
Keusangan: Sistem kami berupaya mencegah URL menjadi usang dalam indeks.

Selain itu, peristiwa yang berdampak pada seluruh situs seperti perpindahan situs dapat memicu peningkatan permintaan crawl untuk mengindeks ulang konten dengan URL baru.

Dengan mempertimbangkan kecepatan crawling dan permintaan crawl, kami mendefinisikan anggaran crawling sebagai jumlah URL yang dapat dan ingin di-crawl oleh Googlebot.

Faktor yang memengaruhi anggaran crawling

Menurut analisis kami, memiliki banyak URL bernilai tambah rendah dapat memberikan dampak yang buruk pada proses crawling dan pengindeksan situs. Berdasarkan pengamatan kami, URL bernilai tambah rendah dapat dikategorikan sebagai berikut, sesuai dengan urutan signifikansinya:

Navigasi berfaset dan ID sesi
Konten duplikat pada situs
Halaman soft error
Halaman yang diretas
Ruang dan proxy tidak terbatas
Konten berkualitas rendah dan spam

Menyia-nyiakan resource server untuk halaman seperti ini akan mengurangi aktivitas crawl pada halaman yang benar-benar bernilai, sehingga dapat menyebabkan penundaan signifikan dalam menemukan konten yang bermutu di situs.

Pertanyaan teratas

Crawling adalah pintu masuk situs ke hasil penelusuran Google. Crawling situs yang efisien akan membantu pengindeksannya di Google Penelusuran.

Apakah kecepatan situs memengaruhi anggaran crawling? Bagaimana dengan error?

Mempercepat situs akan memperbaiki pengalaman pengguna sekaligus meningkatkan frekuensi crawling. Bagi Googlebot, situs yang cepat menunjukkan bahwa server sehat, sehingga situs dapat memperoleh lebih banyak konten dengan jumlah koneksi yang sama. Di sisi lain, banyaknya error 5xx atau koneksi terputus menandakan sebaliknya, dan crawling akan melambat.

Sebaiknya perhatikan laporan Error Crawl di Search Console dan pastikan jumlah error server rendah.

Apakah crawling merupakan faktor penentu peringkat?

Frekuensi crawling yang tinggi belum tentu meningkatkan posisi situs di hasil Penelusuran. Google menggunakan ratusan sinyal untuk menentukan peringkat hasil, dan meskipun crawling diperlukan untuk membuat situs muncul di hasil penelusuran, itu bukanlah sinyal penentu peringkat.

Apakah URL alternatif dan konten yang disematkan memengaruhi anggaran crawling?

Umumnya, setiap URL yang di-crawl Googlebot akan memengaruhi anggaran crawling situs. URL alternatif, seperti AMP atau hreflang, serta konten yang disematkan, seperti CSS dan JavaScript, termasuk pemanggilan AJAX (seperti XHR), mungkin harus di-crawl dan akan menghabiskan anggaran crawling situs. Demikian pula, rantai pengalihan yang panjang dapat berdampak negatif pada crawling.

Dapatkah saya mengontrol Googlebot dengan aturan `crawl-delay`?

Aturan robots.txt crawl-delay non-standar tidak diproses oleh Googlebot.

Apakah aturan `nofollow` memengaruhi anggaran crawling?

Tergantung. URL apa pun yang di-crawl akan memengaruhi anggaran crawling. Jadi, meskipun halaman Anda menandai URL sebagai nofollow, URL tersebut masih dapat di-crawl jika halaman lain di situs Anda atau halaman apa pun di web tidak melabeli link-nya sebagai nofollow.

Apakah URL yang dilarang melalui robots.txt dapat memengaruhi anggaran crawling saya?

Tidak, URL yang dilarang tidak memengaruhi anggaran crawling.

Untuk informasi terkait cara mengoptimalkan crawling situs Anda, kunjungi postingan blog kami tentang mengoptimalkan crawling yang ditulis pada 2009, tetapi masih berlaku. Jika ada pertanyaan, ajukan di forum.

Diposting oleh Gary Illyes, tim Crawling dan Pengindeksan

Apa Pengaruh Anggaran Crawling untuk Googlebot Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.