Panduan pemilik situs besar untuk mengelola anggaran crawling
Panduan ini menjelaskan cara mengoptimalkan crawling Google untuk situs yang sangat besar dan sering diperbarui.
Jika situs Anda tidak memiliki banyak halaman yang berubah dengan cepat, atau jika halaman Anda tampak di-crawl pada hari yang sama saat halaman tersebut dipublikasikan, Anda tidak perlu membaca panduan ini; terus memperbarui peta situs dan memeriksa cakupan indeks Anda secara teratur seharusnya sudah cukup.
Jika Anda memiliki konten yang telah tersedia selama beberapa waktu tetapi belum pernah diindeks, ini adalah masalah lain; gunakan Alat Inspeksi URL untuk mencari tahu mengapa halaman Anda tidak diindeks.
Sasaran panduan ini
Panduan ini merupakan panduan lanjutan dan ditujukan untuk:
- Situs besar (lebih dari 1 juta halaman unik) dengan konten yang cukup sering berubah (seminggu sekali)
- Situs sedang atau lebih besar (lebih dari 10.000 halaman unik) dengan konten yang berubah sangat cepat (setiap hari)
- Situs dengan sebagian besar total URL-nya diklasifikasikan oleh Search Console sebagai Ditemukan - saat ini tidak diindeks
Teori umum crawling
Web adalah ruang yang hampir tak terbatas, yang melampaui kemampuan Google untuk menjelajahi dan mengindeks setiap URL yang tersedia. Karena itu, ada batas seberapa lama waktu yang dapat dihabiskan Googlebot untuk meng-crawl satu situs. Jumlah waktu dan resource yang dialokasikan Google untuk melakukan crawling situs biasanya disebut anggaran crawling situs. Perhatikan bahwa tidak semua yang di-crawl di situs Anda akan diindeks; setiap halaman harus dievaluasi, digabungkan, dan dinilai untuk menentukan apakah halaman akan diindeks setelah di-crawl.
Anggaran crawling ditentukan oleh dua elemen utama: batas kapasitas crawl dan permintaan crawl.
Batas kapasitas crawl
Googlebot ingin meng-crawl situs Anda tanpa membebani server. Untuk mencegah hal ini, Googlebot menghitung batas kapasitas crawl, yang merupakan jumlah maksimum koneksi paralel simultan yang dapat digunakan Googlebot untuk meng-crawl situs, serta penundaan waktu antar-pengambilan. Penghitungan ini dilakukan agar dapat mencakup semua konten penting tanpa membebani server Anda.
Batas kapasitas crawl dapat naik dan turun berdasarkan beberapa faktor:
- Kualitas crawl: Jika situs merespons dengan cepat untuk sementara waktu, batasnya akan naik, yang berarti lebih banyak koneksi dapat digunakan untuk melakukan crawling. Jika situs melambat atau merespons dengan error server, batas akan menurun dan Googlebot akan lebih sedikit melakukan crawling.
- Batas crawling Google: Google memiliki banyak mesin, tetapi bukan berarti mesin-mesin tersebut tidak terbatas. Kami masih harus membuat pilihan dengan resource yang kami miliki.
Permintaan crawl
Google biasanya menghabiskan waktu sebanyak yang diperlukan untuk meng-crawl situs, dengan mempertimbangkan ukuran, frekuensi pembaruan, kualitas halaman, dan relevansinya, dibandingkan dengan situs lain.
Faktor yang memiliki peran penting dalam menentukan permintaan crawl antara lain:
- Inventaris yang diketahui: Tanpa panduan dari Anda, Googlebot akan mencoba meng-crawl semua atau sebagian besar URL yang diketahuinya di situs Anda. Jika banyak dari URL ini merupakan duplikat, atau Anda tidak ingin URL tersebut di-crawl karena beberapa alasan lain (dihapus, tidak penting, dan sebagainya), hal ini akan membuang banyak waktu crawling Google di situs Anda. Faktor inilah yang paling dapat Anda kontrol secara langsung.
- Popularitas: URL yang lebih populer di internet cenderung di-crawl lebih sering untuk mempertahankan posisinya di indeks kami.
- Konten usang: Sistem kami ingin meng-crawl ulang dokumen sesering mungkin untuk menemukan perubahan apa pun.
Selain itu, peristiwa yang berdampak pada situs secara keseluruhan seperti perpindahan situs dapat memicu peningkatan permintaan crawl untuk mengindeks ulang konten dengan URL baru.
Ringkasan
Dengan menggabungkan kapasitas crawl dan permintaan crawl, Google menetapkan anggaran crawling situs sebagai kumpulan URL yang dapat dan ingin di-crawl oleh Googlebot. Meskipun batas kapasitas crawl tidak tercapai, jika permintaan crawl rendah, Googlebot akan mengurangi crawling situs Anda.
Praktik terbaik
Ikuti praktik terbaik berikut untuk memaksimalkan efisiensi crawling:
- Mengelola inventaris URL: Gunakan alat yang sesuai
untuk memberi tahu Google halaman mana yang harus di-crawl dan yang tidak perlu di-crawl. Jika Google menghabiskan terlalu banyak
waktu untuk meng-crawl URL yang tidak sesuai untuk indeks, Googlebot mungkin memutuskan bahwa
tidak ada waktu untuk melihat seluruh situs Anda (atau menaikkan anggaran Anda untuk melakukannya).
- Menggabungkan konten duplikat. Hapus konten duplikat untuk memfokuskan crawling pada konten unik, bukan URL unik.
- Memblokir crawling URL menggunakan robots.txt. Beberapa halaman mungkin penting bagi pengguna, tetapi Anda tidak ingin halaman tersebut muncul di hasil Penelusuran. Misalnya, halaman scrolling tanpa batas yang menduplikasi informasi di halaman tertaut, atau versi dengan urutan berbeda dari halaman yang sama. Jika Anda tidak dapat menggabungkannya seperti yang dijelaskan di butir pertama, blokir halaman yang tidak penting (untuk penelusuran) menggunakan robots.txt. Memblokir URL dengan robots.txt akan mengurangi kemungkinan pengindeksan URL secara signifikan.
-
Menampilkan kode status
404
atau410
untuk halaman yang telah dihapus secara permanen. Google tidak akan melupakan URL yang diketahuinya, tetapi kode status404
merupakan sinyal kuat untuk tidak lagi meng-crawl URL tersebut. Namun, URL yang diblokir akan tetap menjadi bagian dari antrean crawling lebih lama, dan akan di-crawl ulang saat pemblokiran dihapus. - Memperbaiki error
soft 404
. Halamansoft 404
akan terus di-crawl dan membuang anggaran Anda. Periksa Laporan Cakupan Indeks untuk melihat errorsoft 404
. - Selalu memperbarui peta situs Anda. Google membaca peta situs Anda secara berkala,
jadi pastikan untuk menyertakan semua konten yang ingin di-crawl oleh Google. Jika situs Anda
menyertakan konten yang diperbarui, sebaiknya sertakan tag
<lastmod>
. - Menghindari rantai pengalihan panjang yang akan berdampak negatif pada crawling.
- Menjadikan halaman lebih cepat untuk dimuat. Jika Google dapat memuat dan merender halaman Anda dengan lebih cepat, kami mungkin dapat membaca lebih banyak konten dari situs Anda.
- Memantau crawling situs Anda. Pantau apakah situs Anda mengalami masalah ketersediaan selama crawling, dan cari cara untuk membuat crawling Anda lebih efisien.
Memantau crawling dan pengindeksan situs Anda
Berikut adalah langkah-langkah utama untuk memantau profil crawl situs Anda:
- Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda.
- Lihat apakah Anda memiliki halaman yang tidak di-crawl, tetapi seharusnya di-crawl.
- Lihat apakah ada bagian dari situs Anda yang perlu di-crawl lebih cepat daripada yang sudah dilakukan.
- Tingkatkan efisiensi crawling situs Anda.
- Tangani crawling berlebihan di situs Anda.
Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda
Meningkatkan ketersediaan situs tidak selalu menaikkan anggaran crawling; Google menentukan frekuensi crawling terbaik berdasarkan permintaan crawl, seperti yang dijelaskan sebelumnya. Namun, masalah ketersediaan mencegah Google meng-crawl situs Anda terlalu sering.
Diagnosis:
Gunakan laporan Statistik Crawling untuk melihat histori crawling Googlebot untuk situs Anda. Laporan ditampilkan saat Google mengalami masalah ketersediaan di situs Anda. Jika error atau peringatan ketersediaan dilaporkan untuk situs Anda, cari instance dalam grafik Ketersediaan host yang permintaan Googlebot-nya melebihi garis batas merah, klik grafik untuk melihat URL mana yang gagal, dan coba hubungkan dengan yang bermasalah di situs Anda.
Selain itu, Anda juga dapat menggunakan Alat Inspeksi URL untuk menguji beberapa URL di situs Anda. Jika alat ini menampilkan peringatan Beban host terlampaui, berarti Googlebot tidak dapat meng-crawl URL sebanyak yang ditemukan di situs Anda.
Penanganan:
- Baca dokumentasi laporan Statistik Crawling untuk mempelajari cara menemukan dan menangani beberapa masalah ketersediaan.
- Blokir halaman agar tidak di-crawl jika tidak ingin halaman tersebut di-crawl. (Lihat mengelola inventaris Anda)
- Tingkatkan kecepatan pemuatan dan rendering halaman. (Lihat Meningkatkan efisiensi crawling situs)
- Tingkatkan kapasitas server Anda. Jika Google tampak secara konsisten meng-crawl situs Anda sesuai batas kapasitas penayangannya, tetapi masih ada URL penting yang tidak di-crawl atau diperbarui sebanyak yang dibutuhkan, cobalah untuk mendapatkan lebih banyak resource penayangan yang memungkinkan Google meminta lebih banyak halaman di situs Anda. Periksa histori ketersediaan host Anda di laporan Statistik Crawling untuk mengetahui apakah frekuensi crawling Google tampak sering melewati batas. Jika ya, tingkatkan resource penayangan Anda selama satu bulan dan lihat apakah permintaan crawl meningkat selama periode tersebut.
Lihat apakah ada bagian situs Anda yang tidak di-crawl, tetapi seharusnya di-crawl
Google menghabiskan waktu sebanyak yang diperlukan di situs Anda untuk mengindeks semua konten berkualitas tinggi dan bernilai bagi pengguna yang dapat ditemukannya. Jika Anda merasa Googlebot melewatkan konten penting, mungkin Googlebot tidak mengetahui tentang konten tersebut, konten diblokir dari Google, atau ketersediaan situs Anda membatasi akses Google (atau Google mencoba untuk tidak membebani situs Anda).
Diagnosis:
Search Console tidak menyediakan histori crawl untuk situs yang dapat difilter menurut URL atau jalur, tetapi Anda dapat memeriksa log situs untuk melihat apakah URL tertentu telah di-crawl oleh Googlebot. Pengindeksan URL yang di-crawl adalah persoalan lain.
Ingat bahwa untuk sebagian besar situs, halaman baru akan membutuhkan waktu minimal beberapa hari agar dapat dilihat; sebagian besar situs seharusnya tidak mengharapkan crawling URL di hari yang sama, dengan pengecualian situs yang terbatas waktu seperti situs berita.
Penanganan:
Jika Anda menambahkan halaman ke situs dan halaman tersebut tidak di-crawl dalam jangka waktu yang wajar, mungkin Google tidak mengetahuinya, konten diblokir, situs telah mencapai kapasitas penayangan maksimum, atau Anda kehabisan anggaran crawling.
- Beri tahu Google tentang halaman baru Anda: perbarui peta situs Anda untuk mencerminkan URL baru.
- Periksa aturan robots.txt untuk memastikan bahwa halaman tidak diblokir secara tidak sengaja.
- Tinjau prioritas crawling Anda (gunakan anggaran crawling dengan bijak). Kelola inventaris Anda dan tingkatkan efisiensi crawling situs Anda.
- Pastikan Anda masih memiliki kapasitas penayangan. Googlebot akan mengurangi crawling jika mendeteksi bahwa server Anda mengalami masalah dalam merespons permintaan crawl.
Perhatikan bahwa halaman mungkin tidak ditampilkan dalam hasil penelusuran, meskipun di-crawl, jika tidak ada nilai atau permintaan pengguna yang memadai untuk konten tersebut.
Lihat apakah pembaruan di-crawl dengan cukup cepat
Jika halaman baru atau yang diperbarui di situs Anda tidak ditemukan, mungkin karena kami belum melihatnya atau belum menyadari bahwa halaman tersebut diperbarui. Berikut ini cara untuk membantu kami mengetahui pembaruan halaman.
Perhatikan bahwa Google berusaha memeriksa dan mengindeks halaman secara tepat waktu. Untuk sebagian besar situs, diperlukan waktu tiga hari atau lebih. Jangan berharap Google mengindeks halaman pada hari yang sama saat Anda memublikasikannya, kecuali jika situs Anda adalah situs berita atau memiliki konten bernilai tinggi lainnya yang sangat terbatas oleh waktu.
Diagnosis:
Periksa log situs Anda untuk melihat kapan URL tertentu di-crawl oleh Googlebot.
Untuk mempelajari tanggal pengindeksan, gunakan Alat Inspeksi URL atau lakukan penelusuran Google untuk URL yang telah Anda perbarui.
Penanganan:
Lakukan:
- Gunakan peta situs berita jika situs Anda memiliki konten berita.
- Gunakan tag
<lastmod>
di peta situs untuk menunjukkan kapan URL yang diindeks telah diperbarui. - Gunakan struktur URL sederhana untuk membantu Google menemukan halaman Anda.
- Berikan link
<a>
standar yang dapat di-crawl untuk membantu Google menemukan halaman Anda.
Hindari:
- Mengirimkan peta situs yang sama dan tidak berubah berkali-kali setiap hari.
- Mengharapkan Googlebot akan meng-crawl semua yang ada dalam peta situs, atau langsung meng-crawlnya. Peta situs adalah saran yang berguna bagi Googlebot, bukan persyaratan mutlak.
- Menyertakan URL di peta situs Anda yang tidak ingin ditampilkan di Penelusuran. Hal ini dapat membuang anggaran crawling Anda di halaman yang tidak ingin diindeks.
Tingkatkan efisiensi crawling situs Anda
Meningkatkan kecepatan pemuatan halaman Anda
Crawling Google dibatasi oleh bandwidth, waktu, dan ketersediaan instance Googlebot. Jika server Anda merespons permintaan lebih cepat, kami mungkin dapat meng-crawl lebih banyak halaman di situs Anda. Artinya, Google hanya ingin meng-crawl konten berkualitas tinggi, sehingga membuat halaman berkualitas rendah lebih cepat tidak akan mendorong Googlebot meng-crawl situs Anda lebih banyak; sebaliknya, jika sepertinya kami tidak melihat konten berkualitas tinggi di situs Anda, mungkin kami akan meningkatkan anggaran untuk meng-crawl konten tersebut.
Berikut cara mengoptimalkan halaman dan resource untuk crawling:
- Cegah pemuatan resource yang besar tetapi tidak penting oleh Googlebot menggunakan robots.txt. Pastikan untuk hanya memblokir resource yang tidak penting—yaitu, resource yang tidak penting untuk memahami arti halaman (seperti gambar dekorasi).
- Pastikan halaman Anda dapat dimuat dengan cepat.
- Perhatikan rantai pengalihan yang panjang, yang berdampak negatif pada crawling.
- Waktu untuk merespons permintaan server, maupun waktu yang diperlukan untuk merender halaman adalah hal yang penting, termasuk waktu pemuatan dan waktu proses untuk resource yang disematkan seperti gambar dan skrip. Perhatikan resource besar atau lambat yang diperlukan untuk pengindeksan.
Menentukan perubahan konten dengan kode status HTTP
Google umumnya mendukung
header permintaan HTTP If-Modified-Since
dan If-None-Match
untuk crawling. Crawler Google tidak mengirimkan header dengan semua upaya crawling; hal ini bergantung pada
kasus penggunaan permintaan (misalnya,
AdsBot lebih berpeluang
untuk menetapkan header permintaan HTTP If-Modified-Since
dan If-None-Match
). Jika crawler kami mengirimkan header If-Modified-Since
, nilai headernya
adalah tanggal dan waktu
saat konten terakhir kali di-crawl. Berdasarkan nilai tersebut, server mungkin memilih untuk menampilkan
kode status HTTP 304 (Not Modified)
tanpa isi respons, yang dalam hal ini Google
akan menggunakan kembali versi konten yang terakhir kali di-crawl. Jika konten lebih baru dari tanggal
yang ditentukan oleh crawler dalam header If-Modified-Since
, server dapat menampilkan
kode status HTTP 200 (OK)
dengan isi respons.
Terlepas dari header permintaannya, Anda dapat mengirimkan kode status HTTP 304 (Not Modified)
dan tanpa isi respons untuk permintaan Googlebot jika kontennya belum diubah sejak terakhir kali
Googlebot mengunjungi URL tersebut. Tindakan ini akan menghemat resource dan waktu pemrosesan server,
yang mungkin secara tidak langsung dapat meningkatkan efisiensi crawling.
Menyembunyikan URL yang tidak Anda inginkan di hasil penelusuran
Menghabiskan resource server untuk halaman yang tidak diperlukan dapat mengurangi aktivitas crawling dari halaman yang penting bagi Anda, yang mungkin menyebabkan penundaan signifikan dalam menemukan konten bermutu yang baru atau yang diperbarui di situs.
Mengekspos banyak URL yang tidak ingin di-crawl di situs Anda oleh Penelusuran dapat berdampak negatif pada crawling dan pengindeksan situs. Biasanya URL ini termasuk dalam kategori berikut:
- Navigasi berfaset dan ID sesi: Navigasi berfaset biasanya merupakan konten duplikat dari situs; ID sesi dan parameter URL lainnya yang hanya mengurutkan atau memfilter halaman tidak memberikan konten baru. Gunakan robots.txt untuk memblokir halaman navigasi berfaset.
- Konten duplikat: Bantu Google mengidentifikasi konten duplikat untuk menghindari crawling yang tidak perlu.
- Halaman
soft 404
: Tampilkan kode404
saat halaman sudah tidak ada lagi. - Halaman yang diretas: Pastikan Anda memeriksa laporan Masalah Keamanan dan memperbaiki atau menghapus halaman diretas yang Anda temukan.
- Ruang dan proxy yang tidak terbatas: Blokir keduanya agar tidak melakukan crawling dengan robots.txt.
- Konten berkualitas rendah dan spam: Tentu saja sebaiknya dihindari.
- Halaman keranjang belanja, halaman scrolling tanpa batas, dan halaman yang melakukan tindakan (seperti halaman "daftar" atau "beli sekarang").
Lakukan:
- Gunakan robots.txt jika Anda tidak ingin Google meng-crawl resource atau halaman sama sekali.
- Jika resource umum digunakan kembali di beberapa halaman (seperti gambar bersama atau file JavaScript), rujuk resource dari URL yang sama di setiap halaman, sehingga Google dapat menyimpan cache dan menggunakan kembali resource yang sama tanpa perlu meminta resource yang sama beberapa kali.
Hindari:
- Jangan menambahkan atau menghapus halaman atau direktori dari robots.txt secara teratur sebagai cara untuk mengalokasikan ulang anggaran crawling untuk situs Anda. Gunakan robots.txt hanya untuk halaman atau resource yang tidak ingin Anda tampilkan di Google untuk jangka panjang.
- Jangan menukar peta situs atau menggunakan mekanisme tersembunyi sementara untuk mengalokasikan ulang anggaran.
Tangani crawling berlebihan di situs Anda (keadaan darurat)
Googlebot memiliki algoritme untuk mencegahnya membebani situs Anda dengan permintaan crawl. Namun, jika Anda menemukan bahwa Googlebot membebani situs Anda, ada beberapa hal yang dapat dilakukan.
Diagnosis:
Pantau server Anda untuk permintaan Googlebot yang berlebihan ke situs Anda.
Penanganan:
Dalam keadaan darurat, sebaiknya lakukan langkah-langkah berikut untuk memperlambat crawling yang berlebihan dari Googlebot:
- Tampilkan kode status respons HTTP
503
atau429
untuk sementara di permintaan Googlebot saat server Anda kelebihan beban. Googlebot akan mencoba kembali URL ini selama sekitar 2 hari. Perhatikan bahwa menampilkan kode "tidak tersedia" selama lebih dari beberapa hari akan menyebabkan Google memperlambat atau menghentikan crawling URL secara permanen di situs Anda, jadi ikuti langkah tambahan berikutnya. -
Saat frekuensi crawling turun, berhentilah menampilkan kode status respons HTTP
503
atau429
untuk permintaan crawl; menampilkan503
atau429
selama lebih dari 2 hari akan menyebabkan Google menghapus URL tersebut dari indeks. - Pantau crawling dan kapasitas host Anda dari waktu ke waktu.
- Jika crawler yang bermasalah adalah salah satu dari crawler AdsBot, mungkin masalahnya terjadi karena Anda membuat target Iklan Penelusuran Dinamis untuk situs yang akan di-crawl Google. Crawl ini akan terjadi lagi setiap 3 minggu. Jika Anda tidak memiliki kapasitas server untuk menangani crawl ini, batasi target iklan atau tingkatkan kapasitas penayangan.
Mitos dan fakta tentang crawling
Uji pengetahuan Anda tentang cara Google meng-crawl dan mengindeks situs.
5xx
(error server) atau waktu tunggu koneksi yang signifikan menandakan sebaliknya, dan
crawl akan melambat. Sebaiknya perhatikan laporan Statistik Crawling di Search
Console dan pastikan jumlah error server rendah.
nofollow
memengaruhi anggaran crawling.nofollow
, URL tersebut masih dapat di-crawl apabila halaman lain
di situs Anda, atau halaman apa pun di web, tidak memberi label link sebagai nofollow
.
noindex
untuk mengontrol anggaran crawling.noindex
.
Namun,
noindex
dapat membantu Anda mencegah pengindeksan halaman. Jika Anda
ingin memastikan bahwa halaman tersebut tidak diindeks oleh Google, terus gunakan noindex
dan jangan khawatir tentang anggaran crawling. Penting juga untuk diperhatikan bahwa jika Anda menghapus URL
dari indeks Google dengan noindex
atau sebaliknya, Googlebot dapat berfokus pada
URL lain di situs Anda, yang berarti noindex
dapat secara tidak langsung mengosongkan sebagian anggaran
crawling untuk situs Anda dalam jangka panjang.
4xx
membuang anggaran crawling.4xx
(kecuali 429
) tidak membuang anggaran crawling. Google mencoba
meng-crawl halaman, tetapi tidak menerima konten apa pun kecuali kode status.