Tarama Bütçesi Googlebot için Ne Anlama Geliyor?

16 Ocak 2017 Pazartesi

Son zamanlarda, "tarama bütçesi" için bir dizi tanım duyduk ancak "tarama bütçesi" ifadesinin dışarıda taşıdığı tüm anlamları kapsayan bir terimimiz yok. Bu yayında, bizimle ilgili olan kısmını ve Googlebot için ne anlama geldiğini açıklayacağız.

Öncelikle, aşağıda açıklandığı gibi tarama bütçesinin çoğu yayıncı için önemli bir konu olmadığını vurgulamak isteriz. Yeni sayfalar yayınlandıkları gün taranıyorsa web yöneticilerinin tarama bütçesine odaklanmaları gerekmez. Benzer şekilde, birkaç binden az URL'si olan siteler, çoğu zaman verimli bir şekilde taranır.

Neyin ne zaman taranacağıyla ilgili öncelikler ve siteyi barındıran sunucunun taramaya ne kadar kaynak ayırabileceği konusu, örneğin, daha büyük siteler veya URL parametrelerine göre otomatik oluşturulan siteler açısından daha fazla önem taşır.

Tarama hızı sınırı

Googlebot, web’in iyi bir vatandaşı olacak şekilde tasarlanmıştır. Asıl önceliği tarama olmakla birlikte, siteyi ziyaret eden kullanıcıların deneyimini bozmaz. "Tarama hızı sınırı" adını verdiğimiz bu özellik, bir sitenin maksimum getirme hızını sınırlar.

Özetle bu ifade, Googlebot'un siteyi taramak için kullanabileceği maksimum eş zamanlı paralel bağlantı sayısını ve getirmeler arasında beklemesi gereken süreyi temsil eder. Tarama hızı, birkaç faktöre bağlı olarak artıp azalabilir:

Tarama durumu: Site bir süre hızlı yanıt verirse sınır artar, yani tarama için daha fazla bağlantı kullanılabilir. Site yavaşlar veya sunucu hatalarıyla yanıt verirse sınır azalır ve Googlebot daha az tarama yapar.
Search Console'da belirlenen sınır: Web sitesi sahipleri, Googlebot'un sitelerini tarama oranını düşürebilir. Daha yüksek sınırlar belirlemenin tarama oranını otomatik olarak artırmayacağını unutmayın.

Tarama talebi

Tarama hızı sınırına ulaşılmasa bile, dizine ekleme talebi yoksa Googlebot etkinliği düşük olur. Tarama talebini belirlemede önemli rol oynayan iki faktör şunlardır:

Popülerlik: İnternette daha popüler olan URL'ler, dizinimizde daha güncel kalmaları için genellikle daha sık taranır.
Eskilik: Sistemlerimiz, URL'lerin dizinde eskimesini önlemeye çalışır.

Ayrıca, site taşıma gibi site genelindeki etkinlikler, yeni URL'lerin içeriğini yeniden dizine eklemek için tarama talebindeki artışı tetikleyebilir.

Tarama hızını ve tarama talebini birlikte değerlendirerek tarama bütçesini, Googlebot'un tarayabileceği ve taramak istediği URL'lerin sayısı olarak tanımlıyoruz.

Tarama bütçesini etkileyen faktörler

Analizimize göre, bir sitede düşük değer sağlayan çok sayıda URL bulunması, sitenin taranmasını ve dizine eklenmesini olumsuz etkileyebilir. Düşük değer sağlayan URL'lerin önem düzeyine göre aşağıdaki kategorilere ayrıldığını belirledik:

Filtreli (faceted) gezinme ve oturum tanımlayıcıları
Site içinde yinelenen içerik
Soft hata sayfaları
Saldırıya uğramış sayfalar
Sonsuz alanlar ve proxy'ler
Düşük kaliteli ve spam içerik

Sunucu kaynaklarını bu gibi sayfalara harcamak, gerçekte değerli olan sayfaların tarama etkinliğini azaltır. Bu da sitedeki kaliteli içeriklerin keşfedilmesinde ciddi gecikmelere neden olabilir.

En çok sorulan sorular

Tarama, sitelerin Google arama sonuçlarına girdiği noktadır. Bir web sitesinin verimli bir şekilde taranması, Google Arama'da dizine eklenmesine katkı sağlar.

Site hızı, tarama bütçemi etkiler mi? Peki ya hatalar?

Bir siteyi daha hızlı hale getirmek hem kullanıcı deneyimini iyileştirir hem de tarama hızını artırır. Bir sitenin hızlı olması, Googlebot için sağlıklı bir sunucunun göstergesidir. Böylece aynı sayıda bağlantı üzerinden daha fazla içerik alabilir. Öte yandan, çok sayıda 5xx hatası veya bağlantı zaman aşımı olması, bunun tersine işaret eder ve tarama yavaşlar.

Search Console'daki Tarama Hataları raporuna dikkat etmenizi ve sunucu hatalarını düşük sayıda tutmanızı öneririz.

Tarama, bir sıralama faktörü müdür?

Artan tarama hızı, Arama sonuçlarında daha iyi konumları garanti etmez. Google, sonuçları sıralamak için yüzlerce sinyal kullanır. Tarama, sonuçlarda yer almak için gerekli olsa da bir sıralama sinyali değildir.

Alternatif URL'ler ve yerleştirilmiş içerikler, tarama bütçesine dahil edilir mi?

Genel olarak, Googlebot'un taradığı her URL, sitenin tarama bütçesine dahil edilir. AMP veya hreflang gibi alternatif URL'lerin yanı sıra CSS ve JavaScript gibi yerleşik içeriklerin de AJAX (XHR gibi) çağrıların taranması gerekebilir ve bunlar sitenin tarama bütçesini harcar. Benzer şekilde, uzun yönlendirme zincirlerinin tarama üzerinde olumsuz bir etkisi olabilir.

Googlebot'u `crawl-delay` kuralıyla kontrol edebilir miyim?

Standart olmayan crawl-delay robots.txt kuralı, Googlebot tarafından işlenmez.

`nofollow` kuralı, tarama bütçesini etkiler mi?

Duruma bağlı. Taranan her URL, tarama bütçesini etkiler. Dolayısıyla, sayfanız bir URL'yi nofollow olarak işaretlese bile, sitenizdeki başka bir sayfa ya da web'deki herhangi bir sayfa bu bağlantıyı nofollow olarak etiketlemiyorsa bu URL taranabilir.

Robots.txt dosyasıyla taranmasını engellediğim URL'ler, tarama bütçemi herhangi bir şekilde etkiler mi?

Hayır, engellenen URL'ler tarama bütçesini etkilemez.

Sitenizin taranmasını nasıl optimize edeceğinizle ilgili bilgileri, hâlâ geçerli olan 2009 tarihli taramayı optimize etme konulu blog yayınımızda bulabilirsiniz. Sorunuz olursa forumlarda sorabilirsiniz.

Yayınlayanlar: Gary, Crawling ve Indexing Teams