Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
16 Ocak 2017 Pazartesi
Son zamanlarda, "tarama bütçesi" için bir dizi tanım duyduk ancak "tarama bütçesi" ifadesinin dışarıda taşıdığı tüm anlamları kapsayan bir terimimiz yok. Bu yayında, bizimle ilgili olan kısmını ve Googlebot için ne anlama geldiğini açıklayacağız.
Öncelikle, aşağıda açıklandığı gibi tarama bütçesinin çoğu yayıncı için önemli bir konu olmadığını vurgulamak isteriz. Yeni sayfalar yayınlandıkları gün taranıyorsa web yöneticilerinin tarama bütçesine odaklanmaları gerekmez. Benzer şekilde, birkaç binden az URL'si olan siteler, çoğu zaman verimli bir şekilde taranır.
Neyin ne zaman taranacağıyla ilgili öncelikler ve siteyi barındıran sunucunun taramaya ne kadar kaynak ayırabileceği konusu, örneğin, daha büyük siteler veya URL parametrelerine göre otomatik oluşturulan siteler açısından daha fazla önem taşır.
Tarama hızı sınırı
Googlebot, web’in iyi bir vatandaşı olacak şekilde tasarlanmıştır. Asıl önceliği tarama olmakla birlikte, siteyi ziyaret eden kullanıcıların deneyimini bozmaz. "Tarama hızı sınırı" adını verdiğimiz bu özellik, bir sitenin maksimum getirme hızını sınırlar.
Özetle bu ifade, Googlebot'un siteyi taramak için kullanabileceği maksimum eş zamanlı paralel bağlantı sayısını ve getirmeler arasında beklemesi gereken süreyi temsil eder. Tarama hızı, birkaç faktöre bağlı olarak artıp azalabilir:
Tarama durumu: Site bir süre hızlı yanıt verirse sınır artar, yani tarama için daha fazla bağlantı kullanılabilir. Site yavaşlar veya sunucu hatalarıyla yanıt verirse sınır azalır ve Googlebot daha az tarama yapar.
Search Console'da belirlenen sınır: Web sitesi sahipleri, Googlebot'un sitelerini tarama oranını düşürebilir. Daha yüksek sınırlar belirlemenin tarama oranını otomatik olarak artırmayacağını unutmayın.
Tarama talebi
Tarama hızı sınırına ulaşılmasa bile, dizine ekleme talebi yoksa Googlebot etkinliği düşük olur. Tarama talebini belirlemede önemli rol oynayan iki faktör şunlardır:
Popülerlik: İnternette daha popüler olan URL'ler, dizinimizde daha güncel kalmaları için genellikle daha sık taranır.
Eskilik: Sistemlerimiz, URL'lerin dizinde eskimesini önlemeye çalışır.
Ayrıca, site taşıma gibi site genelindeki etkinlikler, yeni URL'lerin içeriğini yeniden dizine eklemek için tarama talebindeki artışı tetikleyebilir.
Tarama hızını ve tarama talebini birlikte değerlendirerek tarama bütçesini, Googlebot'un tarayabileceği ve taramak istediği URL'lerin sayısı olarak tanımlıyoruz.
Tarama bütçesini etkileyen faktörler
Analizimize göre, bir sitede düşük değer sağlayan çok sayıda URL bulunması, sitenin taranmasını ve dizine eklenmesini olumsuz etkileyebilir. Düşük değer sağlayan URL'lerin önem düzeyine göre aşağıdaki kategorilere ayrıldığını belirledik:
Sunucu kaynaklarını bu gibi sayfalara harcamak, gerçekte değerli olan sayfaların tarama etkinliğini azaltır. Bu da sitedeki kaliteli içeriklerin keşfedilmesinde ciddi gecikmelere neden olabilir.
En çok sorulan sorular
Tarama, sitelerin Google arama sonuçlarına girdiği noktadır. Bir web sitesinin verimli bir şekilde taranması, Google Arama'da dizine eklenmesine katkı sağlar.
Site hızı, tarama bütçemi etkiler mi? Peki ya hatalar?
Bir siteyi daha hızlı hale getirmek hem kullanıcı deneyimini iyileştirir hem de tarama hızını artırır. Bir sitenin hızlı olması, Googlebot için sağlıklı bir sunucunun göstergesidir. Böylece aynı sayıda bağlantı üzerinden daha fazla içerik alabilir. Öte yandan, çok sayıda 5xx hatası veya bağlantı zaman aşımı olması, bunun tersine işaret eder ve tarama yavaşlar.
Artan tarama hızı, Arama sonuçlarında daha iyi konumları garanti etmez.
Google, sonuçları sıralamak için yüzlerce sinyal kullanır. Tarama, sonuçlarda yer almak için gerekli olsa da bir sıralama sinyali değildir.
Alternatif URL'ler ve yerleştirilmiş içerikler, tarama bütçesine dahil edilir mi?
Genel olarak, Googlebot'un taradığı her URL, sitenin tarama bütçesine dahil edilir.
AMP veya hreflang gibi alternatif URL'lerin yanı sıra CSS ve JavaScript gibi yerleşik içeriklerin de AJAX (XHR gibi) çağrıların taranması gerekebilir ve bunlar sitenin tarama bütçesini harcar. Benzer şekilde, uzun yönlendirme zincirlerinin tarama üzerinde olumsuz bir etkisi olabilir.
Googlebot'u crawl-delay kuralıyla kontrol edebilir miyim?
Standart olmayan crawl-delay robots.txt kuralı, Googlebot tarafından işlenmez.
nofollow kuralı, tarama bütçesini etkiler mi?
Duruma bağlı. Taranan her URL, tarama bütçesini etkiler. Dolayısıyla, sayfanız bir URL'yi nofollow olarak işaretlese bile, sitenizdeki başka bir sayfa ya da web'deki herhangi bir sayfa bu bağlantıyı nofollow olarak etiketlemiyorsa bu URL taranabilir.
Robots.txt dosyasıyla taranmasını engellediğim URL'ler, tarama bütçemi herhangi bir şekilde etkiler mi?
Sitenizin taranmasını nasıl optimize edeceğinizle ilgili bilgileri, hâlâ geçerli olan 2009 tarihli taramayı optimize etme konulu blog yayınımızda bulabilirsiniz. Sorunuz olursa forumlarda sorabilirsiniz.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],[],[[["\u003cp\u003eGooglebot's crawl budget is the number of URLs it can and wants to crawl on a website, influenced by factors like crawl rate limit and crawl demand.\u003c/p\u003e\n"],["\u003cp\u003eCrawl rate limit is the maximum fetching rate for a site, determined by site health and potential limits set in Search Console.\u003c/p\u003e\n"],["\u003cp\u003eCrawl demand is influenced by the popularity and staleness of URLs, with popular and fresh content being crawled more frequently.\u003c/p\u003e\n"],["\u003cp\u003eLow-value-add URLs like faceted navigation, duplicate content, and soft error pages can negatively impact a site's crawl budget and indexing.\u003c/p\u003e\n"],["\u003cp\u003eWhile crucial for indexing, crawl rate is not a direct ranking factor in Google Search results.\u003c/p\u003e\n"]]],["Google's \"crawl budget\" is the number of URLs Googlebot can and wants to crawl, influenced by crawl rate limit and crawl demand. Crawl rate is determined by server responsiveness and user-set limits, while crawl demand depends on URL popularity and staleness. Low-value URLs, such as faceted navigation and duplicate content, negatively impact the budget. Site speed and server errors affect crawl rate. Crawling is not a ranking factor, but it's necessary for a URL to appear in search results.\n"],null,["# What Crawl Budget Means for Googlebot\n\n| It's been a while since we published this blog post. Some of the information may be outdated (for example, some images may be missing, and some links may not work anymore). Check out our updated documentation on [optimizing crawling efficiency](/search/docs/crawling-indexing/large-site-managing-crawl-budget#improve_crawl_efficiency).\n\nMonday, January 16, 2017\n\n\nRecently, we've heard a number of definitions for \"crawl budget\", however we don't have a single\nterm that would describe everything that \"crawl budget\" stands for externally. With this post\nwe'll clarify what we actually have and what it means for Googlebot.\n\n\nFirst, we'd like to emphasize that crawl budget, as described below, is not something most\npublishers have to worry about. If new pages tend to be crawled the same day they're published,\ncrawl budget is not something webmasters need to focus on. Likewise, if a site has fewer than a\nfew thousand URLs, most of the time it will be crawled efficiently.\n\n\nPrioritizing what to crawl, when, and how much resource the server hosting the site can allocate\nto crawling is more important for bigger sites, or those that auto-generate pages based on URL\nparameters, for example.\n\nCrawl rate limit\n----------------\n\n\nGooglebot is designed to be a good citizen of the web. Crawling is its main priority, while making\nsure it doesn't degrade the experience of users visiting the site. We call this the \"crawl rate\nlimit,\" which limits the maximum fetching rate for a given site.\n\n\nSimply put, this represents the number of simultaneous parallel connections Googlebot may use to\ncrawl the site, as well as the time it has to wait between the fetches. The crawl rate can go up\nand down based on a couple of factors:\n\n- **Crawl health**: If the site responds really quickly for a while, the limit goes up, meaning more connections can be used to crawl. If the site slows down or responds with server errors, the limit goes down and Googlebot crawls less.\n- [**Limit set in\n Search Console**](https://support.google.com/webmasters/answer/48620): Website owners can reduce Googlebot's crawling of their site. Note that setting higher limits doesn't automatically increase crawling.\n\nCrawl demand\n------------\n\n\nEven if the crawl rate limit isn't reached, if there's no demand from indexing, there will be low\nactivity from Googlebot. The two factors that play a significant role in determining crawl demand\nare:\n\n- **Popularity**: URLs that are more popular on the Internet tend to be crawled more often to keep them fresher in our index.\n- **Staleness**: Our systems attempt to prevent URLs from becoming stale in the index.\n\n\nAdditionally, site-wide events like site moves may trigger an increase in crawl demand in order to\nreindex the content under the new URLs.\n\n\nTaking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot\ncan and wants to crawl.\n\nFactors affecting crawl budget\n------------------------------\n\n\nAccording to our analysis, having many low-value-add URLs can negatively affect a site's crawling\nand indexing. We found that the low-value-add URLs fall into these categories, in order of\nsignificance:\n\n- [Faceted navigation](/search/blog/2014/02/faceted-navigation-best-and-5-of-worst) and [session identifiers](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [On-site duplicate content](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [Soft error pages](/search/blog/2010/06/crawl-errors-now-reports-soft-404s)\n- Hacked pages\n- [Infinite spaces](/search/blog/2008/08/to-infinity-and-beyond-no) and proxies\n- Low quality and spam content\n\n\nWasting server resources on pages like these will drain crawl activity from pages that do actually\nhave value, which may cause a significant delay in discovering great content on a site.\n\nTop questions\n-------------\n\n\nCrawling is the entry point for sites into Google's search results. Efficient crawling of a\nwebsite helps with its indexing in Google Search. \n\n### Does site speed affect my crawl budget? How about errors?\n\n\nMaking a site faster improves the users' experience while also increasing crawl rate. For\nGooglebot, a speedy site is a sign of healthy servers, so it can get more content over the\nsame number of connections. On the flip side, a significant number of 5xx errors or\nconnection timeouts signal the opposite, and crawling slows down.\n\n\nWe recommend paying attention to the\n[Crawl Errors report in Search Console](https://support.google.com/webmasters/answer/35120)\nand keeping the number of server errors low. \n\n### Is crawling a ranking factor?\n\n\nAn increased crawl rate will not necessarily lead to better positions in Search results.\nGoogle uses hundreds of signals to rank the results, and while crawling is necessary for\nbeing in the results, it's not a ranking signal. \n\n### Do alternate URLs and embedded content count in the crawl budget?\n\n\nGenerally, any URL that Googlebot crawls will count towards a site's crawl budget.\nAlternate URLs, like AMP or hreflang, as well as embedded content, such as CSS and\nJavaScript, including AJAX\n(like [XHR](https://en.wikipedia.org/wiki/XMLHttpRequest))\ncalls, may have to be crawled and will consume a site's crawl budget. Similarly, long\nredirect chains may have a negative effect on crawling. \n\n### Can I control Googlebot with the `crawl-delay` rule?\n\n\nThe non-standard `crawl-delay` robots.txt rule is not processed by Googlebot. \n\n### Does the `nofollow` rule affect crawl budget?\n\n\nIt depends. Any URL that is crawled affects crawl budget, so even if your page marks a URL\nas `nofollow` it can still be crawled if another page on your site, or any page on the web,\ndoesn't label the link as nofollow. \n\n### Do URLs I disallowed through robots.txt affect my crawl budget in any way?\n\n\nNo, disallowed URLs do not affect the crawl budget.\n\n\nFor information on how to optimize crawling of your site, take a look at our blogpost on\n[optimizing crawling](/search/blog/2009/08/optimize-your-crawling-indexing)\nfrom 2009 that is still applicable. If you have questions, ask in the\n[forums](https://support.google.com/webmasters/community/)!\n\n\nPosted by [Gary Illyes](https://garyillyes.com/+), Crawling and Indexing\nteams"]]