ماذا تعني ميزانية الزحف بالنسبة إلى برنامج Googlebot
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
الاثنين في 16 كانون الثاني (يناير)، 2017
لقد سمعنا مؤخرًا عددًا من التعريفات لمصطلح "ميزانية الزحف"، ولكن ليس لدينا عبارة محدّدة يمكنها وصف كل ما يشير إليه هذا المصطلح خارج Google. في هذه المشاركة، سنوضّح
تعريفنا الخاص بهذا المصطلح وما يمثّله بالنسبة إلى برنامج Googlebot.
أولاً، نودّ التأكيد أنّه بالنسبة إلى معظم الناشرين، وكما هو موضّح أدناه، لا داعي للقلق بخصوص ميزانية الزحف. إذا كان الزحف إلى الصفحات الجديدة يتم عادةً في يوم نشرها،
لا حاجة إلى أن يركّز مشرفو المواقع على ميزانية الزحف. وبالمثل، إذا كان الموقع الإلكتروني يحتوي على أقل من
بضعة آلاف من عناوين URL، سيتم الزحف إليها في معظم الأحيان بكفاءة.
إنّ تحديد أولوية العناصر التي يجب الزحف إليها والوقت المناسب للزحف وكمية الموارد التي يمكن للخادم الذي يستضيف الموقع الإلكتروني تخصيصها للزحف هي عوامل أكثر أهميةً بالنسبة إلى المواقع الإلكترونية الأكبر حجمًا أو مثلاً، المواقع التي تنشئ صفحات تلقائيًا استنادًا إلى معلَمات عناوين URL.
الحدّ الأقصى لمعدّل الزحف
تم تصميم Googlebot بطريقة لا تؤدي إلى مشاكل أثناء الزحف على الويب. ومهمته الأساسية هي الزحف
مع الحرص على عدم خفض مستوى تجربة المستخدمين الذين يزورون الموقع الإلكتروني. نُطلق على هذه الطريقة تسمية "الحدّ الأقصى لمعدّل الزحف"، الذي يضبط الحدّ الأقصى لمعدّل جلب بيانات موقع إلكتروني معيّن.
ببساطة، يمثّل ذلك عدد الاتصالات المتوازية والمتزامنة التي يمكن لبرنامج Googlebot استخدامها للزحف إلى الموقع الإلكتروني، بالإضافة إلى مدة التأخير الفاصلة بين عمليات جلب البيانات. وقد يرتفع معدّل الزحف أو ينخفض استنادًا إلى عاملَين:
سلامة الزحف: إذا استجاب الموقع الإلكتروني بسرعة عالية لبعض الوقت، سيرتفع الحدّ الأقصى، أي أنّه يمكن استخدام المزيد من الاتصالات للزحف. وإذا كانت استجابة الموقع الإلكتروني بطيئة أو كانت تشير إلى أخطاء في الخادم، سينخفض الحدّ الأقصى لمعدّل الزحف وسيزحف Googlebot بمعدّل أقل.
ضبط الحدّ الأقصى للزحف في
Search Console: يمكن لمالكي المواقع الإلكترونية خفض معدّل زحف Googlebot إلى مواقعهم الإلكترونية. يُرجى العلم بأنّ ضبط حدّ أقصى أعلى للزحف لا يؤدي إلى زيادة معدّل الزحف تلقائيًا.
طلب الزحف
سيكون نشاط Googlebot منخفضًا إذا لم يكن هناك طلب بالفهرسة، حتى في حال لم يتم الوصول إلى الحدّ الأقصى لمعدّل الزحف. ويؤدي العاملان التاليان دورًا مهمًا في تحديد طلب الزحف:
مدى الرواج: يتم عادةً الزحف بوتيرة أسرع إلى عناوين URL الأكثر رواجًا على الإنترنت بهدف تعديلها باستمرار في فهرسنا.
مدى القِدم: تحاول أنظمتنا منع عناوين URL من أن تصبح قديمة في الفهرس.
بالإضافة إلى ذلك، قد تؤدي الأحداث التي تتم على مستوى الموقع الإلكتروني، مثل عمليات نقل الموقع الإلكتروني، إلى زيادة طلب الزحف لإعادة فهرسة المحتوى ضمن عناوين URL الجديدة.
استنادًا إلى معدّل الزحف وطلب الزحف معًا، يمكننا تعريف ميزانية الزحف على أنها عدد عناوين URL التي يستطيع ويريد برنامج Googlebot الزحف إليها.
العوامل التي تؤثر في ميزانية الزحف
وفقًا لتحليلاتنا، يمكن أن يؤدي توفّر العديد من عناوين URL المنخفضة القيمة إلى التأثير سلبًا في عمليتَي الزحف إلى الموقع الإلكتروني وفهرسته. وقد تبيّن لنا أنّ عناوين URL ذات القيمة المنخفضة تندرج ضمن الفئات التالية، وهي مرتّبة حسب الأهمية:
المحتوى ذو الجودة المنخفضة والمحتوى غير المرغوب فيه
يؤدي هدر موارد الخادم على صفحات مثل الصفحات المذكورة أعلاه إلى استنزاف نشاط الزحف من الصفحات التي لها قيمة مفيدة، ما قد يسبب تأخيرًا كبيرًا في اكتشاف المحتوى الرائع على الموقع الإلكتروني.
أهم الأسئلة
الزحف هو نقطة دخول المواقع الإلكترونية إلى نتائج "بحث Google". ويساعد الزحف الفعّال إلى موقع إلكتروني في فهرسته في "بحث Google".
هل تؤثر سرعة الموقع الإلكتروني في ميزانية الزحف؟ ماذا عن الأخطاء؟
تؤدي زيادة سرعة الموقع الإلكتروني إلى تحسين تجربة المستخدمين وإلى زيادة معدّل الزحف. ويُعدّ الموقع الإلكتروني السريع إشارة إلى Googlebot على توفّر خوادم جيّدة، ما يتيح له إمكانية الزحف إلى مزيد من المحتوى باستخدام عدد الاتصالات نفسه. وفي المقابل، إنّ عرض عدد كبير من أخطاء 5xx أو انتهاء المهلة المحدّدة للاتصال يدلّ على عكس ذلك، ما يؤدّي إلى خفض سرعة الزحف.
إنّ زيادة معدّل الزحف لا يؤدي بالضرورة إلى تحسين ترتيب الصفحة في نتائج البحث من Google.
يستخدم محرّك بحث Google
مئات الإشارات لترتيب النتائج، لكنّ الزحف ليس مؤشر ترتيب مع أنّه يشكّل عاملاً ضروريًا لظهور الصفحة في نتائج البحث.
هل تشكّل عناوين URL البديلة والمحتوى المضمّن جزءًا من ميزانية الزحف؟
بشكل عام، سيتم احتساب أي عنوان URL يزحف إليه برنامج Googlebot ضمن إطار ميزانية الزحف الخاصة بالموقع الإلكتروني.
وقد يكون من الضروري الزحف إلى عناوين URL البديلة، مثل AMP أو hreflang، وكذلك إلى المحتوى المضمّن، مثل CSS
وJavaScript، بما في ذلك طلبات AJAX (مثل XHR)، ما يستهلك ميزانية الزحف المخصصة للموقع الإلكتروني. وبالمثل، قد يكون لسلاسل إعادة التوجيه الطويلة تأثير سلبي في عملية الزحف.
هل يمكنني التحكّم في Googlebot باستخدام القاعدة crawl-delay؟
لا يعالج Googlebot القاعدة crawl-delay غير العادية في ملف robots.txt.
هل تؤثر القاعدة nofollow في ميزانية الزحف؟
يعتمد ذلك على بعض العوامل. يؤثّر أي عنوان URL يتم الزحف إليه في ميزانية الزحف، لذا حتى إذا كانت صفحتك تضع علامة nofollow على عنوان URL، سيتواصل الزحف إليه في حال لم تضع صفحة أخرى على موقعك الإلكتروني أو أي صفحة على الويب علامة nofollow على الرابط.
هل تؤثر عناوين URL التي حظرتُ الوصول إليها باستخدام ملف robots.txt في ميزانية الزحف بأي طريقة؟
لا، لا تؤثر عناوين URL التي تم منع الوصول إليها في ميزانية الزحف.
لمعرفة كيفية تحسين عملية الزحف إلى موقعك الإلكتروني، يمكنك الاطّلاع على مشاركة المدونة التي تتناول
تحسين عملية الزحف
والتي تم نشرها في العام 2009 ولا تزال سارية. إذا كانت لديك أي أسئلة، يمكنك طرحها في
المنتديات.
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],[],[[["\u003cp\u003eGooglebot's crawl budget is the number of URLs it can and wants to crawl on a website, influenced by factors like crawl rate limit and crawl demand.\u003c/p\u003e\n"],["\u003cp\u003eCrawl rate limit is the maximum fetching rate for a site, determined by site health and potential limits set in Search Console.\u003c/p\u003e\n"],["\u003cp\u003eCrawl demand is influenced by the popularity and staleness of URLs, with popular and fresh content being crawled more frequently.\u003c/p\u003e\n"],["\u003cp\u003eLow-value-add URLs like faceted navigation, duplicate content, and soft error pages can negatively impact a site's crawl budget and indexing.\u003c/p\u003e\n"],["\u003cp\u003eWhile crucial for indexing, crawl rate is not a direct ranking factor in Google Search results.\u003c/p\u003e\n"]]],["Google's \"crawl budget\" is the number of URLs Googlebot can and wants to crawl, influenced by crawl rate limit and crawl demand. Crawl rate is determined by server responsiveness and user-set limits, while crawl demand depends on URL popularity and staleness. Low-value URLs, such as faceted navigation and duplicate content, negatively impact the budget. Site speed and server errors affect crawl rate. Crawling is not a ranking factor, but it's necessary for a URL to appear in search results.\n"],null,["# What Crawl Budget Means for Googlebot\n\n| It's been a while since we published this blog post. Some of the information may be outdated (for example, some images may be missing, and some links may not work anymore). Check out our updated documentation on [optimizing crawling efficiency](/search/docs/crawling-indexing/large-site-managing-crawl-budget#improve_crawl_efficiency).\n\nMonday, January 16, 2017\n\n\nRecently, we've heard a number of definitions for \"crawl budget\", however we don't have a single\nterm that would describe everything that \"crawl budget\" stands for externally. With this post\nwe'll clarify what we actually have and what it means for Googlebot.\n\n\nFirst, we'd like to emphasize that crawl budget, as described below, is not something most\npublishers have to worry about. If new pages tend to be crawled the same day they're published,\ncrawl budget is not something webmasters need to focus on. Likewise, if a site has fewer than a\nfew thousand URLs, most of the time it will be crawled efficiently.\n\n\nPrioritizing what to crawl, when, and how much resource the server hosting the site can allocate\nto crawling is more important for bigger sites, or those that auto-generate pages based on URL\nparameters, for example.\n\nCrawl rate limit\n----------------\n\n\nGooglebot is designed to be a good citizen of the web. Crawling is its main priority, while making\nsure it doesn't degrade the experience of users visiting the site. We call this the \"crawl rate\nlimit,\" which limits the maximum fetching rate for a given site.\n\n\nSimply put, this represents the number of simultaneous parallel connections Googlebot may use to\ncrawl the site, as well as the time it has to wait between the fetches. The crawl rate can go up\nand down based on a couple of factors:\n\n- **Crawl health**: If the site responds really quickly for a while, the limit goes up, meaning more connections can be used to crawl. If the site slows down or responds with server errors, the limit goes down and Googlebot crawls less.\n- [**Limit set in\n Search Console**](https://support.google.com/webmasters/answer/48620): Website owners can reduce Googlebot's crawling of their site. Note that setting higher limits doesn't automatically increase crawling.\n\nCrawl demand\n------------\n\n\nEven if the crawl rate limit isn't reached, if there's no demand from indexing, there will be low\nactivity from Googlebot. The two factors that play a significant role in determining crawl demand\nare:\n\n- **Popularity**: URLs that are more popular on the Internet tend to be crawled more often to keep them fresher in our index.\n- **Staleness**: Our systems attempt to prevent URLs from becoming stale in the index.\n\n\nAdditionally, site-wide events like site moves may trigger an increase in crawl demand in order to\nreindex the content under the new URLs.\n\n\nTaking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot\ncan and wants to crawl.\n\nFactors affecting crawl budget\n------------------------------\n\n\nAccording to our analysis, having many low-value-add URLs can negatively affect a site's crawling\nand indexing. We found that the low-value-add URLs fall into these categories, in order of\nsignificance:\n\n- [Faceted navigation](/search/blog/2014/02/faceted-navigation-best-and-5-of-worst) and [session identifiers](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [On-site duplicate content](/search/blog/2007/09/google-duplicate-content-caused-by-url)\n- [Soft error pages](/search/blog/2010/06/crawl-errors-now-reports-soft-404s)\n- Hacked pages\n- [Infinite spaces](/search/blog/2008/08/to-infinity-and-beyond-no) and proxies\n- Low quality and spam content\n\n\nWasting server resources on pages like these will drain crawl activity from pages that do actually\nhave value, which may cause a significant delay in discovering great content on a site.\n\nTop questions\n-------------\n\n\nCrawling is the entry point for sites into Google's search results. Efficient crawling of a\nwebsite helps with its indexing in Google Search. \n\n### Does site speed affect my crawl budget? How about errors?\n\n\nMaking a site faster improves the users' experience while also increasing crawl rate. For\nGooglebot, a speedy site is a sign of healthy servers, so it can get more content over the\nsame number of connections. On the flip side, a significant number of 5xx errors or\nconnection timeouts signal the opposite, and crawling slows down.\n\n\nWe recommend paying attention to the\n[Crawl Errors report in Search Console](https://support.google.com/webmasters/answer/35120)\nand keeping the number of server errors low. \n\n### Is crawling a ranking factor?\n\n\nAn increased crawl rate will not necessarily lead to better positions in Search results.\nGoogle uses hundreds of signals to rank the results, and while crawling is necessary for\nbeing in the results, it's not a ranking signal. \n\n### Do alternate URLs and embedded content count in the crawl budget?\n\n\nGenerally, any URL that Googlebot crawls will count towards a site's crawl budget.\nAlternate URLs, like AMP or hreflang, as well as embedded content, such as CSS and\nJavaScript, including AJAX\n(like [XHR](https://en.wikipedia.org/wiki/XMLHttpRequest))\ncalls, may have to be crawled and will consume a site's crawl budget. Similarly, long\nredirect chains may have a negative effect on crawling. \n\n### Can I control Googlebot with the `crawl-delay` rule?\n\n\nThe non-standard `crawl-delay` robots.txt rule is not processed by Googlebot. \n\n### Does the `nofollow` rule affect crawl budget?\n\n\nIt depends. Any URL that is crawled affects crawl budget, so even if your page marks a URL\nas `nofollow` it can still be crawled if another page on your site, or any page on the web,\ndoesn't label the link as nofollow. \n\n### Do URLs I disallowed through robots.txt affect my crawl budget in any way?\n\n\nNo, disallowed URLs do not affect the crawl budget.\n\n\nFor information on how to optimize crawling of your site, take a look at our blogpost on\n[optimizing crawling](/search/blog/2009/08/optimize-your-crawling-indexing)\nfrom 2009 that is still applicable. If you have questions, ask in the\n[forums](https://support.google.com/webmasters/community/)!\n\n\nPosted by [Gary Illyes](https://garyillyes.com/+), Crawling and Indexing\nteams"]]