बड़ी साइट के मालिक के लिए, वेबसाइट का क्रॉल बजट मैनेज करने के बारे में गाइड
इस गाइड में बताया गया है कि अक्सर अपडेट की जाने वाली बड़ी साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे बेहतर बनाया जा सकता है.
अगर आपकी साइट पर, ऐसे ज़्यादा पेज नहीं हैं जो अक्सर अपडेट किए जाते हैं या अगर आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें पब्लिश किया जाता है, तो यह गाइड आपके लिए नहीं है. आपके लिए, नियमित तौर पर साइटमैप को अप-टू-डेट रखना और इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.
अगर आपका कॉन्टेंट काफ़ी समय से साइट पर उपलब्ध है, लेकिन उसे कभी इंडेक्स नहीं किया गया, तो यह एक अलग समस्या है. आपके पेज को इंडेक्स क्यों नहीं किया जा रहा, इसका पता लगाने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें.
यह गाइड किसके लिए है
यह एक बेहतर गाइड है और इसका इस्तेमाल नीचे दी गई इस तरह की साइटों के लिए किया जा सकता है:
- 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी नहीं बदलता, जैसे कि हफ़्ते में एक बार
- 10 हज़ार से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी अपडेट होता है, जैसे कि हर रोज़
- ऐसी साइटें जिनके सभी यूआरएल में से काफ़ी सारे यूआरएल को Search Console ने खोजा गया - फ़िलहाल इंडेक्स नहीं किया गया की कैटगरी में रखा है
क्रॉल होने से जुड़ी सामान्य बातें
वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Googlebot किसी साइट को क्रॉल करने में कितना समय ले सकता है, इसकी कुछ सीमाएं हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. ध्यान दें, यह ज़रूरी नहीं है कि आपकी साइट के क्रॉल किए गए हर पेज को इंडेक्स किया जाए. हर पेज की जांच करना, उन्हें एक साथ लाना, और उनका आकलन करना ज़रूरी है. ऐसा यह तय करने के लिए किया जाता है कि पेजों को क्रॉल करने के बाद, उन्हें इंडेक्स किया जाएगा या नहीं.
क्रॉल बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.
क्रॉल करने की क्षमता की सीमा
Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Googlebot आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाता है. क्षमता इस बात से तय की जाती है कि Googlebot किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी ज़रूरी कॉन्टेंट को कवरेज दी जा सके.
क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:
- क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे काम करती है या सर्वर की गड़बड़ियां मिलती है, तो क्रॉल दर की सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
- साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास काफ़ी सारी मशीनें हैं, लेकिन इनकी संख्या इतनी भी नहीं है कि सभी साइटों को क्रॉल किया जा सके. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.
क्रॉल करने की ज़रूरत
आम तौर पर, साइट को क्रॉल करने के लिए Google ज़रूरत के हिसाब से आपकी साइट पर समय बिताता है. इसके लिए, वह दूसरी साइटों के मुकाबले आपकी साइट का साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी देखता है.
क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:
- बताई गई इन्वेंट्री: आपकी मदद के बिना, Googlebot आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करेगा जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, ग़ैर-ज़रूरी पेज वगैरह) से आपको उन्हें क्रॉल नहीं कराना है, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आसानी से कंट्रोल किया जा सकता है.
- लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे इंडेक्स में मौजूद रहें.
- पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.
इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से इंडेक्स किया जा सके.
कुल मिलाकर कहें, तो
क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Googlebot क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता तय सीमा तक नहीं पहुंचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Googlebot आपकी साइट को कम बार क्रॉल करेगा.
सबसे सही तरीके
क्रॉल करने की क्षमता को बढ़ाने के लिए नीचे दिए गए सबसे सही तरीके अपनाएं:
- यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें इंडेक्स करने की ज़रूरत नहीं है, तो हो सकता है कि Googlebot आपकी साइट के बाकी हिस्से को क्रॉल न करे या आपका क्रॉल बजट न बढ़ाए.
- डुप्लीकेट कॉन्टेंट को एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल के बजाय, यूनीक कॉन्टेंट को क्रॉल करने पर फ़ोकस किया जा सके.
- robots.txt का इस्तेमाल करके, यूआरएल को क्रॉल किए जाने से रोकना. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन यह ज़रूरी नहीं कि आप उन्हें Search के नतीजों में दिखाना चाहें. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, जिन पर लिंक किए गए पेजों में मौजूद जानकरी को डुप्लीकेट किया गया है या किसी पेज के अलग-अलग वर्शन. अगर पहले बुलेट पॉइंट में बताए गए तरीके से भी ये पेज एक साथ नहीं आ पा रहे हैं, तो robots.txt का इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें. यूआरएल को क्रॉल किए जाने से रोकने के लिए, robots.txt का इस्तेमाल करने से, यूआरएल के इंडेक्स होने की संभावना काफ़ी कम हो जाती है.
-
हमेशा के लिए हटाए गए पेजों के लिए,
404
या410
स्टेटस कोड दिखाएं. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए404
स्टेटस कोड दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद उन्हें फिर से क्रॉल किया जाएगा. soft 404
गड़बड़ियां हटाएं. किसी पेज परsoft 404
दिखाने से उसके क्रॉल होने पर पाबंदी नहीं लगती और इससे आपके क्रॉल बजट पर असर पड़ सकता है.soft 404
गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.- अपने साइटमैप को अप-टू-डेट रखें. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आपको जिन कॉन्टेंट को Google से क्रॉल कराना है उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप
<lastmod>
टैग शामिल करें. - दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
- अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
- अपनी साइट के क्रॉल होने पर नज़र रखना. नज़र रखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आपकी साइट को बेहतर तरीके से क्रॉल किया जा सकता है.
अपनी साइट के क्रॉल होने और इंडेक्स होने पर नज़र रखना
यहां आपकी साइट की क्रॉल प्रोफ़ाइल पर नज़र रखने का तरीका दिया गया है:
- देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
- देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
- देखें कि क्या आपकी साइट के किसी भी हिस्से को उससे ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए जिस तेज़ी से वे अभी क्रॉल किए जा रहे हैं.
- अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
- अपनी साइट पर ज़रूरत से ज़्यादा क्रॉल करने के अनुरोधों को हैंडल करें.
देखें कि Googlebot को आपकी साइट पर उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही
अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. जैसा पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.
गड़बड़ी का पता लगाना:
Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.
इसके अलावा, अपनी साइट पर कुछ यूआरएल की जांच करने के लिए, यूआरएल जांचने वाले टूल का भी इस्तेमाल किया जा सकता है. अगर टूल Hostload ज़्यादा बढ़ गया चेतावनी दिखाता है, तो इसका मतलब है कि Googlebot आपकी साइट के उतने यूआरएल क्रॉल नहीं कर सकता जितने की उसे मिले हैं.
हल:
- उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
- जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
- पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
- अपनी सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.
देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है
अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).
गड़बड़ी का पता लगाना:
Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, अपनी साइट के लॉग पर जाकर, यह देखा जा सकता है कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.
ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.
हल:
अगर अपनी साइट में पेज जोड़े जा रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.
- Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
- अपने robots.txt के निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
- क्रॉल करने की प्राथमिकताओं की समीक्षा करें (मतलब अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें). अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
- देख लें कि आपकी साइट की सर्विंग क्षमता खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.
ध्यान दें कि अगर उपयोगकर्ता की किसी कॉन्टेंट में दिलचस्पी नहीं हैं या वह किसी कॉन्टेंट को नहीं देखना चाहता है, तो हो सकता है कि क्रॉल किए जाने के बावजूद, खोज के नतीजों में ऐसे कॉन्टेंट वाले पेज न दिखें.
देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं
अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि पेजों में किए गए अपडेट के बारे में हमें कैसे बताया जा सकता है.
ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.
गड़बड़ी का पता लगाना:
यह देखने के लिए अपनी साइट के लॉग देखें कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं.
इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए, Google पर खोज करें.
हल:
यह करें:
- अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें.
- इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में
<lastmod>
टैग का इस्तेमाल करें. - यूआरएल के लिए सामान्य स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
- स्टैंडर्ड और क्रॉल किए जा सकने वाले
<a>
लिंक दें, ताकि Google आपके पेज ढूंढ पाए.
ऐसा करने से बचें:
- हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
- यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
- साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आपको इंडेक्स नहीं कराना है.
अपनी साइट की क्रॉल होने की क्षमता को बढ़ाना
अपने पेज के लोड होने की रफ़्तार बढ़ाना
Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.
जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:
- robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
- पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
- दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
- सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.
एचटीटीपी स्टेटस कोड का इस्तेमाल करके, कॉन्टेंट में किए गए बदलावों के बारे में बताना
Google पर, क्रॉल करने के लिए If-Modified-Since
और If-None-Match
एचटीटीपी अनुरोध के हेडर इस्तेमाल किए जा सकते हैं. Google के क्रॉलर, क्रॉल करने की सभी कोशिशों के साथ हेडर नहीं भेजते. ऐसा अनुरोध के इस्तेमाल के तरीके पर निर्भर होता है. उदाहरण के लिए, AdsBot, If-Modified-Since
और If-None-Match
एचटीटीपी अनुरोध के हेडर सेट कर सकता है. अगर हमारे क्रॉलर If-Modified-Since
हेडर भेजते हैं, तो हेडर की वैल्यू तारीख और समय होती है, जब कॉन्टेंट को पिछली बार क्रॉल किया गया था. इस वैल्यू के आधार पर, सर्वर 304 (Not Modified)
एचटीटीपी स्टेटस कोड दिखा सकता है. इस कोड के लिए जवाब का कोई मुख्य हिस्सा नहीं मिलता. ऐसे में Google, कॉन्टेंट के उस वर्शन को फिर से इस्तेमाल करेगा जिसे उसने पिछली बार क्रॉल किया था. अगर कॉन्टेंट, If-Modified-Since
हेडर में दी गई तारीख से नया है, तो सर्वर जवाब के मुख्य हिस्से के साथ 200 (OK)
एचटीटीपी स्टेटस कोड दिखा सकता है.
अगर यूआरएल पर पिछली बार Googlebot के जाने के बाद कॉन्टेंट को नहीं बदला गया है, तो Googlebot के किसी भी अनुरोध के लिए जवाब के मुख्य हिस्से के बिना 304 (Not Modified)
एचटीटीपी स्टेटस कोड भेजा जा सकता है. इस दौरान अनुरोध के हेडर नज़रअंदाज़ किए जा सकते हैं. इससे, सर्वर प्रोसेस करने में लगने वाला समय और रिसॉर्स बचेंगे. इससे क्रॉल करने की क्षमता में सुधार हो सकता है.
जिन यूआरएल को खोज के नतीजों में नहीं दिखाना है उन्हें छिपाना
ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला नया या अपडेट किया गया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.
आपको अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन श्रेणियों में आते हैं:
- वेबसाइट पर फ़िल्टर लगाकर खोजना और सेशन आइडेंटिफ़ायर: वेबसाइट पर फ़िल्टर लगाकर खोजना, आम तौर पर किसी साइट का डुप्लीकेट कॉन्टेंट होता है. सेशन आइडेंटिफ़ायर और दूसरे यूआरएल पैरामीटर, ऐसे पेज को फ़िल्टर और क्रम से लगाते हैं करते हैं जिन पर नया कॉन्टेंट नहीं डाला जाता. वेबसाइट पर फ़िल्टर लगाकर खोजने वाले पेजों को ब्लॉक करने के लिए, robots.txt का इस्तेमाल करें.
- डुप्लीकेट कॉन्टेंट: डुप्लीकेट कॉन्टेंट को पहचानने में Google की मदद करें, ताकि Google बेवजह इस तरह के कॉन्टेंट को क्रॉल न करे.
soft 404
वाले पेज: अगर कोई पेज आपकी साइट पर अब मौजूद नहीं है, तो उसके लिए404
वाला कोड दिखाएं.- हैक किए गए पेज: सुरक्षा से जुड़ी समस्याओं की रिपोर्ट देखें और हैक किए गए पेजों को ठीक करें या उन्हें हटाएं.
- पुराने कॉन्टेंट वाले कई सारे लिंक और प्रॉक्सी: robots.txt का इस्तेमाल करके इन्हें क्रॉल होने से रोकें.
- हल्की क्वालिटी और स्पैम वाला कॉन्टेंट: इनके इस्तेमाल से बचें.
- शॉपिंग कार्ट वाले पेज, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, और कार्रवाई (जैसे, "साइन अप" या "अभी खरीदें") वाले पेज.
यह करें:
- अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
- अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.
ऐसा करने से बचें:
- अपनी साइट के क्रॉल बजट को फिर से बढ़ाने के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आपको लंबे समय तक Google पर नहीं देखना है.
- बजट को फिर से बढ़ाने के लिए, साइटमैप में लगातार बदलाव न करें. साथ ही, कुछ समय के लिए रिसॉर्स छिपाने के तरीकों का इस्तेमाल न करें.
अपनी साइट पर ज़रूरत से ज़्यादा क्रॉल करने के अनुरोधों को हैंडल करना (आपातकालीन स्थिति)
Googlebot एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों से दबाव न पड़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो ये काम किए जा सकते हैं.
गड़बड़ी का पता लगाना:
अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.
हल:
हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:
- जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में,
503
या429
एचटीटीपी नतीजों का स्टेटस कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आगे बताया गया तरीका अपनाएं. -
जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए
503
या429
एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखाना बंद कर दें; जिन यूआरएल के लिए503
या429
दिखेगा, Google अपने इंडेक्स से उनको हटा देगा. - समय के साथ अपनी साइट के क्रॉल होने और होस्ट की क्षमता पर नज़र रखें.
- अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए डाइनैमिक सर्च विज्ञापन वाले ऐसे टारगेट बनाए हैं जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर तीम हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.
क्रॉल होने की प्रोसेस से जुड़े भ्रम और तथ्य
Google, वेबसाइटों को क्रॉल और इंडेक्स कैसे करता है, इस बारे में आपको सही जानकारी है या नहीं, इसका पता लगाएं.
5xx
एचटीटीपी रिस्पॉन्स स्टेटस कोड (सर्वर की गड़बड़ियां) दिखने या कनेक्शन के टाइम आउट होने से पता चलता है कि सर्वर ठीक से काम नहीं कर रहा है. इससे, क्रॉल करने की प्रोसेस धीमी हो जाती है. हमारा सुझाव है कि Search Console में मौजूद, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट पर ध्यान दिया जाए. इससे, सर्वर की गड़बड़ियां कम करने में मदद मिलेगी.
nofollow
नियम क्रॉल बजट पर असर डालता है.nofollow
के तौर पर मार्क करता है, तो भी वह क्रॉल हो सकता है. ऐसा तब होगा, जब आपकी साइट का कोई दूसरा पेज या वेब पर मौजूद कोई पेज उस लिंक को nofollow
के तौर पर मार्क नहीं करता.noindex
का इस्तेमाल किया जा सकता है.noindex
नियम ढूंढने के लिए, Google को पेज को क्रॉल करना पड़ता है.
हालांकि, चीज़ों को इंडेक्स किए जाने से रोकने के लिए,
noindex
का इस्तेमाल किया जाता है. अगर आपको यह पक्का करना है कि ये पेज Google के इंडेक्स में शामिल न हों, तो noindex
का इस्तेमाल करना जारी रखें और क्रॉल बजट के बारे में चिंता न करें. इस बात पर भी ध्यान देना ज़रूरी है कि अगर आपने noindex
का इस्तेमाल करके या किसी और तरीके से यूआरएल को Google के इंडेक्स से हटाया है, तो Googlebot आपकी साइट पर मौजूद अन्य यूआरएल पर फ़ोकस कर सकता है. इसका मतलब है कि आने वाले समय में noindex
, सीधे तौर पर काम न करते हुए भी आपकी साइट का क्रॉल बजट बढ़ा सकता है.
4xx
एचटीटीपी स्टेटस कोड देने वाले पेज, क्रॉल बजट को बर्बाद कर रहे हैं.4xx
एचटीटीपी स्टेटस कोड
(429
के अलावा) दिखाने वाले पेज, क्रॉल बजट को बर्बाद नहीं करते हैं. Google ने इस पेज को क्रॉल करने की कोशिश की,
लेकिन उसे स्टेटस कोड मिला, न कि कोई कॉन्टेंट.