संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

Googlebot

Google के दो तरह के वेब क्रॉलर को आम शब्दों में Googlebot कहते हैं:

  • Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी उपयोगकर्ता की तरह काम करता है.
  • Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो किसी मोबाइल डिवाइस के उपयोगकर्ता की तरह काम करता है.

Googlebot के सब-टाइप की पहचान की जा सकती है. इसके लिए, अनुरोध में उपयोगकर्ता एजेंट स्ट्रिंग देखें. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट टोकन (उपयोगकर्ता एजेंट टोकन) के मुताबिक काम करते हैं. इसलिए, robots.txt का इस्तेमाल करके, यह तय नहीं किया जा सकता कि 'Googlebot स्मार्टफ़ोन' या 'Googlebot डेस्कटॉप' में से कोई एक आपकी साइट को क्रॉल करे.

ज़्यादातर साइटों के लिए Google, मुख्य तौर पर कॉन्टेंट का मोबाइल वर्शन इंडेक्स करता है. Googlebot से क्रॉल करने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाएंगे. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाएंगे.

Googlebot आपकी साइट को कैसे ऐक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है.

Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ इसकी परफ़ॉर्मेंस बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, आपके लॉग में कई आईपी पताें से साइटों पर विज़िट करने की जानकारी दिख सकती है. इन सभी का उपयोगकर्ता एजेंट Googlebot है. हमारा मकसद, आपके सर्वर पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.

Googlebot मुख्य तौर पर अमेरिका में आईपी पतों से क्रॉल करता है. अगर Googlebot को पता चलता है कि कोई साइट अमेरिका के अनुरोधों को ब्लॉक कर रही है, तो वह अन्य देशों में मौजूद आईपी पताें से क्रॉल करने की कोशिश कर सकता है। Googlebot, आईपी पतों की जिन सूची का इस्तेमाल करते हैं वे JSON फ़ॉर्मैट में उपलब्ध हैं.

Googlebot, साइट को एचटीटीपी/1.1 पर क्रॉल करता है. साथ ही, अगर साइट पर एचटीटीपी/2 काम करता है, तो वह इसे भी क्रॉल करता है. आपकी साइट के किस प्रोटोकॉल वर्शन का इस्तेमाल करके क्रॉल किया गया है, इससे साइट की रैंकिंग पर कोई असर नहीं पड़ता. हालांकि, एचटीटीपी/2 का इस्तेमाल करके, क्रॉल करने से आपकी साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (जैसे, सीपीयू, रैम) को बचाया जा सकता है.
एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Googlebot आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421 एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास Googlebot टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह स्थायी समाधान नहीं है).

Googlebot, एचटीएमएल फ़ाइल के पहले 15 एमबी के कॉन्टेंट या काम करने वाली टेक्स्ट फ़ाइल को क्रॉल कर सकता है. एचटीएमएल फ़ाइल में बताए गए सभी रिसॉर्स, जैसे कि इमेज, वीडियो, सीएसएस, और JavaScript को अलग-अलग फ़ेच किया जाता है. फ़ाइल के पहले 15 एमबी के कॉन्टेंट के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्स करने के लिए, सिर्फ़ पहले 15 एमबी के कॉन्टेंट पर ध्यान देता है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. Google के अलग-अलग क्रॉलर की सीमाएं अलग-अलग हो सकती हैं.

Googlebot को आपकी साइट पर आने से रोकना

किसी वेब सर्वर को बिना लिंक बताए उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई आपके "सीक्रेट" सर्वर पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरे वेब सर्वर पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. दूसरा वेब सर्वर इसे स्टोर कर सकता है और इसे अपने सुझाए गए लॉग में दिखा भी सकता है. इसी तरह, वेब पर कई पुराने और आधे-अधूरे लिंक होते हैं. जब कोई व्यक्ति आपकी साइट पर किसी गलत लिंक को दिखाता है या आपके सर्वर में हुए बदलाव दिखाने वाले लिंक को अपडेट नहीं कर पाता, तो Googlebot आपकी साइट के गलत लिंक को क्रॉल करने की कोशिश करता है.

अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. Googlebot को किसी पेज को क्रॉल करने से रोकना, इंडेक्स करने से रोकना, और क्रॉलर या लोगों के लिए, किसी पेज का ऐक्सेस रोकना, इन तीनों के बीच का फ़र्क़ जानें.

Googlebot की पुष्टि करना

Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot जिस उपयोगकर्ता एजेंट स्ट्रिंग का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.