Googlebot

Google Search, जिन दो तरह के वेब क्रॉलर का इस्तेमाल करता है उन्हें आम शब्दों में Googlebot कहा जाता है:

Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो मोबाइल डिवाइस पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.

Googlebot के सब-टाइप की पहचान, एचटीटीपी user-agent के अनुरोध वाले हेडर देखकर की जा सकती है. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट के टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से यह तय नहीं किया जा सकता कि Googlebot स्मार्टफ़ोन या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.

ज़्यादातर साइटों के लिए Google Search, मुख्य तौर पर कॉन्टेंट के मोबाइल वर्शन को इंडेक्स करता है. ऐसा इसलिए, क्योंकि Googlebot से क्रॉल कराने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाते हैं. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाते हैं.

Googlebot आपकी साइट को कैसे ऐक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.

Google Search के लिए क्रॉल करते समय, Googlebot इस्तेमाल की जा सकने वाली फ़ाइल टाइप के पहले 2 एमबी और PDF फ़ाइल के पहले 64 एमबी के कॉन्टेंट को क्रॉल करता है. रेंडरिंग के हिसाब से, एचटीएमएल में बताए गए हर संसाधन (जैसे कि सीएसएस और JavaScript) को अलग-अलग फ़ेच किया जाता है. साथ ही, हर संसाधन फ़ेच के लिए, फ़ाइल का साइज़ एक जैसा होता है. यह सीमा, PDF फ़ाइलों को छोड़कर अन्य फ़ाइलों पर लागू होती है.
तय की गई सीमा तक कॉन्टेंट फ़ेच करने के बाद, Googlebot फ़ेच करना बंद कर देता है. साथ ही, इंडेक्सिंग के लिए सिर्फ़ फ़ाइल का वह हिस्सा भेजता है जिसे पहले ही डाउनलोड किया जा चुका है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. अन्य Google क्रॉलर, जैसे कि Googlebot वीडियो और Googlebot इमेज, दोनों की अलग-अलग सीमाएं हो सकती हैं.

अमेरिका में मौजूद आईपी पतों से क्रॉल करते समय, Googlebot का टाइमज़ोन पैसिफ़िक टाइम होता है.

googlebot की अन्य तकनीकी प्रॉपर्टी के बारे में, Google के क्रॉलर की खास जानकारी में बताया गया है.

Googlebot को आपकी साइट पर आने से रोकना

Googlebot, मुख्य रूप से पहले क्रॉल किए गए पेजों में एम्बेड किए गए लिंक से, क्रॉल करने के लिए नए यूआरएल ढूंढता है. किसी साइट तक पहुंचने के लिंक पब्लिश न करके उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई व्यक्ति आपकी "सीक्रेट" साइट पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरी साइट पर जाता है, तो उसे आपकी "सीक्रेट" साइट का यूआरएल, सुझाए गए टैग में दिख सकता है. साथ ही, दूसरी साइट, इसे स्टोर कर सकती है और इसे अपने सुझाए गए लॉग में दिखा सकती है.

अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. याद रखें कि क्रॉल करने और इंडेक्स करने के बीच फ़र्क़ होता है. Googlebot को कोई पेज क्रॉल करने से रोकने के बाद भी यूआरएल का पेज, खोज नतीजों में दिख सकता है:

क्या आपको Googlebot को कोई पेज क्रॉल करने से रोकना है? robots.txt फ़ाइल का इस्तेमाल करें.
क्या आपको Google से कोई पेज इंडेक्स नहीं कराना है? noindex का इस्तेमाल करें.
क्या आपको क्रॉलर या उपयोगकर्ता, दोनों को कोई पेज ऐक्सेस करने से रोकना है? कोई दूसरा तरीका, जैसे कि पासवर्ड की मदद से पेज को सुरक्षित रखने का विकल्प अपनाएं.

Googlebot को ब्लॉक करने से, Google Search पर असर पड़ता है. इसमें 'डिस्कवर' और Google Search की सभी सुविधाएं शामिल हैं. साथ ही, इनसे Google इमेज, Google वीडियो, और Google News जैसे अन्य प्लैटफ़ॉर्म पर भी असर पड़ता है.

Googlebot की पुष्टि करना

Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot, एचटीटीपी user-agent अनुरोध के जिस हेडर का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.