Googlebot
Google Search के इस्तेमाल किए जाने वाले, दो तरह के वेब क्रॉलर को आम शब्दों में Googlebot कहा जाता है:
- Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो मोबाइल डिवाइस पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
- Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
Googlebot के सब-टाइप की पहचान, एचटीटीपी user-agent
के अनुरोध वाले हेडर देखकर की जा सकती है. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट के टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से यह तय नहीं किया जा सकता कि Googlebot स्मार्टफ़ोन या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.
ज़्यादातर साइटों के लिए Google Search, मुख्य तौर पर कॉन्टेंट का मोबाइल वर्शन इंडेक्स करता है. ऐसा इसलिए, क्योंकि Googlebot से क्रॉल कराने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाते हैं. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाते हैं.
Googlebot आपकी साइट को कैसे ऐक्सेस करता है
ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.
Googlebot, एचटीएमएल फ़ाइल के पहले 15 एमबी के कॉन्टेंट या काम करने वाली टेक्स्ट फ़ाइल को क्रॉल कर सकता है. एचटीएमएल में बताए गए हर संसाधन, जैसे कि सीएसएस और JavaScript को अलग-अलग फ़ेच किया जाता है. साथ ही, किसी भी फ़ेच के लिए, फ़ाइल का साइज़ एक जैसा होता है. फ़ाइल के पहले 15 एमबी वाले कॉन्टेंट के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्सिंग के लिए, सिर्फ़ पहले 15 एमबी वाला कॉन्टेंट भेजता है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. अन्य Google क्रॉलर, जैसे कि Googlebot वीडियो और Googlebot इमेज, दोनों की अलग-अलग सीमाएं हो सकती हैं.
अमेरिका में मौजूद आईपी पतों से क्रॉल करते समय, Googlebot का टाइमज़ोन पैसिफ़िक टाइम होता है.
Googlebot की अन्य तकनीकी प्रॉपर्टी के बारे में, Google के क्रॉलर की खास जानकारी में बताया गया है.
Googlebot को आपकी साइट पर आने से रोकना
Googlebot, मुख्य रूप से पहले क्रॉल किए गए पेजों में एम्बेड किए गए लिंक से, नए यूआरएल ढूंढता है. किसी साइट तक पहुंचने के लिंक पब्लिश न करके उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई व्यक्ति आपकी "सीक्रेट" साइट पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरी साइट पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. साथ ही, दूसरी साइट, इसे स्टोर कर सकती है और इसे अपने सुझाए गए लॉग में दिखा भी सकती है.
अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. याद रखें कि क्रॉल और इंडेक्स करने के बीच फ़र्क़ होता है. Googlebot को कोई पेज क्रॉल करने से रोकने के बाद भी यूआरएल का पेज, खोज नतीजों में दिख सकता है:
- क्या आपको Googlebot को कोई पेज क्रॉल करने से रोकना है? robots.txt फ़ाइल का इस्तेमाल करें.
-
क्या आपको Google से कोई पेज इंडेक्स नहीं कराना है?
noindex
का इस्तेमाल करें. - क्या आपको क्रॉलर या उपयोगकर्ता, दोनों को कोई पेज ऐक्सेस करने से रोकना है? कोई दूसरा तरीका, जैसे कि पासवर्ड की मदद से पेज को सुरक्षित रखने का विकल्प अपनाएं.
Googlebot को ब्लॉक करने से, Google Search पर असर पड़ता है. इसमें 'डिस्कवर' और Google Search की सभी सुविधाएं शामिल हैं. साथ ही, इनसे Google इमेज, Google वीडियो, और Google News जैसे अन्य प्लैटफ़ॉर्म पर भी असर पड़ता है.
Googlebot की पुष्टि करना
Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot, एचटीटीपी user-agent
अनुरोध के जिस हेडर का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.