Googlebot और Google के अन्य क्रॉलर की पुष्टि करना

इस बात की पुष्टि की जा सकती है कि आपके सर्वर को ऐक्सेस करने वाला वेब क्रॉलर वाकई Googlebot जैसा कोई Google क्रॉलर है या नहीं. अगर आपको लगता है कि स्पैम करने वाले या समस्या पैदा करने वाले अन्य लोग, Googlebot होने का दावा करके आपकी साइट को ऐक्सेस कर रहे हैं, तो इस विकल्प के इस्तेमाल से मदद मिल सकती है.

Google के क्रॉलर, तीन कैटगरी में आते हैं:

टाइप ब्यौरा रिवर्स डीएनएस मास्क आईपी रेंज
Googlebot यह Google के खोज प्रॉडक्ट का मुख्य क्रॉलर है. robots.txt के नियमों का हमेशा पालन करता है. crawl-***-***-***-***.googlebot.com या geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
खास मामलों वाले क्रॉलर ऐसे क्रॉलर जो खास फ़ंक्शन (जैसे, AdsBot) का इस्तेमाल करते हैं, जो robots.txt के नियमों का पालन कर भी सकते हैं या नहीं भी कर सकते. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
उपयोगकर्ता की ओर से ट्रिगर किए गए फ़ेचर ऐसे टूल और प्रॉडक्ट फ़ंक्शन जहां असली उपयोगकर्ता, फ़ेच करने की सुविधा को ट्रिगर करता है. उदाहरण के लिए, साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट, किसी उपयोगकर्ता के अनुरोध पर कार्रवाई करता है. किसी उपयोगकर्ता ने फ़ेच करने का अनुरोध किया था. इसलिए, ये फ़ेच robots.txt नियमों को अनदेखा करते हैं.
जिन फ़ेचर को Google कंट्रोल करता है वे user-triggered-fetchers-google.json ऑब्जेक्ट में मौजूद आईपी का इस्तेमाल करते हैं. इनका समाधान google.com होस्टनेम में किया जाता है. user-triggered-fetchers.json ऑब्जेक्ट में मौजूद आईपी का समाधान gae.googleusercontent.com होस्टनेम में किया जाता है. उदाहरण के लिए, इन आईपी का इस्तेमाल तब किया जाता है, जब कोई साइट Google Cloud (GCP) पर चल रही हो और इस साइट में उपयोगकर्ताओं के अनुरोध पर एक्सटर्नल आरएसएस फ़ीड को फ़ेच करने की सुविधा मिलती हो.
***-***-***-***.gae.googleusercontent.com या google-proxy-***-***-***-***.google.com user-triggered-fetchers.json और user-triggered-fetchers-google.json

Google के क्रॉलर की पुष्टि करने के दो तरीके हैं:

  • मैन्युअल तरीका: एक बार में होने वाले लुकअप के लिए, कमांड लाइन टूल का इस्तेमाल करें. ज़्यादातर मामलों में यह तरीका काम करता है.
  • ऑटोमैटिक तरीका: बड़े पैमाने पर होने वाले लुकअप के मामलों में ऑटोमैटिक तरीके का इस्तेमाल करके, क्रॉलर के आईपी पते का मिलान Googlebot के पब्लिश किए गए आईपी पतों से करें.

कमांड लाइन टूल इस्तेमाल करना

  1. host निर्देश का इस्तेमाल करके, अपने लॉग में दिए गए उस आईपी पते पर रिवर्स डीएनएस लुकअप चलाएं जो आपके सर्वर को ऐक्सेस करता है.
  2. पुष्टि करें कि डोमेन नेम googlebot.com, google.com या googleusercontent.com है.
  3. फिर से मिले डोमेन नेम में host निर्देश का इस्तेमाल करके, पहले चरण में मिले डोमेन के नाम पर फ़ॉरवर्ड डीएनएस लुकअप चलाएं.
  4. पुष्टि करें कि यह आपके लॉग में शामिल, ऐक्सेस करने वाले मूल आईपी पते के समान हो.

पहला उदाहरण:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

दूसरा उदाहरण:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

तीसरा उदाहरण:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

ऑटोमैटिक तरीके का इस्तेमाल करना

इसके अलावा, Googlebot की पहचान आईपी पते से की जा सकती है. इसके लिए, क्रॉलर के आईपी पते का मिलान, Google क्रॉलर और फ़ेचर की आईपी रेंज की सूचियों से करें:

अगर आपकी साइट को Google के अन्य आईपी पतों से ऐक्सेस किया जा रहा है (उदाहरण के लिए, ऐप्लिकेशन स्क्रिप्ट से), तो ऐसे पतों की पहचान करने के लिए, ऐक्सेस करने वाले आईपी पते का मिलान Google के आईपी पतों की सूची से करें. ध्यान दें कि JSON फ़ाइलों में आईपी पते, सीआईडीआर फ़ॉर्मैट में दिखाए जाते हैं.