Googlebot और Google के अन्य क्रॉलर की पुष्टि करना
इस बात की पुष्टि की जा सकती है कि आपके सर्वर को ऐक्सेस करने वाला वेब क्रॉलर वाकई Googlebot जैसा कोई Google क्रॉलर है या नहीं. अगर आपको लगता है कि स्पैम करने वाले या समस्या पैदा करने वाले अन्य लोग, Googlebot होने का दावा करके आपकी साइट को ऐक्सेस कर रहे हैं, तो इस विकल्प के इस्तेमाल से मदद मिल सकती है.
Google के क्रॉलर, तीन कैटगरी में आते हैं:
टाइप | ब्यौरा | रिवर्स डीएनएस मास्क | आईपी रेंज |
---|---|---|---|
Googlebot | यह Google के खोज प्रॉडक्ट का मुख्य क्रॉलर है. robots.txt के नियमों का हमेशा पालन करता है. |
crawl-***-***-***-***.googlebot.com या
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
खास मामलों वाले क्रॉलर | ऐसे क्रॉलर जो खास फ़ंक्शन (जैसे, AdsBot) का इस्तेमाल करते हैं, जो robots.txt के नियमों का पालन कर भी सकते हैं या नहीं भी कर सकते. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
उपयोगकर्ता की ओर से ट्रिगर किए गए फ़ेचर |
ऐसे टूल और प्रॉडक्ट फ़ंक्शन जहां असली उपयोगकर्ता, फ़ेच करने की सुविधा को ट्रिगर करता है. उदाहरण के लिए,
साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट,
किसी उपयोगकर्ता के अनुरोध पर कार्रवाई करता है. किसी उपयोगकर्ता ने फ़ेच करने का अनुरोध किया था. इसलिए, ये फ़ेच
robots.txt नियमों को अनदेखा करते हैं. जिन फ़ेचर को Google कंट्रोल करता है वे user-triggered-fetchers-google.json ऑब्जेक्ट में मौजूद आईपी का इस्तेमाल करते हैं. इनका समाधान google.com होस्टनेम में किया जाता है. user-triggered-fetchers.json ऑब्जेक्ट में मौजूद आईपी का समाधान gae.googleusercontent.com होस्टनेम में किया जाता है. उदाहरण के लिए, इन आईपी का इस्तेमाल तब किया जाता है, जब कोई साइट Google Cloud (GCP) पर चल रही हो और इस साइट में उपयोगकर्ताओं के अनुरोध पर एक्सटर्नल आरएसएस फ़ीड को फ़ेच करने की सुविधा मिलती हो.
|
***-***-***-***.gae.googleusercontent.com या
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json और user-triggered-fetchers-google.json |
Google के क्रॉलर की पुष्टि करने के दो तरीके हैं:
- मैन्युअल तरीका: एक बार में होने वाले लुकअप के लिए, कमांड लाइन टूल का इस्तेमाल करें. ज़्यादातर मामलों में यह तरीका काम करता है.
- ऑटोमैटिक तरीका: बड़े पैमाने पर होने वाले लुकअप के मामलों में ऑटोमैटिक तरीके का इस्तेमाल करके, क्रॉलर के आईपी पते का मिलान Googlebot के पब्लिश किए गए आईपी पतों से करें.
कमांड लाइन टूल इस्तेमाल करना
-
host
निर्देश का इस्तेमाल करके, अपने लॉग में दिए गए उस आईपी पते पर रिवर्स डीएनएस लुकअप चलाएं जो आपके सर्वर को ऐक्सेस करता है. -
पुष्टि करें कि डोमेन नेम
googlebot.com
,google.com
याgoogleusercontent.com
है. -
फिर से मिले डोमेन नेम में
host
निर्देश का इस्तेमाल करके, पहले चरण में मिले डोमेन के नाम पर फ़ॉरवर्ड डीएनएस लुकअप चलाएं. - पुष्टि करें कि यह आपके लॉग में शामिल, ऐक्सेस करने वाले मूल आईपी पते के समान हो.
पहला उदाहरण:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
दूसरा उदाहरण:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
तीसरा उदाहरण:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
ऑटोमैटिक तरीके का इस्तेमाल करना
इसके अलावा, Googlebot की पहचान आईपी पते से की जा सकती है. इसके लिए, क्रॉलर के आईपी पते का मिलान, Google क्रॉलर और फ़ेचर की आईपी रेंज की सूचियों से करें:
अगर आपकी साइट को Google के अन्य आईपी पतों से ऐक्सेस किया जा रहा है (उदाहरण के लिए, ऐप्लिकेशन स्क्रिप्ट से), तो ऐसे पतों की पहचान करने के लिए, ऐक्सेस करने वाले आईपी पते का मिलान Google के आईपी पतों की सूची से करें. ध्यान दें कि JSON फ़ाइलों में आईपी पते, सीआईडीआर फ़ॉर्मैट में दिखाए जाते हैं.