Google के क्रॉलर और फ़ेचर (उपयोगकर्ता एजेंट) की खास जानकारी
Google, अपने प्रॉडक्ट के लिए कार्रवाइयां करने के लिए क्रॉलर और फ़ेचर का इस्तेमाल करता है. ये कार्रवाइयां अपने-आप या उपयोगकर्ता के अनुरोध पर ट्रिगर होती हैं.
एक वेब पेज से दूसरे वेब पेज के लिंक पर जाकर, अपने-आप वेबसाइटें खोजने और स्कैन करने में इस्तेमाल होने वाले प्रोग्राम को "क्रॉलर" कहते हैं. कभी-कभी इसे "रोबोट" या "स्पाइडर" भी कहा जाता है. Google Search के लिए इस्तेमाल किए जाने वाले, Google के मुख्य क्रॉलर को Googlebot कहा जाता है.
फ़ेचर ऐसे टूल हैं जो ब्राउज़र की तरह ही, उपयोगकर्ता के प्रॉम्प्ट करने पर एक यूआरएल का अनुरोध करते हैं.
यहां दी गई टेबल में, अलग-अलग प्रॉडक्ट और सेवाओं में इस्तेमाल किए जाने वाले Google के क्रॉलर और फ़ेचर की जानकारी दी गई है. इनमें उन्हें अपने रेफ़रर लॉग में देखने और robots.txt में कंट्रोल करने का तरीका भी बताया गया है. ये सूचियां पूरी नहीं हैं. इनमें सिर्फ़ उन क्रॉलर और फ़ेचर के बारे में जानकारी है जो आम तौर पर अनुरोध करते हैं और लॉग फ़ाइलों में दिख सकते हैं.
-
उपयोगकर्ता एजेंट टोकन का इस्तेमाल robots.txt में मौजूद
User-agent:
लाइन में किया जाता है, ताकि आपकी साइट के लिए क्रॉल करने के नियम बनाते समय, सही तरह के क्रॉलर से मिलान किया जा सके. जैसा कि टेबल में दिखाया गया है, कुछ क्रॉलर के पास एक से ज़्यादा टोकन होते हैं. किसी नियम को लागू करने के लिए, आपको एक ही क्रॉलर टोकन का मिलान कराना होगा. हालांकि, यह सूची पूरी नहीं है, लेकिन इसमें ऐसे ज़्यादातर क्रॉलर मौजूद हैं जो आपकी वेबसाइट पर दिख सकते हैं. - उपयोगकर्ता एजेंट की पूरी स्ट्रिंग में, क्रॉलर की पूरी जानकारी होती है. यह जानकारी, एचटीटीपी अनुरोध और आपके वेब लॉग में दिखती है.
सामान्य क्रॉलर
Google के सामान्य क्रॉलर का इस्तेमाल जानकारी खोजने के लिए किया जाता है. इससे Google के Search इंडेक्स बनाने, किसी खास प्रॉडक्ट को क्रॉल करने, और विश्लेषण करने में मदद मिलती है. वे हमेशा robots.txt नियमों का पालन करते हैं और आम तौर पर googlebot.json ऑब्जेक्ट में पब्लिश की गई आईपी रेंज से क्रॉल करते हैं.
सामान्य क्रॉलर | |||||
---|---|---|---|---|---|
Googlebot स्मार्टफ़ोन |
|
||||
Googlebot डेस्कटॉप |
|
||||
Googlebot इमेज |
इसका इस्तेमाल, इमेज पर निर्भर करने वाले प्रॉडक्ट और Google इमेज के लिए, इमेज के यूआरएल क्रॉल करने में किया जाता है.
|
||||
Googlebot News |
Googlebot News, Googlebot का इस्तेमाल समाचार रिपोर्ट को क्रॉल करने के लिए करता है. हालांकि, यह अपने पुराने उपयोगकर्ता एजेंट टोकन
|
||||
Googlebot वीडियो |
इसका इस्तेमाल, वीडियो पर निर्भर करने वाले प्रॉडक्ट और Google वीडियो के लिए, वीडियो के यूआरएल क्रॉल करने में किया जाता है.
|
||||
Google StoreBot |
Google StoreBot कुछ खास तरह के पेजों को क्रॉल करता है. इनमें प्रॉडक्ट के बारे में जानकारी देने वाले पेज, कार्ट पेज, और चेकआउट पेज के साथ-साथ, अन्य पेज भी शामिल हैं.
|
||||
Google-InspectionTool |
Google-InspectionTool वह क्रॉलर है जिसका इस्तेमाल Search टेस्टिंग टूल में किया जाता है. जैसे, ज़्यादा बेहतर नतीजे (रिच रिज़ल्ट) की जांच और Search Console में यूआरएल की जांच. उपयोगकर्ता एजेंट और उपयोगकर्ता एजेंट टोकन के अलावा, यह Googlebot की नकल करता है.
|
||||
GoogleOther |
GoogleOther, एक सामान्य क्रॉलर है. अलग-अलग प्रॉडक्ट की टीमें, साइटों से सार्वजनिक तौर पर ऐक्सेस किया जा सकने वाला कॉन्टेंट फ़ेच करने के लिए इसका इस्तेमाल कर सकती हैं. उदाहरण के लिए, इंटरनल रिसर्च और डेवलपमेंट के लिए, इसका इस्तेमाल किसी एक क्रॉल में किया जा सकता है.
|
||||
GoogleOther-Image |
GoogleOther-Image, GoogleOther का वर्शन है, जिसे सार्वजनिक रूप से ऐक्सेस किए जा सकने वाले इमेज के यूआरएल फ़ेच करने के लिए ऑप्टिमाइज़ किया गया है.
|
||||
GoogleOther-Video |
GoogleOther-Video, GoogleOther का वर्शन है, जिसे सार्वजनिक रूप से ऐक्सेस किए जा सकने वाले वीडियो के यूआरएल फ़ेच करने के लिए ऑप्टिमाइज़ किया गया है.
|
||||
Google-CloudVertexBot |
Vertex AI एजेंट बनाते समय Google-CloudVertexBot, साइट के मालिकों के अनुरोध पर साइटों को क्रॉल करता है.
|
||||
Google-एक्सटेंडेड |
|
खास मामलों वाले क्रॉलर
जब क्रॉल की गई साइट और प्रॉडक्ट के बीच, क्रॉल करने की प्रोसेस के लिए कोई कानूनी समझौता होता है, तब खास मामलों वाले क्रॉलर, खास प्रॉडक्ट के लिए इस्तेमाल किए जाते हैं. उदाहरण के लिए, विज्ञापन पब्लिशर की अनुमति से AdsBot
, robots.txt के ग्लोबल उपयोगकर्ता एजेंट (*
) को नज़रअंदाज़ कर देता है. ऐसा हो सकता है कि कुछ खास मामलों वाले क्रॉलर, robots.txt नियमों का पालन न करते हों. ऐसे में, वे सामान्य क्रॉलर से अलग आईपी रेंज पर काम करते हैं. आईपी रेंज, special-crawlers.json ऑब्जेक्ट में पब्लिश की जाती हैं.
खास मामलों वाले क्रॉलर | |||||
---|---|---|---|---|---|
APIs-Google |
Google API, पुश नोटिफ़िकेशन मैसेज भेजने के लिए इस्तेमाल करता है. robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
AdsBot मोबाइल वेब |
मोबाइल पर मौजूद वेब पेज के विज्ञापन की क्वालिटी की जांच करता है.
robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
AdsBot |
डेस्कटॉप पर मौजूद वेब पेज के विज्ञापन की क्वालिटी की जांच करता है.
robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
AdSense |
AdSense क्रॉलर, आपकी साइट पर जाकर उसके कॉन्टेंट को समझता है, ताकि उसके मुताबिक विज्ञापन दिखाए जा सकें. robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
Mobile AdSense |
Mobile AdSense क्रॉलर आपकी साइट पर जाकर उसके कॉन्टेंट को समझता है, ताकि उसके मुताबिक विज्ञापन दिखाए जा सकें. robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
Google-सुरक्षा |
Google-सुरक्षा उपयोगकर्ता एजेंट, गलत क्रॉल के मामलों को मैनेज करता है. जैसे, Google प्रॉपर्टीज़ पर सार्वजनिक तौर पर पोस्ट किए गए लिंक के लिए मैलवेयर खोजना. यह उपयोगकर्ता एजेंट, robots.txt नियमों को अनदेखा करता है.
|
उपयोगकर्ता से ट्रिगर होने वाले फ़ेच फ़ंक्शन
उपयोगकर्ता की ओर से ट्रिगर होने वाले फ़ेच फ़ंक्शन, उपयोगकर्ताओं के ज़रिए किसी खास प्रॉडक्ट से जुड़े फ़ंक्शन को परफ़ॉर्म करने के लिए ट्रिगर किए जाते हैं. उदाहरण के लिए, साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट, उपयोगकर्ता के अनुरोध पर कार्रवाई करता है या Google Cloud (GCP) पर होस्ट की गई ऐसी साइट जिसमें उपयोगकर्ताओं को एक्सटर्नल आरएसएस फ़ीड फ़ेच करने की सुविधा मिलती है. किसी उपयोगकर्ता ने फ़ेच करने का अनुरोध किया था. इसलिए, ये फ़ेचर आम तौर पर robots.txt नियमों को अनदेखा करते हैं. उपयोगकर्ता की ओर से ट्रिगर किए गए फ़ेच फ़ंक्शन में इस्तेमाल हुई आईपी रेंज, user-triggered-fetchers.json और user-triggered-fetchers-google.json ऑब्जेक्ट में पब्लिश की जाती हैं.
उपयोगकर्ता से ट्रिगर होने वाले फ़ेच फ़ंक्शन | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher का इस्तेमाल Google Podcasts, Google News, और PubSubHubbub के लिए, आरएसएस या ऐटम फ़ीड को क्रॉल करने के लिए किया जाता है.
|
||||
Google Publisher Center |
यह Google Publisher Center के ज़रिए, पब्लिशर के दिए गए फ़ीड को फ़ेच करता है और उन्हें प्रोसेस करता है. इन्हें Google News के लैंडिंग पेज पर इस्तेमाल किया जाता है.
|
||||
Google Read Aloud |
उपयोगकर्ता के अनुरोध पर, Google Read Aloud, लिखाई को बोली में बदलने की सुविधा (टीटीएस) का इस्तेमाल करके, वेब पेजों को फ़ेच करता है और उन्हें पढ़ता है.
|
||||
साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट |
साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट, उपयोगकर्ता के अनुरोध पर Search Console में पुष्टि के लिए टोकन फ़ेच करता है.
|
उपयोगकर्ता एजेंट में, Chrome/W.X.Y.Z के बारे में जानकारी
टेबल में दी गई उपयोगकर्ता एजेंट स्ट्रिंग में आपको जहां भी Chrome/W.X.Y.Z स्ट्रिंग दिखती है, वहां W.X.Y.Z असल में प्लेसहोल्डर होता है. यह प्लेसहोल्डर बताता है कि वह उपयोगकर्ता एजेंट, Chrome ब्राउज़र के किस वर्शन का इस्तेमाल कर रहा है: उदाहरण के लिए, 41.0.2272.96
. यह वर्शन नंबर, समय के साथ बढ़ता है, ताकि Chromium के रिलीज़ हुए उस नए वर्शन से मैच कर सके जिसका इस्तेमाल Googlebot करता है.
अगर आपको इस पैटर्न वाले उपयोगकर्ता एजेंट के लिए, अपना लॉग खोजना है या सर्वर को फ़िल्टर करना है, तो आप उस वर्शन के लिए सटीक वर्शन नंबर देने की जगह वाइल्डकार्ड का इस्तेमाल करें.
robots.txt में मौजूद उपयोगकर्ता एजेंट
robots.txt फ़ाइल में कई उपयोगकर्ता एजेंट की पहचान की जाती है, लेकिन Google खास तौर पर दिखाए गए एजेंट को फ़ॉलो करता है. Google से अपने सभी पेजों को क्रॉल कराने के लिए, आपको किसी robots.txt फ़ाइल की ज़रूरत नहीं है. अगर आपको Google के सभी क्रॉलर को अपना कुछ कॉन्टेंट क्रॉल करने की अनुमति देना है या उन्हें ऐसा करने से रोकना है, तो Googlebot को उपयोगकर्ता एजेंट के तौर पर दिखाकर ऐसा किया जा सकता है. उदाहरण के लिए, अगर आपको अपने सभी पेजों को Google Search में दिखाने के साथ-साथ, AdSense विज्ञापनों को भी अपने पेजों पर दिखाना है, तो आपको किसी robots.txt फ़ाइल की ज़रूरत नहीं है. इसी तरह, अगर आपको कुछ पेजों को क्रॉल कराने से रोकना हो, तो Googlebot
उपयोगकर्ता एजेंट को ब्लॉक करने पर, Google के अन्य सभी उपयोगकर्ता एजेंट भी ब्लॉक हो जाएंगे.
अगर आपको ज़्यादा कंट्रोल की ज़रूरत है, तो सुविधा के हिसाब से खास तरीके अपनाए जा सकते हैं. उदाहरण के लिए, हो सकता है कि आप अपने सभी पेजों को Google Search में दिखाना चाहें, लेकिन शायद यह न चाहें कि आपकी निजी डायरेक्ट्री में मौजूद इमेज को क्रॉल किया जाए. ऐसे में, Googlebot-Image
उपयोगकर्ता एजेंट को अपनी निजी डायरेक्ट्री में मौजूद फ़ाइलों को क्रॉल करने से रोकने के लिए, (Googlebot को, सभी फ़ाइलों को क्रॉल करने की अनुमति देते हुए) robots.txt का इस्तेमाल इस तरह करें:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
अब एक और उदाहरण लेते हैं. मान लीजिए कि आपको अपने सभी पेजों पर विज्ञापन दिखाना है, लेकिन आपको उन पेजों को Google Search में नहीं दिखाना है. यहां, आप Googlebot पर रोक लगाएंगे, लेकिन Mediapartners-Google
उपयोगकर्ता एजेंट को अनुमति देंगे, कुछ इस तरह से:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
क्रॉल करने की रफ़्तार को कंट्रोल करना
Google का हर क्रॉलर, साइटों को किसी खास मकसद से और अलग-अलग दरों पर ऐक्सेस करता है. Google, एल्गोरिदम का इस्तेमाल करके हर साइट के लिए क्रॉल की सही दर तय करता है. अगर Google क्रॉलर, आपकी साइट को बहुत ज़्यादा बार क्रॉल कर रहा है, तो क्रॉल दर को कम किया जा सकता है.
अब काम नहीं करने वाले Google क्रॉलर
इन Google क्रॉलर का अब इस्तेमाल नहीं किया जा रहा है और इन्हें सिर्फ़ पुराने रेफ़रंस के लिए यहां नोट किया गया है.
अब काम नहीं करने वाले Google क्रॉलर | |||||
---|---|---|---|---|---|
Duplex on the web |
इसका इस्तेमाल Duplex on the web सेवा के साथ किया जाता है.
|
||||
Web Light |
उपयोगकर्ता ने खोज के नतीजों में जब भी आपके पेज पर क्लिक किया, तो उस दौरान
|
||||
AdsBot मोबाइल वेब |
iPhone पर मौजूद वेब पेज के विज्ञापन की क्वालिटी की जांच करता है.
robots.txt में, ग्लोबल उपयोगकर्ता एजेंट (
|
||||
मोबाइल ऐप्लिकेशन Android |
Android ऐप्लिकेशन पर मौजूद पेज के विज्ञापन की क्वालिटी की जांच करता है.
यह
|
||||
Google फ़ेविकॉन |
|