Google Search के काम करने के तरीके के बारे में पूरी जानकारी देने वाली गाइड
Google Search पूरी तरह से अपने-आप काम करने वाला सर्च इंजन है, जो वेब क्रॉलर सॉफ़्टवेयर का इस्तेमाल करता है. यह सॉफ़्टवेयर, नियमित तौर पर पेज खोजता रहता है, ताकि उन्हें हमारे इंडेक्स में जोड़ सके. असल में, खोज के नतीजों में दिखने वाले ज़्यादातर पेज मैन्युअल तौर पर सबमिट नहीं किए जाते हैं. हमारा वेब क्रॉलर जब वेब पर पेजों को एक्सप्लोर करता है, तब वह पेजों को ढूंढकर अपने-आप हमारे इंडेक्स में जोड़ देता है. इस दस्तावेज़ में बताया गया है कि आपकी वेबसाइट के लिए Search कैसे काम करता है. इस बुनियादी जानकारी की मदद से, क्रॉलिंग से जुड़ी समस्याओं को ठीक किया जा सकता है और अपने पेजों को इंडेक्स कराया जा सकता है. साथ ही, यह जाना जा सकता है कि Google Search में अपनी साइट के दिखने के तरीके को ऑप्टिमाइज़ कैसे किया जाए.
शुरू करने से पहले, ध्यान रखने लायक कुछ बातें
Search के काम करने का तरीका जानने से पहले, यह जानना ज़रूरी है कि Google, किसी साइट को ज़्यादा बार क्रॉल करने या उसकी रैंकिंग बढ़ाने के लिए पैसे नहीं लेता है. अगर कोई व्यक्ति आपको बताता है कि Google इसके लिए पैसे लेता है, तो वह गलत है.
Google इस बात की गारंटी नहीं देता कि वह आपके पेज को क्रॉल करेगा, उसे इंडेक्स करेगा या उसे नतीजों में दिखाएगा. भले ही, आपका पेज Google Search पर कॉन्टेंट दिखाने के बुनियादी दिशा-निर्देशों का पालन करता हो.
Google Search के तीन चरणों के बारे में जानकारी
Google Search तीन चरणों में काम करता है. हालांकि, हर पेज सभी चरणों तक नहीं पहुंच पाता. ये तीन चरण हैं:
- क्रॉल करना: क्रॉलर की मदद से Google, इंटरनेट पर मिले पेजों के टेक्स्ट, इमेज, और वीडियो को डाउनलोड कर लेता है. क्रॉलर अपने-आप काम करने वाला एक प्रोग्राम होता है.
- इंडेक्स करना: पेज के टेक्स्ट, इमेज, और वीडियो का विश्लेषण करने के बाद, Google इस जानकारी को Google इंडेक्स में सेव करता है. Google इंडेक्स एक बहुत बड़ा डेटाबेस है.
- खोज के नतीजे दिखाना: जब कोई उपयोगकर्ता Google पर कुछ खोजता है, तब Google, उपयोगकर्ता की क्वेरी के हिसाब से नतीजे दिखाता है.
क्रॉल करना
पहला चरण में यह पता लगाया जाता है कि वेब पर कौन-कौनसे पेज मौजूद हैं. सभी वेब पेजों के लिए कोई एक रजिस्ट्री नहीं है, इसलिए Google लगातार नए और अपडेट किए गए पेजों को ढूंढता है. साथ ही, वह उन्हें ऐसे पेजों की सूची में जोड़ता रहता है जिनकी उसे पहले से जानकारी है. इस प्रोसेस को "यूआरएल की खोज" कहा जाता है. Google के पास कुछ पेजों के बारे में पहले से जानकारी होती है, क्योंकि वे पहले ही क्रॉल किए जा चुके होते हैं. जब क्रॉल किए जा चुके किसी पेज से Google को नए पेज का लिंक मिलता है, तब उसे दूसरे पेजों का पता चलता है: उदाहरण के लिए, कैटगरी वाले पेज जैसा कोई हब पेज, जिसमें किसी नए ब्लॉग पोस्ट का लिंक मौजूद हो. कुछ पेज तब मिलते हैं, जब पेजों को क्रॉल करवाने के लिए, उनकी सूची (साइटमैप) Google को सबमिट की जाती है.
पेज का यूआरएल खोजने के बाद Google, पेज पर मौजूद कॉन्टेंट का पता लगाने के लिए, उस पेज पर जा सकता है या उसे क्रॉल कर सकता है. हम वेब पर अरबों पेजों को क्रॉल करने के लिए बहुत सारे कंप्यूटरों का इस्तेमाल करते हैं. पेज फ़ेच करने वाले इस प्रोग्राम को Googlebot कहते हैं. इसे रोबोट, बॉट या स्पाइडर के नाम से भी जाना जाता है. Googlebot, एल्गोरिदम प्रोसेस का इस्तेमाल करके यह तय करता है कि किस साइट को क्रॉल करना है, उसे कितनी बार क्रॉल करना है, और हर साइट से कितने पेजों को फ़ेच करना है. Google के क्रॉलर की प्रोग्रामिंग करते हुए यह भी ध्यान रखा गया है कि वे साइट को बहुत तेज़ी से क्रॉल न करें, ताकि साइट ओवरलोड न हो. यह तरीका साइट के रिस्पॉन्स (जैसे कि HTTP 500 गड़बड़ी, जिसका मतलब "धीमा होना" है).
हालांकि, Googlebot खोजे गए सभी पेजों को क्रॉल नहीं करता है. इसकी वजह यह है कि साइट के मालिक, कुछ पेजों को क्रॉल करने की अनुमति नहीं देते हैं. इसके अलावा, कुछ पेज ऐसे भी हो सकते हैं जिन्हें ऐक्सेस करने के लिए साइट में लॉग इन करना ज़रूरी हो.
क्रॉल करते समय Google, पेज को रेंडर करता है और Chrome के हाल ही के वर्शन का इस्तेमाल करके, पेज पर मिली JavaScript को चलाता है. यह ठीक उसी तरह होता है जिस तरह आपका ब्राउज़र आपके विज़िट किए गए पेजों को रेंडर करता है. रेंडरिंग अहम है, क्योंकि पेज पर कॉन्टेंट लाने के लिए, वेबसाइटें अक्सर JavaScript पर भरोसा करती हैं. इसलिए, हो सकता है कि रेंडरिंग के बिना Google को वह कॉन्टेंट न दिखे.
क्रॉलिंग इस बात पर निर्भर करती है कि Google के क्रॉलर, साइट को ऐक्सेस कर पा रहे हैं या नहीं. साइट ऐक्सेस करने से जुड़ी, Googlebot की कुछ सामान्य समस्याएं ये हैं:
- साइट को हैंडल करने वाले सर्वर में समस्याएं
- नेटवर्क की समस्याएं
- Googlebot को पेज ऐक्सेस करने से रोकने वाले robots.txt नियमों से जुड़ी समस्याएं
इंडेक्स करना
पेज को क्रॉल करने के बाद, Google यह समझने की कोशिश करता है कि पेज किस बारे में है. इस चरण को
इंडेक्स करना कहते हैं. इसमें, टेक्स्ट कॉन्टेंट के साथ-साथ
अहम कॉन्टेंट टैग और
एट्रिब्यूट को प्रोसेस करना और
उनका विश्लेषण करना शामिल है, जैसे
कि<title>
एलिमेंट और
ऑल्ट एट्रिब्यूट,
इमेज, वीडियो वगैरह.
इंडेक्स करते समय, Google यह पता लगाता है कि कोई पेज, इंटरनेट पर मौजूद किसी दूसरे पेज का डुप्लीकेट या कैननिकल है या नहीं. कैननिकल वह पेज होता है जिसे खोज के नतीजों में दिखाया जा सकता है. कैननिकल चुनने के लिए, हम सबसे पहले इंटरनेट पर मिले उन पेजों का एक ग्रुप बनाते हैं जिनमें मिलता-जुलता कॉन्टेंट हो. इसे क्लस्टरिंग कहा जाता है. इसके बाद, हम उस पेज को चुनते हैं जो सबसे अच्छी तरह से उस ग्रुप का प्रतिनिधित्व करता हो. ग्रुप के बाकी पेज ऐसे वैकल्पिक वर्शन होते हैं जिन्हें अलग-अलग कॉन्टेक्स्ट में दिखाया जा सकता है. जैसे, जब कोई उपयोगकर्ता मोबाइल डिवाइस से कुछ खोज रहा हो या उस क्लस्टर के किसी खास पेज को ढूंढा जा रहा हो.
Google, कैननिकल पेज और उसके कॉन्टेंट से जुड़े सिग्नल भी इकट्ठा करता है. इनका इस्तेमाल अगले चरण में किया जा सकता है. अगले चरण में पेज को खोज के नतीजों में दिखाया जाता है. कुछ सिग्नल में पेज की भाषा, कॉन्टेंट किस देश में बनाया गया है, और पेज की उपयोगिता जैसी जानकारी शामिल होती है.
कैननिकल पेज और इसके क्लस्टर के बारे में इकट्ठा की गई जानकारी को Google इंडेक्स में सेव किया जा सकता है. Google इंडेक्स एक बहुत बड़ा डेटाबेस है, जिसे हजारों कंप्यूटर पर होस्ट किया गया है. Google, इंडेक्स करने की गारंटी नहीं देता. ऐसा ज़रूरी नहीं है कि उन सभी पेजों को इंडेक्स किया जाए जिन्हें Google ने प्रोसेस किया हो.
इंडेक्स करना, पेज के कॉन्टेंट और उसके मेटाडेटा पर भी निर्भर करता है. इंडेक्स करने से जुड़ी कुछ सामान्य समस्याएं ये हैं:
- पेज पर मौजूद कॉन्टेंट की क्वालिटी खराब हो
-
Robots
meta
के नियमों के तहत, इंडेक्स करने की अनुमति न हो - वेबसाइट को इस तरह से डिज़ाइन किया गया हो कि उसे इंडेक्स करना मुश्किल हो
खोज के नतीजे दिखाना
जब कोई उपयोगकर्ता कोई क्वेरी डालता है, तो हमारी मशीनें क्वेरी से मिलते-जुलते पेजों को इंडेक्स में खोजती हैं. इसके बाद, वे ऐसे नतीजे दिखाती हैं जिन्हें हम सबसे अच्छी क्वालिटी वाला और उपयोगकर्ता के लिए सबसे ज़्यादा काम का मानते हैं. कॉन्टेंट काम का है या नहीं, यह सैकड़ों बातों पर निर्भर करता है. इनमें उपयोगकर्ता की जगह, भाषा, और डिवाइस (डेस्कटॉप या फ़ोन) जैसी जानकारी शामिल होती है. उदाहरण के लिए, अगर पेरिस में कोई उपयोगकर्ता इंटरनेट पर "साइकल की मरम्मत करने वाली दुकान" के बारे में खोजता है और हॉन्ग कॉन्ग में भी कोई उपयोगकर्ता इंटरनेट पर यही खोज करता है, तो दोनों को अलग-अलग खोज नतीजे दिखेंगे.
उपयोगकर्ता की क्वेरी के हिसाब से, खोज नतीजों के पेज पर दिखने वाली खोज के नतीजे पाने की सुविधा में भी बदलाव होता है. उदाहरण के लिए, हो सकता है कि "साइकल की मरम्मत करने वाली दुकान" के बारे में खोजने पर, आपको स्थानीय नतीजे दिखें और इमेज से जुड़े नतीजे न दिखें. हालांकि, "आधुनिक साइकल" खोजने पर, खोज के नतीजों में इमेज से जुड़े नतीजे दिखेंगे, लेकिन स्थानीय नतीजे नहीं दिखेंगे. हमारी विज़ुअल एलिमेंट गैलरी में, Google Web Search के सबसे आम यूज़र इंटरफ़ेस (यूआई) एलिमेंट देखे जा सकते हैं.
मुमकिन है कि Search Console आपको यह बताए कि पेज इंडेक्स हो गया है, लेकिन आपको वह खोज के नतीजों में न दिखता हो. ऐसा इन वजहों से हो सकता है:
- पेज का कॉन्टेंट, उपयोगकर्ताओं की क्वेरी के हिसाब से काम का न हो
- कॉन्टेंट की क्वालिटी खराब हो
-
Robots
meta
के नियमों की वजह से, पेज को खोज के नतीजों में दिखने से रोका जा रहा हो
इस गाइड में Search के काम करने का तरीका बताया गया है. हालांकि, हम अपने एल्गोरिदम को बेहतर बनाने के लिए लगातार काम कर रहे हैं. Google Search Central के ब्लॉग को फ़ॉलो करके, इन बदलावों के बारे में जानकारी पाई जा सकती है.