robots.txt फ़ाइल के बारे में जानकारी
robots.txt फ़ाइल की मदद से, सर्च इंजन के क्रॉलर को यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन यूआरएल को ऐक्सेस कर सकता है.
इस फ़ाइल का इस्तेमाल खास तौर पर इसलिए किया जाता है, ताकि आपकी साइट पर अनुरोधों का लोड ज़्यादा न हो. हालांकि,
इसका इस्तेमाल Google को वेब पेज क्रॉल करने से रोकने के लिए नहीं किया जाता. Google को किसी वेब पेज को क्रॉल करने से रोकने के लिए,
noindex
का इस्तेमाल करके इंडेक्स करने पर रोक लगाएं.
इसके अलावा, पेज को पासवर्ड की मदद से सुरक्षित भी किया जा सकता है.
robots.txt फ़ाइल क्यों इस्तेमाल की जाती है?
robots.txt फ़ाइल का इस्तेमाल खास तौर पर, आपकी साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए किया जाता है. आम तौर पर, फ़ाइल के टाइप के आधार पर, Google से फ़ाइल काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:
अलग-अलग फ़ाइल टाइप पर robots.txt फ़ाइल का असर | |
---|---|
वेब पेज |
अगर आपको लगता है कि Google के क्रॉलर के अनुरोधों से आपके सर्वर पर लोड बढ़ जाएगा, तो क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, वेब पेजों (जैसे, एचटीएमएल, PDF या बिना किसी मीडिया वाले पेज के ऐसे अन्य फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) पर robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, साइट के एक जैसे या गैर-ज़रूरी पेजों को क्रॉल करने से रोकने के लिए भी इसका इस्तेमाल किया जा सकता है. अगर आपके वेब पेज पर robots.txt फ़ाइल की मदद से रोक लगी है, तब भी इसका यूआरएल खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजे में पेज की कोई जानकारी नहीं दिखेगी. ब्लॉक किए गए पेज में एम्बेड की गई इमेज फ़ाइलें, वीडियो फ़ाइलें, PDF के साथ-साथ वे फ़ाइलें भी क्रॉल के दौरान नहीं दिखेंगी जो एचटीएमएल नहीं हैं. ऐसा तब तक होगा, जब तक क्रॉल करने की अनुमति वाले दूसरे पेजों में इन पेजों का ज़िक्र नहीं किया जाता. अगर आपको खोज के नतीजों में अपने पेज के लिए इस तरह का कोई नतीजा दिखता है और आपको इसे ठीक करना है, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आपको अपने पेज को Search में दिखने से पूरी तरह रोकना है, तो दूसरा तरीका इस्तेमाल करें. |
मीडिया फ़ाइल |
साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. इसकी मदद से, इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों में दिखने से रोका जा सकता है. हालांकि, इसके इस्तेमाल से अन्य पेजों या लोगों को आपकी इमेज, वीडियो या ऑडियो फ़ाइल को लिंक करने से रोका नहीं जा सकता. |
रिसॉर्स फ़ाइल | अगर आपको लगता है कि गैर-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों, जैसे रिसॉर्स के बिना पेज को लोड करने से, पेज पर कोई खास असर नहीं पड़ेगा, तो इन रिसॉर्स फ़ाइलों पर रोक लगाने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को पेज का कॉन्टेंट समझने में मुश्किल होगी, तो उन पर रोक न लगाएं. इस तरह की रोक लगाने से, Google उन पेजों का ठीक से विश्लेषण नहीं कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं. |
यह समझना कि robots.txt फ़ाइल कब काम करती है और कब नहीं
robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, आपको यह पता होना चाहिए कि यूआरएल पर रोक लगाने वाला यह तरीका, कब काम करता है और कब नहीं. अपने लक्ष्यों और स्थिति के आधार पर, अपने यूआरएल को वेब पर खोज के नतीजों में दिखने से रोकने के लिए, आपको अन्य तरीकों की भी ज़रूरत पड़ सकती है.
-
ऐसा हो सकता है कि robots.txt के नियम सभी सर्च इंजन पर काम न करें.
robots.txt फ़ाइलों में दिए गए निर्देश, आपकी साइट पर क्रॉलर के काम करने के तरीके पर लागू नहीं होते. इन निर्देशों के हिसाब से काम करना है या नहीं, यह क्रॉलर पर निर्भर करता है. वैसे तो Googlebot और अन्य जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए निर्देशों के हिसाब से काम करते हैं. हालांकि, यह ज़रूरी नहीं है कि दूसरे वेब क्रॉलर भी ऐसा करें. इसलिए, अगर आपको किसी जानकारी को वेब क्रॉलर से सुरक्षित रखना है, तो वेब क्रॉलर पर रोक लगाने के अन्य तरीकों का इस्तेमाल करें. जैसे, सर्वर पर मौजूद निजी फ़ाइलों को पासवर्ड की मदद से सुरक्षित करना. -
अलग-अलग क्रॉलर, सिंटैक्स का अलग-अलग मतलब निकालते हैं.
हालांकि जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए नियमों का पालन करते हैं, लेकिन हर क्रॉलर नियमों को अलग तरह से समझ सकता है. आपके पास अलग-अलग वेब क्रॉलर के लिए, सही सिंटैक्स की जानकारी होनी चाहिए. ऐसा हो सकता है कि कुछ वेब क्रॉलर, कुछ खास तरह के निर्देश न समझ पाएं. -
अगर किसी पेज को दूसरी साइटों से लिंक किया गया है, तो robots.txt फ़ाइल में
शामिल नहीं किए जाने पर भी उस पेज को इंडेक्स किया जा सकता है.
Google, robots.txt फ़ाइल का इस्तेमाल करके ब्लॉक किए गए कॉन्टेंट को क्रॉल या इंडेक्स नहीं करता. हालांकि, अगर ब्लॉक किए गए यूआरएल को वेब पर दूसरी साइटों से लिंक किया गया है, तो उसे खोजा और इंंडेक्स किया जा सकता है. इस वजह से, यूआरएल पता और पेज के लिंक में ऐंकर टेक्स्ट जैसी सार्वजनिक तौर पर मिलने वाली अन्य जानकारी, अब भी Google के खोज नतीजों में दिख सकती है. अपने यूआरएल को Google के खोज नतीजों में दिखने से रोकने के लिए, अपने सर्वर पर मौजूद फ़ाइलों को पासवर्ड की मदद से सुरक्षित करें याnoindex
meta
टैग या रिस्पॉन्स हेडर का इस्तेमाल करें. इसके अलावा, पेज को पूरी तरह से हटाया भी जा सकता है.
robots.txt फ़ाइल बनाना या अपडेट करना
अगर आपने तय कर लिया है कि आपको robots.txt फ़ाइल की ज़रूरत है, तो robots.txt फ़ाइल बनाने का तरीका जानें. इसके अलावा, अगर आपके पास पहले से कोई robots.txt फ़ाइल है, तो उसे अपडेट करने का तरीका जानें.
क्या आपको ज़्यादा जानना है? यहां दिए गए लेख पढ़ें: