एनोटेशन: खोज के लिए साइटें तय करना

इस पेज में बताया गया है कि एक्सएमएल एनोटेशन फ़ाइल इस्तेमाल करके, अपने सर्च इंजन का कवरेज कैसे तय करें.

  1. Overview
  2. Programmable Search के एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना
  3. खोज के कवरेज को बेहतर बनाना
  4. व्याख्या करने की सीमाएं

खास जानकारी

अगर आप एक बड़ा सर्च इंजन बना रहे हैं, तो साइटों के बड़े कलेक्शन को मैनेज करना मुश्किल हो सकता है. इसके बजाय, आप कई साइटों को किसी एनोटेशन फ़ाइल में लिस्ट करके और अपलोड करके, उन्हें जोड़ और मैनेज कर सकते हैं. इसके अलावा, एनोटेशन फ़ाइलें आपको खोज परिणामों की रैंकिंग पर भी बेहतर नियंत्रण देती हैं.

एनोटेशन फ़ाइल, एनोटेशन की सूची होती है. हर एनोटेशन में दो कॉम्पोनेंट होते हैं: साइट और उससे जुड़े लेबल. लेबल, Programmable Search Engine को किसी साइट को मैनेज करने का तरीका बताता है; यानी किसी साइट को शामिल किया जाना चाहिए, बाहर रखा जाना चाहिए, प्रमोट किया जाना चाहिए या पदावनत किया जाना चाहिए. कॉन्टेक्स्ट फ़ाइल में, आपने लेबल तय किए हों; एनोटेशन फ़ाइल में, सही लेबल वाली साइटों को टैग किया जाता है.

अपनी एनोटेशन फ़ाइल में बदलाव करते समय, शुरुआत में कम एनोटेशन डालें. कुछ एनोटेशन की मदद से, अपने सर्च इंजन की जांच और उससे जुड़ी समस्या को हल करना आसान है. जब आपको उम्मीद के मुताबिक नतीजे मिलते हैं, तो धीरे-धीरे ज़्यादा एनोटेशन जोड़ें.

कंट्रोल पैनल में एनोटेशन फ़ाइल अपलोड की जा सकती है. फ़ाइल की सीमाओं के बारे में ज़्यादा जानने के लिए, व्याख्या की सीमाएं सेक्शन देखें.

वापस सबसे ऊपर जाएं

Programmable Search के एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना

अगर आपको Programmable Search Engine की कॉन्फ़िगरेशन फ़ाइल में उपलब्ध सभी सुविधाओं का फ़ायदा लेना है, तो एक्सएमएल का इस्तेमाल करें. को दबाकर रखें

एक्सएमएल एनोटेशन

एक्सएमएल एनोटेशन का एक उदाहरण नीचे दिया गया है. यह एनोटेशन फ़ाइल, Programmable Search Engine को www.webmd.com/hw/* के तहत सब कुछ शामिल करने के लिए कहती है, लेकिन www.webmd.com/hw/cancer/* में मौजूद हर चीज़ को शामिल करने के लिए.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

एनोटेशन फ़ाइल में चार एलिमेंट इस क्रम में होते हैं:

  • Annotations अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है (रूट एलिमेंट)
    • Annotation
      • Label
      • Comment (वैकल्पिक)

वापस सबसे ऊपर जाएं

बाहरी एनोटेशन बनाना

उन साइटों की सूची बनाने के लिए जिन्हें आपको सर्च इंजन से कवर करना है, ये काम करें:

  1. फ़ाइल को <Annotations></Annotations> रूट एलिमेंट से शुरू करें.
  2. <Annotation></Annotation> टैग जोड़कर, जानकारी बनाएं. इसके बाद, साइट के यूआरएल पैटर्न के साथ about एट्रिब्यूट को तय करें.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. <Label name=" "/> टैग का इस्तेमाल करके, साइट को सर्च इंजन से जोड़ें. साथ ही, यह बताएं कि सर्च इंजन, इस साइट का इस्तेमाल कैसे करे. आपको सर्च इंजन की कॉन्टेक्स्ट फ़ाइल से, अपने सर्च इंजन के लिए लेबल मिल सकते हैं. आपको दो लेबल दिखेंगे: एक अपने Programmable Search Engine में साइटों को जोड़ने के लिए और दूसरा इससे साइटों को बाहर रखने के लिए. अगर आपने कॉन्टेक्स्ट फ़ाइल में सर्च इंजन के लेबल का नाम नहीं बदला है, तो साइटों को शामिल करने का लेबल, _include_ और साइटों को शामिल नहीं करने वाला लेबल, _exclude_ के तौर पर होता है. गड़बड़ियों से बचने के लिए, इन लेबल को हाथ से टाइप करने के बजाय कॉपी करके चिपकाएं.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    किसी साइट के साथ कई लेबल जुड़े हो सकते हैं,

    अगर आपने कॉन्टेक्स्ट फ़ाइल में लेबल का नाम बदल दिया है, तो अपनी एनोटेशन फ़ाइल में Label name की वैल्यू अपडेट करना न भूलें.

  4. ज़्यादा साइटें जोड़ने के लिए, कोई दूसरा Annotation एलिमेंट बनाएं और तय करें.
  5. एक्सएमएल फ़ाइल सेव करें.

वापस सबसे ऊपर जाएं

खोज के कवरेज को बेहतर बनाना

Programmable Search Engine, Google इंडेक्स के सबसे ऊपर बनाया जाता है. इसका मतलब है कि Google इंडेक्स में मौजूद वेबपेज आपके सर्च इंजन के लिए उपलब्ध हैं; इसके ठीक उलट, ऐसे वेबपेज जिन्हें Google ने क्रॉल नहीं किया है, वे आपके खोज नतीजों में नहीं दिखेंगे. अगर आपको अपने Programmable Search Engine में ऐसी साइटों को शामिल करना है जो फ़िलहाल Google इंडेक्स में नहीं हैं, तो Google Search Console में साइटमैप सबमिट करें.

साइटमैप में आपकी साइट के पेजों की सूची होती है. साथ ही, वेबपेजों को अपडेट करने की फ़्रीक्वेंसी और एक-दूसरे से उनकी अहमियत के बारे में जानकारी होती है. साइटमैप सबमिट करने से Google को आपके वेबपेज खोजने और क्रॉल करने के शेड्यूल को बेहतर बनाने में मदद मिलती है. साइटमैप के बारे में ज़्यादा जानने के लिए, वेबमास्टर सहायता केंद्र और साइटमैप प्रोटोकॉल का इस्तेमाल करना देखें. अगर आपको शानदार साइटमैप बनाने में दिलचस्पी है, तो http://www.sitemaps.org/protocol.php पर जाएं.

साइटमैप सबमिट करना ख़ास तौर पर तब मददगार होता है, जब आपकी साइट पर ये चीज़ें मौजूद हों:

  • लगातार अपडेट होने वाला कॉन्टेंट
  • ऐसे वेबपेज जिन्हें Googlebot (Google का वेब क्रॉलर) आसानी से नहीं खोज पाता, जैसे कि AJAX या फ़्लैश की शानदार सुविधाओं वाले पेज
  • इसे कुछ वेबसाइट लिंक करती हैं.

    Googlebot एक पेज से दूसरे पेज पर मौजूद लिंक का इस्तेमाल करके, वेब को क्रॉल करता है. इसलिए, अगर आपकी साइट अच्छी तरह लिंक नहीं की गई है, तो क्रॉलर के लिए इसे ढूंढना मुश्किल होता है. अगर आपकी वेबसाइट नई है, तो हो सकता है कि बहुत सारी वेबसाइटें आपकी साइट पर न ले जाती हों.

  • कॉन्टेंट वाले ऐसे पेजों का एक बड़ा संग्रह जिनमें क्रॉस-लिंकिंग का अच्छा नेटवर्क नहीं होता

Google सिर्फ़ उन पेजों को इंडेक्स कर सकता है जिन्हें ऐक्सेस करने की अनुमति उसके पास है. इसलिए, अगर आप अपने वेबपेजों में robots.txt फ़ाइल या robots मेटा टैग का इस्तेमाल करते हैं, तो पक्का करें कि वे पेज क्रॉलर को ब्लॉक न करते हों.

बेहतर कवरेज तुरंत नहीं होता, क्योंकि पेजों को क्रॉल और इंडेक्स करने में कुछ समय लगता है. हालांकि, जब आपके वेबपेज इंडेक्स में आ जाते हैं, तो वे Google Search और Programmable Search Engine, दोनों में दिख सकते हैं.

वापस सबसे ऊपर जाएं

एनोटेशन की सीमाएं

Programmable Search Engine में अपलोड की जाने वाली एनोटेशन फ़ाइलों की सीमाएं नीचे दी गई हैं:

ध्यान दें: सीमाओं का बारीकी से पालन करें; यदि आप उन्हें पार कर जाते हैं, तो हो सकता है कि आपका खोज इंजन परिणाम न दिखाए.

पक्ष सीमा
फ़ाइल का साइज़ (कॉन्टेक्स्ट या एनोटेशन फ़ाइलें) 30 केबी
प्रति सर्च इंजन के लिए ज़्यादा से ज़्यादा एनोटेशन की संख्या 5,000

सलाह: अगर आपको लगता है कि आपका सर्च इंजन, 5,000 साइटों की तय सीमा को पार कर रहा है, तो हर यूआरएल को यूआरएल पैटर्न के तौर पर इकट्ठा करने की कोशिश करें.

वापस सबसे ऊपर जाएं