註解:定義要搜尋的網站

本頁說明如何使用 XML 註解檔案定義搜尋引擎的涵蓋範圍。

  1. Overview
  2. 使用程式化搜尋 XML 格式
  3. 改善搜尋涵蓋率
  4. 註解限制

總覽

如果您要建構大型搜尋引擎,管理大量網站可能會相當繁瑣。只要在註解檔案中列出並上傳大量網站,即可新增及管理大量網站。此外,註解檔案還可讓您進一步掌控搜尋結果的排名。

註解檔案只是註解清單每個註解都有兩個元件:網站及其相關標籤。標籤指出程式化搜尋引擎如何處理網站。也就是應納入、排除、宣傳或降低網站的排名在內容檔案中,您可以定義標籤。,您可以使用適當的標籤來標記網站。

開始編輯註解檔案時,請先從少量註解開始。只要使用少量註解,即可輕鬆測試您的搜尋引擎,並排解相關問題。達到預期結果時,逐步新增更多註解。

您可以將註解檔案上傳至控制台。如要進一步瞭解檔案限制,請參閱「註解限制」一節。

返回頁首

使用程式化搜尋 XML 格式

如果您想要利用程式化搜尋引擎設定檔提供的所有功能,則建議使用 XML。

XML 註解

以下是 XML 註解的範例。這個註解檔案會指示程式化搜尋引擎納入 www.webmd.com/hw/* 下的所有內容,但排除 www.webmd.com/hw/cancer/* 下的所有內容。

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

註解檔案包含下列四個元素:

  • Annotations (根元素)
    • Annotation
      • Label
      • Comment (選填)

返回頁首

建立外部註解

如要列出您希望搜尋引擎涵蓋的網站,請按照下列步驟操作:

  1. <Annotations></Annotations> 根元素做為檔案開頭。
  2. 新增 <Annotation></Annotation> 標記即可建立註解,然後使用網站網址模式定義 about 屬性。
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. 使用 <Label name=" "/> 標記將網站與搜尋引擎建立關聯,並指定搜尋引擎處理網站的方式。您可以透過搜尋引擎的內容檔案取得搜尋引擎的標籤。您會看到兩個標籤:一個用於將網站新增至程式化搜尋引擎,另一個用於排除網站的網站。如果您尚未變更內容檔案中的搜尋引擎標籤名稱,納入網站的標籤會採用 _include_,排除網站的標籤則為 _exclude_。為避免發生錯誤,請複製並貼上這些標籤,而不要手動輸入。
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    一個網站可以擁有多個相關聯的標籤

    如果您在結構定義檔案中變更了標籤名稱,請記得更新註解檔案中的 Label name 值。

  4. 如要新增更多網站,請建立並定義另一個 Annotation 元素。
  5. 儲存 XML 檔案。

返回頁首

改善搜尋聯播網涵蓋率

程式化搜尋引擎是以 Google 索引為基礎。也就是說,您的搜尋引擎可以存取 Google 索引中的網頁。相反地,如果網頁尚未經過 Google 檢索,就不會顯示在搜尋結果中。如果您希望程式化搜尋引擎納入目前未編入 Google 索引的網站,請將 Sitemap 提交至 Google Search Console

Sitemap 包含您網站上的網頁清單、網頁更新頻率以及各個網頁相對重要性的相關資訊。提交 Sitemap 可協助 Google 找到你的網頁,並改善檢索排程。如要進一步瞭解 Sitemap,請參閱網站管理員說明中心使用 Sitemap 通訊協定。如果您想要建立更豐富的 Sitemap,請參閱 http://www.sitemaps.org/protocol.php

如果您的網站具有下列特性,提交 Sitemap 就特別有幫助:

  • 動態內容
  • Googlebot (Google 的網路檢索器) 不易找到的網頁,例如具有 LLM 或 Flash 功能的網頁
  • 只有少數網站連結到該網站。

    Googlebot 是透過層層連結的方式來檢索網頁,因此如果網站的連結不穩定,檢索器就很難找到它。如果你是剛建立不久的網站,可能就沒有許多網站指向你的網站。

  • 為缺乏豐富交叉連結網路而提供的大型內容網頁封存檔

Google 只會為可存取的網頁建立索引。因此,如果您在網頁中使用 robots.txt 檔案或漫遊器中繼標記,請確認這些網頁未封鎖檢索器。

已改善的涵蓋範圍不會立即提升,因為系統需要一些時間檢索網頁並建立索引。不過,一旦網頁編入索引,就能同時顯示在 Google 搜尋和程式化搜尋引擎中。

返回頁首

註解限制

下表列出上傳至程式化搜尋引擎的註解檔案限制:

注意:請遵守相關限制;否則搜尋引擎可能就不會顯示結果。

切面 限制
檔案大小 (內容或註解檔案) 30KB
每個搜尋引擎的註解數量上限 5,000 人

提示:如果您發現搜尋引擎已超出 5,000 個網站數量上限,請考慮將個別網址合併成網址模式

返回頁首