本頁說明如何使用 XML 註解檔案,定義搜尋引擎的涵蓋範圍。
總覽
若要建置大型搜尋引擎,管理大量的網站可能會是件麻煩事。反之,你可以將許多網站列在註解檔中,然後上傳,即可新增及管理許多網站。此外,註解檔案可讓您進一步掌控搜尋結果的排名。
註解檔案只是一份註解清單,每個註解都包含兩個元件:網站及其相關標籤。這個標籤會告知程式化搜尋引擎如何處理網站,也就是是否應納入、排除、宣傳或降低網站排名。您可以在內容檔案中定義標籤,然後在註解檔案中為網站加上適當的標籤。
開始編輯註解檔案時,請先建立少量的註解。新增幾註解有助於測試搜尋引擎並排解相關問題。如果希望結果符合預期,請逐步新增更多註解。
您可以將註解檔案上傳到控制台。如要進一步瞭解檔案限制,請參閱「註解限制」一節。
使用程式化搜尋 XML 格式
如果想要充分運用程式化搜尋引擎設定檔中的所有功能,建議使用 XML。
XML 註解
以下是 XML 註解的範例。這個註解檔案會指示程式化搜尋引擎納入 www.webmd.com/hw/* 下的所有內容,但排除 www.webmd.com/hw/cancer/* 下的所有內容。
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
這個註解檔案包含下列階層的四個元素:
-
Annotations
(根元素)Annotation
Label
Comment
(選填)
建立外部註解
如要列出您希望搜尋引擎涵蓋的網站,請按照下列步驟操作:
- 使用
<Annotations></Annotations>
根元素啟動檔案。 - 新增
<Annotation></Annotation>
標記來建立註解,然後使用網站網址模式定義about
屬性。<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
- 使用
<Label name=" "/>
標記將網站和搜尋引擎建立關聯,並指定搜尋引擎處理該網站的方式。您可以透過搜尋引擎的內容檔案取得搜尋引擎的標籤。畫面上會顯示兩個標籤:一個用於將網站新增至程式化搜尋引擎,另一個則用來排除網站。如果您尚未在結構定義檔案中變更搜尋引擎標籤名稱,納入網站的標籤就會採用_include_
格式,排除網站標籤則會採用_exclude_
格式。為避免發生錯誤,請複製並貼上這些標籤,而不要手動輸入。<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
一個網站可以有多個相關聯的標籤
如果您在結構定義檔案中變更了標籤名稱,請記得更新註解檔案中的
Label name
值。 - 如要新增更多網站,請建立並定義其他
Annotation
元素。 - 儲存 XML 檔案。
提高搜尋涵蓋率
程式化搜尋引擎是以 Google 索引為基礎。這表示您的搜尋引擎可以存取 Google 索引中的網頁;反之,尚未由 Google 檢索的網頁不會顯示在搜尋結果中。如要讓程式化搜尋引擎納入目前不在 Google 索引中的網站,請將 Sitemap 提交給 Google Search Console。
Sitemap 內含你網站中的網頁清單,以及網頁更新頻率及其相對重要性的相關資訊。提交 Sitemap 有助於 Google 找出你的網頁,並改善檢索排程。如要進一步瞭解 Sitemap,請參閱網站管理員說明中心和使用 Sitemap 通訊協定。如果您想建立粉絲 Sitemap,請參閱 http://www.sitemaps.org/protocol.php。
如果你的網站符合下列條件,提交 Sitemap 就會特別有幫助:
- 動態內容
- Googlebot (Google 的網路檢索器) 難以找到的網頁,例如具有豐富 AJAX 或 Flash 功能的網頁
- 很少有連結到該網站的網站。
Googlebot 檢索網頁時會前往各網頁的連結,因此如果你網站的連結數量不多,檢索器就難以發現。如果網站才剛建立,可能沒有太多網站指向你的網站。
- 缺乏大量交叉連結網路的內容網頁封存檔
Google 只會為可存取的網頁建立索引。因此,如果你在網頁中使用 robots.txt 檔案或漫遊器中繼標記,請確認這些網頁並未封鎖檢索器。
由於系統需要一些時間檢索網頁並建立索引,因此改善涵蓋範圍不會立即生效。不過,要是網頁編入索引後,網頁就可能同時出現在 Google 搜尋和程式化搜尋引擎中。
註解限制
下表列出上傳至程式化搜尋引擎的註解檔案數量上限:
注意:請密切留意相關規定。如果超過上限,搜尋引擎可能不會顯示結果。
長寬比 | 限制 |
---|---|
檔案大小 (結構定義檔案或註解檔案) | 30KB |
每個搜尋引擎的註解數量上限 | 5,000
提示:如果你發現搜尋引擎超過 5,000 個網站的上限,請考慮將個別網址合併為網址模式。 |