本頁說明如何使用 XML 註解檔案定義搜尋引擎的涵蓋範圍。
總覽
如果您要建構大型搜尋引擎,管理大量網站可能會相當繁瑣。只要在註解檔案中列出並上傳大量網站,即可新增及管理大量網站。此外,註解檔案還可讓您進一步掌控搜尋結果的排名。
註解檔案只是註解清單每個註解都有兩個元件:網站及其相關標籤。標籤指出程式化搜尋引擎如何處理網站。也就是應納入、排除、宣傳或降低網站的排名在內容檔案中,您可以定義標籤。,您可以使用適當的標籤來標記網站。
開始編輯註解檔案時,請先從少量註解開始。只要使用少量註解,即可輕鬆測試您的搜尋引擎,並排解相關問題。達到預期結果時,逐步新增更多註解。
您可以將註解檔案上傳至控制台。如要進一步瞭解檔案限制,請參閱「註解限制」一節。
使用程式化搜尋 XML 格式
如果您想要利用程式化搜尋引擎設定檔提供的所有功能,則建議使用 XML。
XML 註解
以下是 XML 註解的範例。這個註解檔案會指示程式化搜尋引擎納入 www.webmd.com/hw/* 下的所有內容,但排除 www.webmd.com/hw/cancer/* 下的所有內容。
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
註解檔案包含下列四個元素:
-
Annotations
(根元素)Annotation
Label
Comment
(選填)
建立外部註解
如要列出您希望搜尋引擎涵蓋的網站,請按照下列步驟操作:
- 以
<Annotations></Annotations>
根元素做為檔案開頭。 - 新增
<Annotation></Annotation>
標記即可建立註解,然後使用網站網址模式定義about
屬性。<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
- 使用
<Label name=" "/>
標記將網站與搜尋引擎建立關聯,並指定搜尋引擎處理網站的方式。您可以透過搜尋引擎的內容檔案取得搜尋引擎的標籤。您會看到兩個標籤:一個用於將網站新增至程式化搜尋引擎,另一個用於排除網站的網站。如果您尚未變更內容檔案中的搜尋引擎標籤名稱,納入網站的標籤會採用_include_
,排除網站的標籤則為_exclude_
。為避免發生錯誤,請複製並貼上這些標籤,而不要手動輸入。<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
一個網站可以擁有多個相關聯的標籤
如果您在結構定義檔案中變更了標籤名稱,請記得更新註解檔案中的
Label name
值。 - 如要新增更多網站,請建立並定義另一個
Annotation
元素。 - 儲存 XML 檔案。
改善搜尋聯播網涵蓋率
程式化搜尋引擎是以 Google 索引為基礎。也就是說,您的搜尋引擎可以存取 Google 索引中的網頁。相反地,如果網頁尚未經過 Google 檢索,就不會顯示在搜尋結果中。如果您希望程式化搜尋引擎納入目前未編入 Google 索引的網站,請將 Sitemap 提交至 Google Search Console。
Sitemap 包含您網站上的網頁清單、網頁更新頻率以及各個網頁相對重要性的相關資訊。提交 Sitemap 可協助 Google 找到你的網頁,並改善檢索排程。如要進一步瞭解 Sitemap,請參閱網站管理員說明中心和使用 Sitemap 通訊協定。如果您想要建立更豐富的 Sitemap,請參閱 http://www.sitemaps.org/protocol.php。
如果您的網站具有下列特性,提交 Sitemap 就特別有幫助:
- 動態內容
- Googlebot (Google 的網路檢索器) 不易找到的網頁,例如具有 LLM 或 Flash 功能的網頁
- 只有少數網站連結到該網站。
Googlebot 是透過層層連結的方式來檢索網頁,因此如果網站的連結不穩定,檢索器就很難找到它。如果你是剛建立不久的網站,可能就沒有許多網站指向你的網站。
- 為缺乏豐富交叉連結網路而提供的大型內容網頁封存檔
Google 只會為可存取的網頁建立索引。因此,如果您在網頁中使用 robots.txt 檔案或漫遊器中繼標記,請確認這些網頁未封鎖檢索器。
已改善的涵蓋範圍不會立即提升,因為系統需要一些時間檢索網頁並建立索引。不過,一旦網頁編入索引,就能同時顯示在 Google 搜尋和程式化搜尋引擎中。
註解限制
下表列出上傳至程式化搜尋引擎的註解檔案限制:
注意:請遵守相關限制;否則搜尋引擎可能就不會顯示結果。
切面 | 限制 |
---|---|
檔案大小 (內容或註解檔案) | 30KB |
每個搜尋引擎的註解數量上限 | 5,000 人
提示:如果您發現搜尋引擎已超出 5,000 個網站數量上限,請考慮將個別網址合併成網址模式。 |