Googlebot
Googlebot 是 Google 搜尋使用的兩種網路檢索器的通稱:
- Googlebot Smartphone:這是模擬行動裝置使用者的行動裝置檢索器。
- Googlebot Desktop:這是模擬電腦使用者的電腦檢索器。
您可以從要求中的 HTTP user-agent
要求標頭來辨別是哪一種檢索器,不過這兩種檢索器都會遵循 robots.txt 中的同一個產品權杖 (使用者代理程式權杖),因此您無法在 robots.txt 中特意指定 Googlebot Smartphone 或 Googlebot Desktop。
Google 搜尋主要是將大多數網站的行動版內容編入索引。因此,大部分 Googlebot 檢索要求都會來自行動裝置檢索器,只有一小部分會來自電腦檢索器。
Googlebot 如何存取您的網站
一般而言,Googlebot 並不會在幾秒的時間內連續存取您的網站好幾次。不過,如果出現延遲的情況,短時間內的檢索頻率確實可能會稍微偏高。 如果您的網站無法應付 Google 的檢索要求,可以降低檢索頻率。
Googlebot 可以檢索 HTML 檔案或支援的文字檔的前 15 MB。系統會個別擷取 HTML 中參照的各項資源 (例如 CSS 和 JavaScript),且每次擷取都會受到相同檔案大小上限的限制。在檢索完檔案的前 15 MB 之後,Googlebot 就會停止檢索,而且只會傳送檔案的前 15 MB 以供建立索引。檔案大小限制會套用至未壓縮資料。其他 Google 檢索器 (例如 Googlebot 影片和 Googlebot 圖片) 可能會有不同的限制。
從美國的 IP 位址進行檢索作業時,Googlebot 的時區為太平洋時間。
如要瞭解其他 Googlebot 技術性資源,請參閱 Google 檢索器總覽。
禁止 Googlebot 瀏覽您的網站
Googlebot 主要是透過先前檢索網頁中嵌入的連結,發掘要檢索的新網址。在大部分情況下,即使您不公開網站的連結,也無法讓網站保持隱藏。這是因為您的「秘密」網站還是會連結到其他網站,一旦有人追蹤到這個連結,您的「秘密」網址就會出現在參照標記中,其他網站也可以將該網址儲存在其參照記錄中並加以發布。
如要禁止 Googlebot 檢索您網站上的內容,您可以採取多種方式。請記住,「檢索」和「建立索引」是兩種不同的作業。禁止 Googlebot 檢索網頁並無法禁止 Googlebot 在搜尋結果中顯示該網頁的網址:
- 要禁止 Googlebot 檢索網頁嗎? 請使用 robots.txt 檔案。
-
不想讓 Google 將網頁編入索引嗎? 請使用
noindex
。 - 要完全禁止任何檢索器或使用者存取網頁嗎?使用其他方法,例如密碼保護。
封鎖 Googlebot 會影響 Google 搜尋 (包括探索和所有 Google 搜尋功能) 和其他產品 (例如 Google 圖片、Google 影片和 Google 新聞)。
驗證 Googlebot
決定封鎖 Googlebot 前,請留意其他檢索器經常假冒 Googlebot 採用的 HTTP user-agent
要求標頭。因此請務必驗證有問題的要求,確認是否真的由 Google 提出。如要確認要求是否來自 Googlebot,最好的做法是針對要求的來源 IP 使用反向 DNS 查詢,或是比對來源 IP 與 Googlebot IP 範圍。