Googlebot

Googlebot 是 Google 兩種網路檢索器的通稱:

您可以從要求中的 HTTP user-agent 要求標頭來辨別是哪一種檢索器,不過這兩種檢索器都會遵循 robots.txt 中的同一個產品權杖 (使用者代理程式權杖),因此您無法在 robots.txt 中特意指定 Googlebot Smartphone 或 Googlebot Desktop。

Google 主要是將大多數網站的行動版內容編入索引。因此,大部分 Googlebot 檢索要求都會來自行動裝置檢索器,只有一小部分會來自電腦檢索器。

Googlebot 如何存取您的網站

一般而言,Googlebot 並不會在幾秒的時間內連續存取您的網站好幾次。不過,如果出現延遲的情況,短時間內的檢索頻率確實可能會稍微偏高。

Googlebot 能夠同時由數千台機器運作,藉此提升執行效能,並配合網路規模的成長擴充。此外,為了減少頻寬用量,我們會根據可能檢索的網站,在距離較近的機器上執行多個檢索器。因此,您的記錄可能會顯示來自多個 IP 位址的造訪記錄,而且都是透過 Googlebot 使用者代理程式。我們的目標是在每次瀏覽您的網站時,盡可能檢索更多網頁,同時避免對您的伺服器造成太大影響。如果您的網站無法應付 Google 的檢索要求,可以降低檢索頻率

Googlebot 主要是從美國的 IP 位址進行檢索。如果 Googlebot 偵測到網站封鎖來自美國的要求,可能會嘗試從其他國家/地區的 IP 位址進行檢索。如要查看 Googlebot 目前使用的 IP 位址區塊清單,請參閱 JSON 格式

Googlebot 的檢索作業會透過 HTTP/1.1 進行,但如果網站支援 HTTP/2,Googlebot 可能會透過這個協定進行檢索。不論 Googlebot 採用哪個通訊協定版本檢索您的網站,都不會產生任何排名優勢。不過,透過 HTTP/2 進行檢索可以節省網站和 Googlebot 的運算資源 (例如 CPU、RAM)。
如要選擇不透過 HTTP/2 進行檢索,請對代管網站的伺服器下達指示,要求伺服器在 Googlebot 嘗試透過 HTTP/2 檢索網站時傳回 421 HTTP 狀態碼。如果無法採取這種做法,您也可以傳送訊息給 Googlebot 團隊,不過這只是暫時性的解決方案。

Googlebot 可以檢索 HTML 檔案或支援的文字檔的前 15 MB。系統會個別擷取 HTML 中參照的各項資源 (例如 CSS 和 JavaScript),且每次擷取都會受到相同檔案大小上限的限制。在檢索完檔案的前 15 MB 之後,Googlebot 就會停止檢索,而且只會將檔案前 15 MB 納入索引考量。檔案大小限制會套用至未壓縮資料。其他 Google 檢索器 (例如 Googlebot Video 和 Googlebot Image) 可能會有不同的限制。

從美國的 IP 位址進行檢索作業時,Googlebot 的時區為太平洋時間

禁止 Googlebot 瀏覽您的網站

在大部分情況下,即使您不公開網站的連結,也無法讓網站保持隱藏。這是因為您的「秘密」網站還是會連結到其他網站,一旦有人追蹤到這個連結,您的「秘密」網址就會出現在參照標記中,其他網站也可以將該網址儲存在其參照記錄中並加以發布。

如要禁止 Googlebot 檢索您網站上的內容,您可以採取多種方式。請留意這些做法之間的差異,例如禁止 Googlebot 檢索網頁、禁止 Googlebot 為網頁建立索引,以及完全禁止任何檢索器或使用者存取網頁。

驗證 Googlebot

決定封鎖 Googlebot 前,請留意其他檢索器經常假冒 Googlebot 採用的 HTTP user-agent 要求標頭。因此請務必驗證有問題的要求,確認是否真的由 Google 提出。如要確認要求是否來自 Googlebot,最好的做法是針對要求的來源 IP 使用反向 DNS 查詢,或是比對來源 IP 與 Googlebot IP 範圍