Google 檢索器和擷取程式 (使用者代理程式) 總覽

Google 會使用檢索器和擷取程式對產品執行動作,無論動作是自動或由使用者要求觸發。 「檢索器」(有時也稱為「漫遊器」或「自動尋檢程式」) 泛指任何透過網頁間連結來自動尋找並檢索網站的程式。擷取程式會像 wget 這類程式一樣運作,通常會代表使用者提出單一要求。Google 檢索器分為三類:

常見檢索器 Google 產品使用的常見檢索器 (例如 Googlebot)。這類檢索器一律會遵守自動檢索的 robots.txt 規則。
特殊情況檢索器 特殊情況檢索器與常見檢索器類似,但只有特定產品會使用,因為接受檢索的網站和 Google 產品之間,有針對檢索程序制定的協議。舉例來說,AdsBot 會忽略具有廣告發布商權限的全域 robots.txt 使用者代理程式 (*)。
使用者觸發的擷取程式 使用者觸發的擷取程式是工具和產品函式的一部分,由使用者觸發擷取動作。舉例來說,Google 網站驗證工具就是依據使用者的要求而行動。

Google 檢索器和擷取程式的技術資源

Google 檢索器和擷取程式能夠同時由數千台機器運作,藉此提升執行效能,並配合網路規模的成長擴充。為了最佳化頻寬使用量,這些用戶端會分散到全球各地的許多資料中心,以便靠近可能存取的網站。因此,您的記錄可能會顯示來自多個 IP 位址的造訪記錄。Google egress 流量主要來自美國的 IP 位址。如果 Googlebot 偵測到網站封鎖來自美國的要求,可能會嘗試從其他國家/地區的 IP 位址進行檢索。

Google 檢索器和擷取程式會使用 HTTP/1.1,如果網站支援 HTTP/2,Google 檢索器和擷取程式也會使用這個通訊協定。透過 HTTP/2 檢索網站或許能節省網站和 Googlebot 的運算資源 (例如 CPU、RAM),但不會為網站帶來任何產品特定優勢 (例如不會提升 Google 搜尋的排名)。如要選擇不透過 HTTP/2 進行檢索,請對代管網站的伺服器下達指示,要求伺服器在 Google 嘗試透過 HTTP/2 存取網站時傳回 421 HTTP 狀態碼。如果無法採取這種做法,您也可以傳送訊息給檢索團隊,不過這只是暫時性的解決方案。

Google 檢索器和擷取程式支援下列內容編碼 (壓縮):gzipdeflateBrotli (br)。每個 Google 使用者代理程式支援的內容編碼,都會顯示在每項提出要求中的 Accept-Encoding 標頭。例如:Accept-Encoding: gzip, deflate, br

我們的目標是在每次瀏覽您的網站時,盡可能檢索更多網頁,同時避免對您的伺服器造成太大影響。如果您的網站無法應付 Google 的檢索要求,可以降低檢索頻率。請注意,傳送不當的 HTTP 回應代碼 給 Google 檢索器,可能會影響網站在 Google 產品中的顯示情形。

驗證 Google 檢索器和擷取程式

Google 檢索器會透過三種方式識別自己:

  1. HTTP user-agent 要求標頭。
  2. 要求的來源 IP 位址。
  3. 來源 IP 的反向 DNS 主機名稱。

瞭解如何使用這些詳細資料驗證 Google 檢索器和擷取程式