Feedfetcher

Google 會使用 Feedfetcher 檢索 Google 新聞PubSubHubbub 的 RSS 或 Atom 動態消息。Feedfetcher 會儲存並定期重新整理這些由應用程式或服務使用者所要求的動態消息。只有 Podcast 動態消息會編入 Google 搜尋的索引中,但如果動態消息不符合 AtomRSS 規格,系統還是有可能將其編入索引。以下針對幾個常見問題提供解答,說明這個由使用者控制的動態消息收集工具如何運作。

如何要求 Google 不要擷取網站的部分動態消息或所有動態消息?

使用者新增的服務或應用程式使用 Feedfetcher 資料時,Google 的 Feedfetcher 便會嘗試取得該動態消息的內容,以便顯示在搜尋結果中。由於 Feedfetcher 要求來自使用者的明確指示,不是由自動檢索器控制,因此 Feedfetcher 會忽略 robots.txt 規則。

如果您的資訊提供是公開的,那麼 Google 就無法禁止使用者存取您的資訊提供。如要解決這項問題,您可以設定網站,讓網站向 Feedfetcher-Google 使用者代理程式送出 404410 或其他錯誤狀態訊息。

如果您的動態消息是由網誌或網站代管服務所提供,請直接要求該服務限制使用者存取您的動態消息。

Feedfetcher 多久擷取一次我的動態消息?

平均而言,Feedfetcher 擷取大部分網站的頻率最多一個小時一次。如果是時常更新的網站,Feedfetcher 可能會提高重新整理頻率。但是請注意,如果出現網路延遲情況,Feedfetcher 可能會較頻繁地擷取您的動態消息,但這只是暫時性現象。

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是因為有使用者對不存在的動態消息網址提出要求。

為什麼 Feedfetcher 會從我的「秘密」網路伺服器下載資訊?

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是要求擷取該動態消息的使用者知道您的「秘密」伺服器,或不小心打錯網址,結果擷取到您的「秘密」伺服器。

為什麼 Feedfetcher 沒有依照 robots.txt 檔案中的指示運作?

只有使用者啟動的服務或應用程式要求動態消息資料時,Feedfetcher 才會擷取動態消息。Feedfetcher 會以真人使用者直接代理人的身分行動 (而非機器人),因此會忽略 robots.txt 中的指示。由於 Feedfetcher 可以做為多位使用者的代理人,因此可以一次代表所有使用者,透過應用程式或服務向常見的動態消息提出要求,節省頻寬。常見的動態消息有 RSSAtom 兩種。

您可以調整伺服器設定,向 Feedfetcher-Google 使用者代理程式傳送 404410 或其他錯誤狀態訊息,禁止 Feedfetcher 檢索您的網站。

我發現多部機器的造訪記錄來自 Google.com,而且使用者代理程式都是 Feedfetcher,為什麼會這樣?

Feedfetcher 能分散在多台機器上運作,藉此提升執行效能,並配合網路規模擴充。為了減少頻寬用量,我們通常根據要擷取的網站,使用網路中距離最近的機器進行擷取。

我想篩選記錄,能否告訴我 Feedfetcher 提出要求的 IP 位址?

Feedfetcher 使用的 IP 位址會包含在 user-triggered-fetchers-google.json 物件中。

為什麼 Feedfetcher 多次下載網站的同一個網頁?

通常每次擷取動態消息時,Feedfetcher 會從網站下載每個檔案一次。但有些時候,如果我們的機器停止運作又重新開機,就會導致 Feedfetcher 再次擷取最近才造訪過的網頁。

與一般網路檢索器不同,Feedfetcher 並不會追蹤連節。如果使用者在採用 Feedfetcher 的服務或應用程式中提出要求時,Feedfetcher 才會針對要求進行追蹤。

我還有其他 Feedfetcher 相關問題,哪裡可以取得更多說明?

如果您還有其他問題,歡迎在搜尋中心論壇發文提問。