Feedfetcher

Google 使用 Feedfetcher 檢索 Google 新聞和 PubSubHubbub 的 RSS 或 Atom 動態消息。Feedfetcher 會儲存這些由應用程式或服務使用者要求的動態消息，並定期重新整理。只有 Podcast 動態消息會編入 Google 搜尋的索引中，但如果動態消息不符合 Atom 或 RSS 規格，系統還是有可能編入索引。以下提供幾個常見問題的解答，說明這個由使用者控制的動態消息收集工具如何運作。

如何要求 Google 不要擷取網站的部分動態消息或所有動態消息？

使用者新增的服務或應用程式使用 Feedfetcher 資料時，Google 的 Feedfetcher 便會嘗試取得該動態消息的內容，以便顯示在搜尋結果中。由於 Feedfetcher 要求來自真人使用者的明確指示，不是由自動檢索器控制，因此 Feedfetcher 會忽略 robots.txt 規則。

如果你的動態消息是公開的，Google 就無法禁止使用者存取。如要解決這項問題，可以設定網站，讓網站向 Feedfetcher-Google 使用者代理程式送出 404、410 或其他錯誤狀態訊息。

如果動態消息是由網誌或網站代管服務所提供，請直接要求該服務限制使用者存取你的動態消息。

Feedfetcher 多久擷取一次我的動態消息？

平均而言，Feedfetcher 擷取大部分網站的頻率最多一個小時一次。如果是時常更新的網站，Feedfetcher 可能會提高重新整理頻率。但是請注意，如果出現網路延遲，Feedfetcher 擷取動態消息的頻率可能會提高，但這只是暫時性的現象。

為什麼 Feedfetcher 會試圖從伺服器下載不正確的連結，或試圖從不存在的網域下載內容？

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息，因此可能是有使用者對不存在的動態消息網址提出要求。

為什麼 Feedfetcher 會從我的「祕密」網路伺服器下載資訊？

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息，因此可能是要求擷取該動態消息的使用者知道你的「祕密」伺服器，或不小心打錯網址，結果擷取到你的「祕密」伺服器。

為什麼 Feedfetcher 沒有依照 robots.txt 檔案中的指示運作？

只有使用者明確啟動的服務或應用程式要求動態消息資料時，Feedfetcher 才會擷取動態消息。Feedfetcher 會以真人使用者直接代理人的身分行動 (而非機器人)，因此會忽略 robots.txt 中的指示。由於 Feedfetcher 可以做為多位使用者的代理人，因此可以一次代表所有使用者，透過應用程式或服務向常見的動態消息提出要求，節省頻寬。常見的動態消息有 RSS 和 Atom 兩種。

你可以調整伺服器設定，向 Feedfetcher-Google 使用者代理程式傳送 404、410 或其他錯誤狀態訊息，禁止 Feedfetcher 檢索你的網站。

我發現多部機器的造訪記錄來自 Google.com，而且使用者代理程式都是 Feedfetcher，為什麼會這樣？

Feedfetcher 能分散在多部機器上運作，藉此提升執行效能，並配合網路規模擴充。為了減少頻寬用量，我們通常根據要擷取的網站，使用網路中距離最近的機器進行擷取。

我想篩選記錄，能否告訴我 Feedfetcher 提出要求的 IP 位址？

Feedfetcher 使用的 IP 位址會包含在 user-triggered-fetchers-google.json 物件中。

為什麼 Feedfetcher 多次下載網站的同一個網頁？

通常在每次擷取動態消息時，Feedfetcher 會從網站下載每個檔案一次。但有些時候，如果我們的機器停止運作又重新開機，就會導致 Feedfetcher 再次擷取最近才造訪過的網頁。

Feedfetcher 會檢索哪些類型的連結？

與一般網路檢索器不同，Feedfetcher 並不會找出要檢索的連結，而是檢索使用者在採用 Feedfetcher 的服務或應用程式中提供的單一網址。

我還有其他 Feedfetcher 相關問題，哪裡可以取得更多說明？

如果還有其他問題，歡迎在搜尋中心論壇發文提問。