Feedfetcher

Feedfetcher は、Google ニュースや PubSubHubbub の RSS フィードと Atom フィードを Google がクロールするための仕組みです。Feedfetcher は、アプリやサービスのユーザーがリクエストしたフィードを保存し、定期的に更新します。Google 検索のインデックスに登録されるのはポッドキャストフィードのみです。ただし、Atom や RSS の仕様に準拠していないフィードでも、インデックスに登録される場合があります。ユーザーが管理するこのフィード取得ツールについて、よくある質問とその回答を次にご紹介します。

Google がサイトのフィードの一部またはすべてを取得しないようリクエストするにはどうすればよいですか？

Feedfetcher データを使用するサービスやアプリをユーザーが追加すると、Google の Feedfetcher はそのフィードのコンテンツを表示するためにフィードを取得しようとします。Feedfetcher のリクエストはユーザーによる明示的なアクションから発生し、自動化されたクローラーからは発生しないため、Feedfetcher は robots.txt のルールを無視します。

フィードが公開されている場合、Google はユーザーがそのフィードにアクセスすることを制限できません。この解決策の一つは、Feedfetcher-Google ユーザーエージェントに対して404、410 などのエラーステータスのメッセージを返すようにサイトを設定することです。

フィードがブログやサイトホスティングサービスから提供されている場合は、そのサービスを直接設定してフィードへのアクセスを制限します。

Feedfetcher はどのくらいの頻度でフィードを取得しますか？

Feedfetcher がサイトからフィードを取得する回数は、ほとんどの場合、平均して 1 時間に 1 回を超えることはありません。一部の頻繁に変更されるサイトに対しては、更新の頻度が高くなります。ネットワークの遅延により、Feedfetcher がフィードを取得する頻度が一時的に高くなったように見えることもあります。

Feedfetcher が私のサーバーや存在しないドメインから間違っているリンクをダウンロードしようとするのはなぜですか？

Feedfetcher は、ユーザーがインストールしたサービスまたはアプリからのリクエストを受けてフィードを取得します。ユーザーが、存在しないフィード URL をリクエストした可能性があります。

Feedfetcher が「非公開」のウェブサーバーから情報をダウンロードしようとするのはなぜですか？

Feedfetcher は、ユーザーがインストールしたサービスまたはアプリからのリクエストを受けてフィードを取得します。「非公開」サーバーを知っているユーザーや、誤ってこのサーバーを入力したユーザーからリクエストされた可能性があります。

Feedfetcher が robots.txt ファイルの指示に従わないのはなぜですか？

Feedfetcher がフィードを取得するのは、フィードのデータをリクエストするサービスまたはアプリをユーザーが明示的に開始した後のみです。Feedfetcher はロボットではなくユーザーの直接的な代理人として動作するため、robots.txt の内容は無視されます。Feedfetcher は複数のユーザーの代理人として機能するため、アプリやサービスを通じてフィードを要求したすべてのユーザーに対して共通するフィードのリクエストを 1 つだけ作成することで、帯域幅を節約します。共通するフィードは RSS と Atom です。

Feedfetcher によるサイトのクロールをブロックするには、Feedfetcher-Google ユーザーエージェントに対して 404 や 410 などのエラーステータスメッセージを返すようにサーバーを設定してください。

Google.com の複数のマシンからアクセスがあり、それがすべてユーザーエージェント Feedfetcher であるのはなぜですか？

Feedfetcher は、複数のマシンに分散させることで、パフォーマンスを向上させてウェブの拡大に伴い拡張される設計になっています。帯域幅の使用量を節約するため、ネットワーク上で、取得するサイトの付近にあるマシンがよく使用されます。

ログにフィルタをかけたいので、Feedfetcher のリクエストで使用される IP アドレスを教えてください。

Feedfetcher が使用する IP アドレスは、user-triggered-fetchers-google.json オブジェクトに含まれています。

Feedfetcher がサイト上の同じページを何度もダウンロードするのはなぜですか？

一般に、Feedfetcher は所定のフィードを取得する際にサイトから各ファイルを 1 回のみダウンロードします。ごくまれに、マシンが停止し、再起動されると、最近アクセスされたばかりのページが再度取得されることがあります。

Feedfetcher はどのような種類のリンクをクロールしますか？

通常のウェブクローラーとは異なり、Feedfetcher はクロールするリンクを検出しません。Feedfetcher を使用するサービスまたはアプリのユーザーによって提供される単一の URL をクロールします。

ここに記載されていない Feedfetcher 関連の質問については、どこに問い合わせればよいですか？

問題が解決しない場合は、検索セントラルのフォーラムに質問を投稿してみてください。