robots.txt の概要

robots.txt ファイルとは、検索エンジンのクローラーに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用するもので、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、パスワードでページを保護します。

robots.txt ファイルの使用目的

robots.txt ファイルは、基本的にはサイトに対するクローラーのトラフィックを管理するために使用され、通常は、ファイル形式に応じて Google に対して非公開にするファイルを設定します。

さまざまなファイル形式に対する robots.txt の影響
ウェブページ

Google のクローラーからのリクエストによってサーバーが過負荷になっていると考えられる場合に、ウェブページ(HTML や PDF など、メディア以外の Google が読み取れる形式)に対して robots.txt ファイルを使用することで、クロール トラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを防ぐこともできます。

ウェブページが robots.txt ファイルでブロックされている場合でも、その URL が検索結果に表示されることはありますが、説明は表示されません。ブロックされたページに埋め込まれた画像ファイル、動画ファイル、PDF など、HTML 以外のファイルも、クロールが許可されている他のページから参照されていない限り、クロールから除外されます。検索結果でページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。ページが検索結果に完全に表示されないようにするには、別の方法を使用します。

メディア ファイル

robots.txt ファイルを使用することで、クロール トラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにすることもできます。これにより、他のページやユーザーが画像、動画、音声ファイルにリンクできなくなることはありません。

リソース ファイル 重要でない画像、スクリプト、スタイル ファイルなどのリソースなしにページが読み込まれても、ページが重大な影響を受けないと考えられる場合は、robots.txt ファイルを使用してそうしたリソース ファイルをブロックできます。ただし、それらのリソースがないと Google のクローラーがページを把握しにくくなる場合はブロックしないでください。ブロックすると、それらのリソースを利用しているページを Google が適切に分析できなくなります。

robots.txt ファイルの制約について

robots.txt ファイルを作成または編集する前に、URL をブロックする手段として robots.txt を使用した場合の制約を理解しておく必要があります。目的や状況によっては、URL がウェブで見つからないようにするために他の方法を検討することが必要になる場合もあります。

  • すべての検索エンジンが robots.txt ルールに対応するとは限らない
    サイトに対するクローラーの動作に対して、robots.txt ファイルの指示を強制適用することはできません。指示に従うかどうかはクローラー次第です。Googlebot などの信頼できるウェブ クローラーは robots.txt ファイルの指示に従いますが、他のクローラーも従うとは限りません。そのため、ウェブ クローラーから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
  • クローラーによって構文解釈が異なる
    信頼できるウェブ クローラーは robots.txt ファイルのルールに従いますが、各クローラーでルールの解釈が異なる可能性があります。ウェブ クローラーによっては、特定の指示が理解されない可能性があるため、さまざまなウェブ クローラーに対応する適切な構文を把握する必要があります。
  • robots.txt で許可していないページが他のサイトからリンクされている場合、そのページはインデックスに登録される可能性がある
    Google では、robots.txt ファイルでブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報(該当ページへのリンクのアンカー テキストなど)が、Google 検索結果に表示されることもあります。Google 検索の検索結果に特定の URL が表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex meta タグまたはレスポンス ヘッダーを使用する、もしくは該当ページを完全に削除する必要があります。

robots.txt ファイルを作成または更新する

ファイルが必要な場合は robots.txt ファイルを作成する方法を、すでに作成している場合は、ファイルの更新方法をご覧ください。

詳しくは、次のリンクをご確認ください。