Googlebot

Googlebot は、Google 検索で使用される 2 種類のウェブクローラーの総称です。

スマートフォン用 Googlebot: モバイルデバイスでユーザーをシミュレートするモバイルクローラー。
パソコン用 Googlebot: デスクトップでユーザーをシミュレートするデスクトップクローラー。

Googlebot のサブタイプは、リクエストの HTTP user-agent リクエストヘッダーで確認できます。ただし、両方のクローラータイプが robots.txt 内の同じプロダクトトークン（ユーザーエージェントトークン）に従うため、robots.txt でスマートフォン用 Googlebot またはパソコン用 Googlebot のどちらかをターゲットにすることはできません。

Google 検索はほとんどのサイトについて、主としてコンテンツのモバイルバージョンをインデックスに登録します。そのため、Googlebot のクロールリクエストの大部分はモバイルクローラーを使用して行われ、一部がデスクトップクローラーを使用して行われます。

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、遅延などにより、短時間にアクセス頻度が若干増えたように思える場合があります。Google のクロールリクエストへの対応で問題が発生した場合は、クロール頻度を減らすことができます。

Google 検索のクロールでは、Googlebot はサポートされているファイル形式の最初の 2 MB と、PDF ファイルの最初の 64 MB をクロールします。レンダリングの観点から見ると、HTML で参照される各リソース（CSS、JavaScript など）は個別に取得され、各リソースの取得には、他のファイル（PDF ファイルを除く）に適用されるのと同じファイルサイズの制限が適用されます。
上限に達すると、Googlebot はフェッチを停止し、すでにダウンロードされたファイルの一部のみをインデックス登録の対象として送信します。ファイルサイズの上限は、非圧縮データに適用されます。Google の他のクローラー（動画用 Googlebot、画像用 Googlebot など）では、異なる上限が存在する場合があります。

米国の IP アドレスからクロールする場合、Googlebot のタイムゾーンは太平洋時間です。

その他の Googlebot の技術的特性については、Google クローラーの概要で説明されています。

Googlebot のサイトアクセスをブロックする

Googlebot は、主に以前にクロールしたページに埋め込まれたリンクから、クロールする新しい URL を検出します。サイトへのリンクを公開しないようにして、そのサイトの存在を隠すことはまず不可能です。誰かが「非公開」のサイトからリンクをクリックして別のサイトにアクセスすると、「非公開」のサイトの URL がリファラータグに追加され、他のサイトのリファラーログに保存、公開されるからです。

Googlebot によるサイトのコンテンツのクロールをブロックするには、複数の方法があります。なお、クロールとインデックス登録は異なりますのでご注意ください。Googlebot によるページのクロールをブロックしても、そのページの URL が検索結果に表示されなくなるわけではありません。

Googlebot がページをクロールできないようブロックする場合は robots.txt ファイルを使用してください。
Google がページをインデックス登録するのを望まない場合は noindex を使用してください。
クローラーとユーザーによるページへのアクセスを完全にブロックする場合は パスワード保護などの他の方法を使用してください。

Googlebot をブロックすることは、Google 検索（Discover やすべての Google 検索機能を含む）だけでなく、Google 画像検索、Google Video、Google ニュースなどの他のサービスにも影響します。

Googlebot が本物であるか確認する

Googlebot をブロックする前に、他のクローラーが Googlebot の HTTP user-agent リクエストヘッダーを使用して Googlebot になりすましていることがよくある点に注意してください。問題のリクエストが本当に Google からのものかどうかを確認することが重要です。リクエストが実際に Googlebot から送信されたものかどうかを確認するには、リクエストの送信元 IP についてリバース DNS ルックアップを実施するか、送信元 IP と Googlebot の IP 範囲を照合します。