HTTP ステータス コードが Google のクローラーに及ぼす影響

このページでは、各種の HTTP ステータス コードが Google によるウェブ コンテンツのクロールに及ぼす影響について説明します。Google がウェブでよく検出する上位 20 のステータス コードを取り上げます。418 (I'm a teapot) などのまれにしか発生しないステータス コードは取り上げません。

HTTP ステータス コード

HTTP ステータス コードは、サイトをホストしているサーバーがブラウザやクローラなどのクライアントからのリクエストに応答したときに、それらのサーバーによって生成されます。HTTP ステータス コードにはそれぞれ異なる意味がありますが、多くの場合、リクエストの結果は同じです。たとえば、リダイレクトを示すステータス コードは複数ありますが、その結果はいずれも同じです。

Search Console は、4xx—5xx の範囲のステータス コードと、リダイレクトの失敗(3xx)について、エラー メッセージを生成します。サーバーがレスポンスで 2xx ステータス コードを返した場合は、レスポンスで受信したコンテンツのインデックス登録が検討される可能性があります。

次の表では、Google が頻繁に検出する HTTP ステータス コードと、Google による各ステータス コードの処理方法を示しています。

HTTP ステータス コード

2xx (success)

Google はコンテンツの処理(たとえば、Google 検索の場合はインデックス登録)を検討します。コンテンツにエラーがあることが示唆される場合(空白のページまたはエラー メッセージ)、Search Console は soft 404 エラーを表示します。

200 (success)

Google は、受け取ったものを次の処理ステップ(プロダクト固有)に渡します。Google 検索の場合、次のシステムはインデックス登録パイプラインです。コンテンツはインデックス登録システムによってインデックスに登録される可能性がありますが、登録される保証はありません。

201 (created)
202 (accepted)

Google は、コンテンツの受信を一定期間待機してから、受信したすべての情報を次の処理ステップ(商品固有)に渡します。タイムアウト期間はユーザー エージェントによって異なります。たとえば、スマートフォン用 Googlebot と画像用 Googlebot ではタイムアウト期間が異なる場合があります。

204 (no content)

Google はコンテンツを受信できなかったため、処理できません。

3xx (redirection)

デフォルトでは、Google のクローラーは最大 10 回のリダイレクト ホップを追跡します。ただし、特定のプロダクトのクローラーでは制限が異なる場合があります。たとえば、Googlebot は通常、一般的なウェブ コンテンツをクロールする際に 10 回のリダイレクト ホップを追跡しますが、Google の検査ツールはリダイレクトを追跡しません。

Google がリダイレクト URL から受信したコンテンツはすべて無視され、代わりに最終的なターゲット URL のコンテンツが処理されます。robots.txt ファイルについては、3xx ステータス コードを返す robots.txt を Google が処理する方法をご覧ください。

301 (moved permanently)

Google はリダイレクトを追跡します。Google のシステムはリダイレクトを、リダイレクト先を処理する必要があることを示す強いシグナルとして使用します。

302 (found)

デフォルトでは、Google のクローラーはリダイレクトを追跡し、Google のシステムはリダイレクトを、リダイレクト先を処理する必要があることを示す弱いシグナルとして使用します。他のプロダクトでは、リダイレクトの処理が異なる場合があります。

303 (see other)
304 (not modified)

Google クローラーは、コンテンツが前回のクロール時と同じであることを次の処理システムに知らせます。Google 検索の場合、インデックス登録パイプラインは URL のシグナルを再計算する場合がありますが、再計算しない場合、ステータス コードはインデックス登録に影響しません。

307 (temporary redirect) 302 と同じです。
308 (moved permanently) 301 と同じです。

4xx (client errors)

Google は、4xx ステータス コードを返す URL のコンテンツを使用しません。以前は使用されていた URL が 4xx ステータス コードを返すようになった場合、Google のシステムは徐々にその URL の使用を停止します。Google 検索の場合、Google は 4xx ステータス コードを返す URL をインデックスに登録しません。また、すでにインデックスに登録されている URL が 4xx ステータス コードを返すと、その URL はインデックスから削除されます。

Google が 4xx ステータス コードを返す URL から受信したコンテンツはすべて無視されます。

400 (bad request)

429 を除くすべての 4xx エラーは同じように扱われます。Google クローラーは、コンテンツが存在しないことを次の処理システムに知らせます。

Google 検索の場合、URL が以前インデックスに登録されていた場合は、インデックス登録パイプラインによってインデックスから削除されます。新たに検出された 404 ページは処理されません。 クロール頻度は徐々に低下します。

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Google のクローラーは、429 ステータス コードをサーバーが過負荷状態であることを示すシグナルとして扱います。これはサーバーエラーとみなされます。

5xx (server errors)

5xx および 429 のサーバーエラーは、Google のクローラに対して一時的にクロールのペースを落とすように促します。Google 検索の場合、すでにインデックスに登録されている URL はインデックスに保持されますが、最終的には削除されます。

Google が 5xx ステータス コードを返す URL から受信したコンテンツはすべて無視されます。robots.txt ファイルについては、5xx ステータス コードを返す robots.txt を Google が処理する方法をご覧ください。

サーバーが 2xx ステータス コードを返すようになると、Google はサイトのクロール頻度を徐々に引き上げます。

500 (internal server error)

Google はサイトのクロール頻度を落とします。クロール頻度の低下は、サーバーエラーを返す個別の URL の数に比例します。Google 検索の場合、Google のインデックス登録パイプラインは、繰り返してサーバーエラーを返す URL をインデックスから削除します。

502 (bad gateway)
503 (service unavailable)