正規化とは何か

正規化とは、そのコンテンツを代表する正規 URL を選択するためのプロセスです。結果的に、重複するページの中で Google が最も代表的と考えるページの URL が正規 URL になります。重複除去とも呼ばれるこのプロセスにより、重複コンテンツの中でひとつのバージョンだけを検索結果に表示できるようになります。

1 つのサイトで重複コンテンツが発生する原因には、以下のようなさまざままものがあります。

  • 地域間の違い: たとえば、異なる URL からアクセスできる米国と英国向けのコンテンツがあるが、実質的に同じ言語の同じコンテンツである場合
  • デバイスの違い: たとえば、1 つのページにモバイル版と PC 版がある場合
  • プロトコルの違い: たとえば、1 つのサイトの HTTP バージョンと HTTPS バージョンがある場合
  • サイトの機能: たとえば、カテゴリページの並び替え機能やフィルタ機能で結果が生成される場合
  • 誤って発生したバージョン: たとえば、サイトのデモ版がクローラーがアクセスできる状態のまま残されてしまった場合

サイト上で重複コンテンツが生じることは通常のことであり、Google のスパムに関するポリシーの違反にはなりません。ただし、同一のコンテンツが多数の異なる URL からアクセスできるようになっていると、ユーザー エクスペリエンスの悪化につながる可能性があります。また、検索結果でのコンテンツのパフォーマンスを追跡することが困難になる可能性があります。

Google がインデックス登録で正規 URL を選択する方法

Google がページをインデックスに登録する際、各ページの主要コンテンツ(センターピース)が決定されます。同一であるように見える複数のページ、あるいはメインのコンテンツが非常に似た複数のページを Google が見つけた場合、インデックス登録プロセスが収集した要素(シグナル)に基づいて、検索ユーザーにとって最も完成度が高く有用であると客観的に判断されるページを選択し、そのページを正規としてマークします。正規ページは最も高い頻度で定期的にクロールされます。重複ページについては、Google がサイトをクロールする負荷を軽減するため、正規ページより低い頻度でクロールされます。

正規化で重要となる要素は多くありません。HTTP と HTTPS のどちらでページが提供されているか、リダイレクト、サイトマップ内での URL の有無、rel="canonical" link アノテーションがあります。これらの手法を使って Google に希望を伝えることはできますが、さまざまな理由から Google が別のページを正規として選択する場合もあります。つまり、正規化の希望を伝えることはできますが、確実なルールではありません。

あるページの異なる言語のバージョンは、メイン コンテンツが元の言語と同じである場合(つまり、ヘッダーやフッターなどの重要でないテキストのみが翻訳されていて、本文が翻訳されていない場合)にのみ、重複しているとみなされます。ローカライズされたサイトの設定について詳しくは、複数の言語、地域に対応したサイトの管理のドキュメントをご覧ください。

Google は、正規ページをメインのソースとして使用して、コンテンツと品質を評価します。Google 検索では、通常は正規ページが結果に表示されます。ただし、重複ページの中に、明らかに検索ユーザーのニーズにより適しているものがある場合は別です。たとえば、ユーザーがモバイル デバイスで検索した場合は、PC 向けのページが正規版としてマークされていても、モバイル向けのページが検索結果に表示される可能性が高くなります。

詳細については、正規 URL の希望を伝える方法と必要があるかどうかをご覧ください。