コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Google 検索の仕組みに関する詳細ガイド

Google 検索は完全に自動化された検索エンジンです。「ウェブクローラ」という種類のソフトウェアを使用して定期的にウェブを探索し、見つかったページを Google のインデックスに登録しています。Google 検索結果に表示されるページのほとんどは、手動で登録されたものではなく、ウェブクローラがウェブをクロールして見つけ、自動的に追加したものです。このドキュメントでは、ウェブサイトの所有者の目線で、Google 検索の仕組みについて説明します。このドキュメントで解説する基本的な知識があれば、クロールに関する問題を解決してページをインデックスに登録し、Google 検索でのサイトの表示方法を最適化できます。

開始するにあたっての注意事項

Google 検索の仕組みについて詳しく見ていく前に注意していただきたい点があります。それは、Google がサイトをより頻繁にクロールしたり、サイトの掲載順位を上げたりするために支払いを受けることはない、ということです。これと反する内容を耳にしたとしても、それは事実ではありませんのでご注意ください。

ページがサイト所有者向けの Google のガイドラインとポリシーに準拠している場合でも、そのページがクロール、インデックス登録、または配信される保証はありません。

Google 検索には 3 つのステージがあります(すべてのページが各ステージを完了できるわけではありません)。

  1. クロール: Google は、クローラと呼ばれる自動プログラムを使用して、インターネット上で見つかったページからテキスト、画像、動画をダウンロードします。
  2. インデックス登録: Google は、ページ上のテキスト、画像、動画ファイルを解析し、その情報を Google インデックス(大規模なデータベース)に保存します。
  3. 検索結果の表示: ユーザーが Google で検索すると、Google はユーザーの検索語句に関連する情報を返します。

クロール

1 つ目のステージは、ウェブにどのようなページが存在するかを把握することです。すべてのウェブページを 1 か所に登録するところはないため、Google は新しいページや更新されたページを絶えず探し、既知のページのリストに加える必要があります。このプロセスは「URL の検出」と呼ばれます。Google がすでにアクセスしたことのあるページは、既知のページとなります。新しいページは、既知のページからリンクをたどることで検出されます。たとえば、カテゴリページなどのハブページからリンクをたどって新しいブログ投稿が検出されることがあります。また、Google によるクロールを希望するページのリスト(サイトマップ)を提出することで、検出されるページもあります。

Google は、ページの URL を検出すると、そのページにアクセス(クロール)して内容を確認します。Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページをクロールします。取得プログラムは Googlebot と呼ばれ、ロボットやボット、スパイダーとも呼ばれます。Googlebot は、アルゴリズム処理を使用して、クロールするサイト、クロールする頻度、各サイトから取得するページ数を決定します。また、過負荷を避けるため、Google のクローラはサイトのクロールが速くなりすぎないようにプログラムされています。このメカニズムは、サイトの応答(たとえば、HTTP 500 エラーは「スローダウン」を意味する)と Search Console の設定に基づいています。

ただし、Googlebot は検出したページをすべてクロールするわけではありません。一部のページはサイト所有者によってクロールが禁止されており、その他にもサイトにログインせずにアクセスできるページや、以前にクロールされたページと重複するページが存在する可能性があります。たとえば、多くのサイトは www あり(www.example.com)と www なし(example.com)の両方のバージョンでコンテンツが同一であっても、両方のバージョンのドメイン名でアクセスできます。

Google はクロール中、ユーザーがブラウザでページにアクセスしてレンダリングする方法と同じように、Chrome の最新版を使用してページをレンダリングし、検出された JavaScript を実行します。ウェブサイトはコンテンツをページに表示するために JavaScript に依存することが多く、レンダリングを行わないと Google はそのコンテンツを把握できないことがあるため、レンダリングすることは非常に重要です。

クロールを行うか否かは、Google のクローラがサイトにアクセスできるかどうかによって決まります。Googlebot のサイトアクセスに関する一般的な問題には、次のようなものがあります。

インデックス登録

ページがクロールされると、Google はそのページの内容を把握しようとします。このステージはインデックス登録と呼ばれ、インデックス登録には、<title> 要素や alt 属性など、テキスト コンテンツや主要なコンテンツのタグや属性、そして画像動画などを処理および分析する作業が含まれます。

インデックス登録を行う際、Google はページがインターネット上の別のページの重複ページであるか、または正規ページであるかを判断します。正規ページは、検索結果に表示されるページを意味します。正規ページを選択する際には、まず、同様のコンテンツを含むページをインターネット上で見つけてそれらをグループ化し、次にそのグループを代表するページを選択します。グループ内の他のページは、ユーザーがモバイル デバイスから検索している場合や、グループから特定のページを探している場合など、異なるコンテキストで提供される可能性のある代替バージョンとして判断されます。

また、Google は正規ページとそのコンテンツに関するシグナルも収集します。こうした情報は、Google が検索結果にページを表示する次のステージで使用できます。シグナルの例としては、ページの言語、コンテンツの配信元の国、ページの使いやすさなどが挙げられます。

正規ページとそのグループについて収集された情報は、Google インデックスに保存されます。Google インデックスは、何千台ものコンピュータでホストされている大規模なデータベースです。インデックス登録が保証されることはなく、Google が処理するすべてのページがインデックスに登録されるわけではありません。

インデックス登録が行われるか否かも、ページのコンテンツとメタデータによって決定されます。インデックス登録に関する一般的な問題としては、次のようなものがあります。

検索結果の提供

ユーザーが検索クエリを入力すると、インデックスで一致するページが検索され、関連性が高く高品質であると判断された検索結果が返されます。関連性は、ユーザーの所在地、言語、デバイス(パソコンまたはスマートフォン)などの情報を含め、数多くの要素によって決まります。たとえば「自転車修理店」を検索する場合、パリのユーザーと、香港のユーザーには異なる検索結果が表示されます。

Search Console にページがインデックスに登録されていると表示されているにもかかわらず、検索結果には表示されない場合があります。このような状況の場合、以下のような原因が考えられます。

このガイドでは Google 検索の仕組みについて説明しますが、Google では常にアルゴリズムの改善に努めています。それらの改善については、Google 検索セントラル ブログをフォローして、随時情報をご確認ください。