Google の検索エンジンの仕組み、検索結果と掲載順位について

Google 検索は完全に自動化された検索エンジンです。「ウェブ クローラー」という種類のソフトウェアを使用して定期的にウェブを探索し、見つけたページを Google のインデックスに登録しています。Google 検索結果に表示されるページのほとんどは、手動でインデックス登録されたものではなく、ウェブクローラがウェブをクロールして見つけ、自動的に追加したものです。ここでは、ウェブサイトの所有者の目線で、Google 検索の仕組みについて説明します。このドキュメントで解説する基本的な知識があれば、クロールに関する問題を解決し、ページがインデックスに登録され、Google 検索結果にサイトが表示されるように最適化できます。

猫カフェの店長の佐賀須さんは、パソコンの前で困惑して眉をひそめています。彼は自分のウェブサイトで集客促進キャンペーンを行っていますが、実際に店に来る人は誰もいないようです。 アルバイトの三田さんは、何か手っ取り早い解決策はないかと考えていますが、簡単に解決できるとは思っていません。

開始するにあたっての注意事項

Google 検索の仕組みについて詳しく見ていく前に注意していただきたい点があります。それは、Google がサイトをクロールする頻度やサイトの掲載順位を上げたりするために金銭を受け取ることはない、ということです。これと反する内容を耳にしたとしても、それは事実ではありませんのでご注意ください。

ページが Google 検索の基本事項に準拠していても、ページがクロールされてインデックスに登録され、検索結果に表示される保証はありません。

Google 検索には 3 つのステージがあります(すべてのページが各ステージを通るわけではありません)。

  1. クロール: Google は、クローラーと呼ばれる自動プログラムを使用して、ウェブ上で見つけたページからテキスト、画像、動画をダウンロードします。
  2. インデックス登録: Google は、見つけたページ上のテキスト、画像、動画ファイルを解析し、その情報を Google インデックス(大規模なデータベース)に保存します。
  3. 検索結果の表示: ユーザーが Google で検索すると、Google はユーザーの検索語句に関連する情報を返します。

クロール

最初のステージは、ウェブにどのようなページが存在するかを把握することです。すべてのウェブページを含むデータベースが存在する訳ではないため、Google は新しいページや更新されたページを絶えず検出し、既知のページリストに加える必要があります。このプロセスを「URL 検出」と読んでいます。Google がすでにアクセスしたことのあるページは、既知のページとなります。新しいページは、既知のページからリンクをたどることで検出されます。たとえば、カテゴリページなどのハブページの新しいブログ投稿へのリンクなどです。また、Google によるクロールを希望するページのリスト(サイトマップ)を提出することで、検出されるページもあります。

突然出現した Googlebot くんは、ページが公開されたからといって、人々がそのページを検索結果で見つけられるわけではないことを説明します。Googlebot くんは、検索の仕組みには、クロール、インデックス登録、検索結果の提供の 3 つの段階があると紹介します。佐賀須さんはパニックに陥り、どうすれば確実に検索結果に表示されるようになるか質問します。Googlebot はウェブ全体で新しい情報を探しており、多くのホームページが世界中に存在しています。

Google がページの URL を検出すると、そのページにアクセス(クロール)して内容を確認します。Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページをクロールしています。この取得プログラムは Googlebot と呼ばれています(クローラー、ロボット、ボット、スパイダーとも呼ばれます)。Googlebot は、アルゴリズム処理を使用して、クロールするサイト、クロールする頻度、各サイトから取得するページ数を決定します。また、過負荷にならないように、Google のクローラーは、サイトのクロールが速くなりすぎないようにプログラムされています。このメカニズムは、サイトの応答(たとえば、HTTP 500 エラーは「スローダウン」を意味する)に基づいています。

佐賀須さんは理解し始めました。それは、海で泳いで網を投げるようなものです。 Googlebot はインターネットの大海を泳ぎ回り、そこで新しいページを探しています。

ただし、Googlebot は検出したページをすべてクロールするわけではありません。一部のページはサイト所有者によってクロールが禁止されている場合がありますし、サイトにログインしないとアクセスできないページもあります。

Google はクロール中、ユーザーがアクセスしたページをブラウザがレンダリングするのと同じように、Chrome の最新版を使用してページをレンダリングし、検出した JavaScript を実行します。ウェブサイトはコンテンツをページに表示するために JavaScript を使用することが多く、レンダリングを行わないと Google はそのコンテンツを確認できないため、レンダリングは非常に重要です。

佐賀須さんは、Googlebot がどのようにしてホームページを見つけてクロールするのか質問しています。
パスワードまたはその他のログイン保護でアクセスできないホームページが現れると、Googlebot はそれ以上調べることができません。

クロールの対象になるかどうかは、Google のクローラーがサイトにアクセスできるかどうかによって決まります。Googlebot のサイトアクセスに関する一般的な問題には、次のようなものがあります。

インデックス登録

ページがクロールされると、Google はそのページの内容を把握しようとします。このステージはインデックス登録と呼ばれ、<title> 要素や alt 属性など、テキスト コンテンツや主要なコンテンツのタグや属性、そして画像動画などを処理して分析する作業が含まれます。

次にインデックスの話です。Googlebot くんは、同様のコンテンツが複数存在する場合に、クラスター化してインデックスに登録すると説明しています。佐賀須さんは、Googlebot がホームページをインデックスに登録していないのは、Googlebot が犬好きのためなのだろうかと疑っています。 Googlebot くんは、そうではないことをすぐに説明します。 一般的にインデックス登録は保証されていないのです。

インデックス登録を行う際、Google はページがウェブ上の別のページの重複ページであるか、または正規ページであるかを判断します。正規ページは、検索結果に表示される可能性のあるページです。正規ページを選択するには、まず、インターネット上で見つけた同様のコンテンツを含むページをグループ化し(クラスタリングとも呼ばれます)、次にそのグループを代表するページを選択します(正規化)。グループ内の他のページは、ユーザーがモバイル デバイスから検索している場合や、グループ内の特定のページを探している場合など、異なるコンテキストで表示される可能性のある代替バージョンとして判断されます。

また、Google は正規ページとそのコンテンツに関するシグナルも収集します。こうした情報は、Google が検索結果にページを表示する次のステージで使用されます。シグナルの例としては、ページの言語、コンテンツの配信元の国、ページの使いやすさなどが挙げられます。

正規ページとそのグループについて収集された情報は、Google インデックスに保存されます。Google インデックスは、何千台ものコンピュータでホストされている大規模なデータベースです。ただし、インデックス登録は保証されているわけではなく、Google が処理するページのすべてがインデックスに登録されるとは限りません。

Googlebot くんは、ホームページがインデックスに登録されない理由として、低品質コンテンツ、ページをブロックするメタ タグの実装、またはインデックス登録を困難するようなデザインと説明しています。佐賀須さんは自分のウェブサイトがインデックスに登録されないかも、と不安になっています。

インデックスに登録されるかどうかは、ページのコンテンツとメタデータによっても左右されます。インデックス登録に関する一般的な問題としては、次のようなものがあります。

検索結果への表示

ユーザーが検索語句を入力すると、インデックスで一致するページが検索され、関連性が高く高品質であると判断された検索結果が返されます。関連性は、ユーザーの所在地、言語、デバイス(パソコンまたはスマートフォン)などの情報を含め、数多くの要素によって決まります。たとえば「自転車修理店」を検索した場合、パリのユーザーと香港のユーザーには異なる検索結果が表示されます。

ユーザーの検索語句によって検索結果ページに表示される検索結果の機能も変化します。たとえば、「自転車修理店」を検索すると、高い確率でローカル検索結果が表示され、画像検索結果は表示されません。ただし、「最新の自転車」を検索すると、ローカル検索結果は表示されずに画像検索結果が表示される可能性が高くなります。視覚要素ギャラリーで Google ウェブ検索の最も一般的な UI 要素をご確認いただけます。

Googlebot がページをクロールでき、ページがインデックスに登録されているので佐賀須さんはもう安心しているようですが、、本当にもうユーザーはそのページを Google 検索で見つけられるのでしょうか?。それは、ユーザーがどこから検索しているか、どの言語を使用しているかなど、さまざまな要因によって異なります。

ページがインデックスに登録されていることが Search Console に表示されているにもかかわらず、検索結果にそのページが表示されない場合があります。その場合、以下のような原因が考えられます。

Googlebot くんは、ページがユーザーに関連していないか、メタ タグによって妨げられているために、ページが検索結果に表示されない場合があると説明しています。 Google が猫カフェのページをクロールしようとするのを、佐賀須さんは不安げに見守っています。 数週間後、ついにホームページの紹介を見た初めてのお客さんが猫カフェにいらっしゃいました。

このガイドでは Google 検索の仕組みについて説明していますが、Google では常にアルゴリズムの改善に努めています。改善内容については、Google 検索セントラル ブログをフォローして、随時情報をご確認ください。