Google 検索ランキング システムのご紹介
Google は、多種多様な要素やシグナルを検討する自動ランキング システムを使用して、検索インデックスにある数千億のウェブページやその他のコンテンツから、最も関連性の高い、有益な結果が一瞬で表示されるようにしています。
これらのシステムは厳格なテストと評価により定期的に改善されており、コンテンツの制作者などにとって有益と思われる場合には、ランキング システムのアップデートの通知を行っています。
このページは、Google の重要なランキング システムについて理解を深めていただくためのガイドです。ここでは、検索クエリに対して検索結果を生成する基盤テクノロジーである、コア ランキング システムの一部をご紹介します。また、特定のランキング ニーズに関連するシステムについてもいくつか取り上げます。
「検索の仕組み」のサイトでは、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにするという使命を Google 検索が果たすために、Google のランキング システムが他のプロセスとどのよう連携して機能するかを理解できます。
BERT
Bidirectional Encoder Representations from Transformers(BERT)は、Google が使用する AI システムであり、単語の組み合わせによって多様な意味や意図がどのように表現されるかを理解できるようにするものです。
災害情報システム
Google は、個人の危機的状況、自然災害、その他の広範囲に及ぶ危機的状況など、あらゆる危機発生時に有用でタイムリーな情報を提供するシステムを開発してきました。
- 個人の危機: Google のシステムは、自殺、性的暴行、毒物摂取、ジェンダーに基づく暴力、薬物中毒などに関連する検索クエリが入力されると、ユーザーが個人の危機にかかわる情報を探していると判断し、ホットラインや信頼できる組織が提供するコンテンツを表示する仕組みになっています。詳しくは、Google 検索で個人の危機に関する情報がどのように表示されるかをご覧ください。
- SOS 緊急情報: 自然災害時や広範囲に影響が及ぶ危機的状況下では、SOS 緊急情報システムにより地方自治体、国家機関、国際機関からの最新情報が表示されます。この情報には、緊急電話番号やウェブサイト、地図、役に立つフレーズの翻訳、寄付の方法などがあります。SOS 緊急情報の仕組み、および、洪水、山火事、地震、ハリケーンなどの災害時に役立つ Google の災害情報アラートに、SOS 緊急情報がどのように組み込まれるかに関する詳細をご覧ください。
重複除去システム
Google で検索すると、数千、時には数百万の一致するウェブページが見つかることがあります。このページの中には、互いに非常に似通ったものがある可能性もあります。そのような場合には、最も関連性の高い結果のみが表示され、有益性の低い重複内容は除去されます。重複除去の仕組み、および、重複除去が発生した場合に必要に応じて除去された結果を確認する方法の詳細をご覧ください。
重複除去は強調スニペットでも発生します。 ウェブページの掲載情報が昇格して強調スニペットになった場合、検索結果の 1 ページ目でその掲載情報がそれ以降繰り返し表示されることはありません。これにより結果が整理され、ユーザーは関連情報を見つけやすくなります。
完全一致ドメイン システム
Google のランキング システムは、ドメイン名に含まれる単語を、コンテンツが検索に関連しているかどうかを判断するための多くの要素の一つとみなしています。とはいえ、コンテンツをホストするドメイン名が、特定の検索語句と完全一致することを意図して付けられている場合、完全一致ドメイン システムはそのドメインのコンテンツを過度に評価しないことになっています。たとえば、ドメイン名に含まれる単語によってランキングが上がるだろうと狙って、仮に「best-places-to-eat-lunch」という単語を含めた場合、調整が行われることになります。
フレッシュネス システム
Google は、検索クエリに対してより鮮度の高いコンテンツが期待される場合にそのようなコンテンツが上位に表示されるように、「検索クエリにふさわしい鮮度」を評価するさまざまなシステムを導入しています。たとえば、公開されたばかりの映画について検索されたら、おそらくクランクインの時期の記事ではなく最近のレビューを探していると判断します。別の例として、「地震」で検索された場合、平時であれば地震に対する備えや支援などに関する情報を返し、地震が発生して間もないころならニュース記事や鮮度の高いコンテンツを上位に掲載するように努めています。
リンク分析システムと PageRank
Google は、さまざまなシステムを導入してページ間の相互リンクを理解し、ページの内容と、検索クエリに対して最も有益な情報を提供するページを判断しています。その中でも PageRank は、Google がサービスを開始した当初から使用されているコア ランキング システムの一つです。興味のある方は、オリジナルの PageRank の研究論文および特許をご覧になり、詳細をご確認ください。PageRank の仕組みは当時から大きく進化しており、コア ランキング システムの一部として機能し続けています。
ローカル ニュース システム
Google は、「トップニュース」や「ローカル ニュース」などの機能を通じて、関連性の高い地域のニュース情報を特定して表示するためのシステムを導入しています。
MUM
Multitask Unified Model(MUM)は、言語の理解と生成の両方の機能を持つ AI システムです。今は検索のランキング全般には使用されていませんが、COVID-19(新型コロナウイルス感染症)ワクチン情報の検索の改善や、強調スニペットのコールアウト表示の改善など、特定の用途で使用されています。
ニューラル マッチング
ニューラル マッチングは、検索クエリやページで表現されるコンセプトを理解して、それらを相互に関連付けるために Google が使用する AI システムです。
オリジナル コンテンツ システム
Google には、独自のレポートなど、独自性の高いコンテンツが、単にそれを引用したものよりも検索結果で上位に表示されて、目立つようにするためのシステムがあります。その一つが特別な正規マークアップのサポートです。ページ制作者は、ページが数か所で複製されている場合にこのマークアップを使用することで、どれがオリジナルかを Google に明確に伝えられます。
削除ベースの降格システム
Google では、特定の種類のコンテンツを削除できるポリシーを設けています。特定のサイトに関連する削除通知が大量に処理されている場合はその状況もシグナルとして使用し、検索結果の改善に役立てます。具体的には以下のようなものです。
- 法律に基づく削除: 特定のサイトに関わる有効な著作権侵害による削除通知が大量に届いた場合、Google はその通知を根拠として、同じサイトの残りのコンテンツが検索結果に表示される順位を下げることができます。この処置により、著作権侵害にあたるコンテンツが他にある場合、元になるコンテンツより上位に表示される可能性は低くなります。Google では、名誉毀損、偽造品、裁判所による削除命令に関わる申し立てにも同様の降格シグナルを適用します。児童性的虐待のコンテンツ(CSAM)の場合は、そのようなコンテンツが確認されると必ず削除し、CSAM のコンテンツが多く含まれるサイトのすべてのコンテンツについて、検索結果に表示される順位を下げます。
- 個人情報の削除: 不当な削除方針を定めているサイトに関連して Google が個人情報の削除対応を大量に行った場合、同じサイトの他のコンテンツが検索結果に表示される順位が下がります。また、他のサイトでも同じ動作パターンが発生しているかどうかも確認され、そのようなパターンが発生しているサイトのコンテンツも掲載順位が下がります。晒し行為のコンテンツの削除リクエストや当人の合意なく作成された露骨な性的シナリオ・画像・動画の削除リクエストが大量に届くサイトにも、同様の降格措置が適用される場合があります。
パッセージ ランキング システム
パッセージ ランキング システムは、ウェブページの個々のセクション(パッセージ)を特定して、ページが検索にどの程度関連しているかをよりよく理解するために使用する AI システムです。
RankBrain
RankBrain は、単語がコンセプトにどのように関連しているかを理解するための AI システムです。コンテンツと他の単語やコンセプトとの関連を理解することで、検索に使われた単語がすべて正確に含まれていなくても、関連するコンテンツをより適切に表示できるようになります。
信頼できる情報システム
権威性の高いページを表示して質の低いコンテンツの順位を下げるシステムや、質の高いジャーナリズムの順位を上げるシステムなど、複数のシステムがさまざまな形で機能して、可能な限り最も信頼性の高い情報が表示されます。信頼性の高い情報が見つからない場合、あるいは、検索で得られる結果の全体的な質に関して高い信頼性を確保できない場合、急速に変化するトピックに関連したコンテンツに関する注意事項が自動的に表示されます。これは、有益な結果を導き出すための検索方法のヒントとして機能します。詳しくは、検索で質の高い情報を提供するための Google のアプローチをご覧ください。
レビュー システム
レビュー システムは、質の高いレビュー コンテンツを高く評価することを目的としています。質の高いレビュー コンテンツとは、洞察に満ちた分析結果や独自の調査情報を提供するコンテンツ、および特定のトピックについて深い知識を持つ専門家や愛好者が書いたコンテンツのことです。
サイト多様性システム
サイト多様性システムは、検索結果の上位に同じサイトから 2 つ以上のウェブページが表示されないようにして、1 つのサイトが上位の結果を独占しないようにするものです。ただし、特定の検索に対して特に関連性が高いとシステムにより判断された場合は 2 つ以上表示されることがあります。サイト多様性システムは通常、サブドメインをルートドメインの一部として処理します。つまり、サブドメイン(subdomain.example.com)とルートドメイン(example.com)から抽出したデータは、すべて単一の同じサイトからの情報とみなされます。ただし、関連性が高いと判断された場合、多様性を確保するためにサブドメインが別のサイトとして処理される場合もあります。
スパム検出システム
メールの受信トレイをスパムでいっぱいにしたい人はいません。ですから、有能な迷惑メールフィルタはありがたいものです。インターネットには大量のスパムが存在するため、検索も同様の問題に悩まされています。これに対処しなければ、最も有用で関連性の高い結果を表示することはまず無理です。Google は、スパムポリシーに違反するコンテンツや行為に対処するために、SpamBrain などのさまざまなスパム検出システムを導入しています。これらのシステムは継続的に更新されており、進化する最新のスパム手法に対応できるようになっています。
廃止されたシステム
以下のシステムは過去のシステムですが、記録目的で掲載しています。これらのシステムは後継のシステムの一部として組み込まれているか、コア ランキング システムの一部となっています。
ヘルプフル コンテンツ システム
「ヘルプフル コンテンツ アップデート」として 2022 年に発表されたこのシステムは、検索エンジンのトラフィックを集めることを主な目的として作成されたコンテンツではなく、人間が人間のために作成した、独自性の高い有用なコンテンツが検索結果に表示されるようにするために設計されたシステムでした。それが 2024 年 3 月に進化し、Google のコア ランキング システムの一部となりました。Google のシステムは、さまざまなシグナルとシステムを使用して、ユーザーに役立つ検索結果を提示しています。
Hummingbird
これは、2013 年 8 月にランキング システム全体に加えられた大幅な改善です。それ以降も、Google のランキング システムはこれまでと同様に進化し続けています。
Panda システム
これは、高品質で独自性の高いコンテンツが検索結果に確実に表示されるように設計されたシステムです。2011 年に発表されたこのシステムには「Panda」というニックネームが付けられましたが、開発が進み、2015 年には Google のコア ランキング システムの一部となりました。
Penguin システム
これは、リンクスパム対策のために設計されたシステムです。2012 年に発表されたこのシステムには「Penguin Update」というニックネームが付けられ、2016 年に Google のコア ランキング システムに組み込まれました。