Guide des systèmes de classement dans la recherche Google

Google utilise des systèmes de classement automatisés qui analysent de nombreux facteurs et signaux concernant des centaines de milliards de pages Web et d'autres contenus dans notre index de recherche, pour présenter les résultats les plus utiles et les plus pertinents, le tout en une fraction de seconde. Cette page vous aide à comprendre certains de nos systèmes de classement les plus importants. Elle couvre certains de nos systèmes de classement principaux, qui constituent la base technologique sur laquelle reposent les résultats de recherche renvoyés suite aux requêtes. Elle passe également en revue certains systèmes que nous utilisons pour répondre à des besoins de classement spécifiques.

Nos systèmes de classement sont conçus pour fonctionner au niveau de la page. Ils utilisent divers signaux et systèmes pour comprendre comment classer des pages individuelles. Des signaux et classificateurs à l'échelle du site sont également utilisés et contribuent à notre compréhension des pages. La présence de signaux positifs sur l'ensemble du site ne signifie pas que tout le contenu d'un site sera toujours bien classé, tout comme la présence de signaux négatifs sur l'ensemble du site ne signifie pas que tout son contenu sera mal classé.

Nous améliorons régulièrement ces systèmes grâce à des tests et évaluations rigoureux, et nous vous informons des mises à jour de nos systèmes de classement lorsque celles-ci peuvent être utiles aux créateurs de contenu ou autres.

Vous pouvez également consulter notre site Comment fonctionne la recherche Google pour comprendre comment nos systèmes de classement, associés à d'autres processus, interagissent les uns avec les autres pour que la recherche Google réponde à notre mission : organiser les informations à l'échelle mondiale dans le but de les rendre accessibles et utiles à tous.

BERT

BERT (Bidirectional Encoder Representations from Transformers) est un système d'IA que Google utilise pour comprendre comment les combinaisons de mots expriment des significations et des intentions différentes.

Systèmes d'information de crise

Google a développé des systèmes pour fournir des informations utiles et opportunes en période de crise, qu'il s'agisse de situations de crise personnelles ou à grande échelle, ou encore de catastrophes naturelles :

  • Crise personnelle : nos systèmes s'efforcent de comprendre à quel moment les internautes recherchent des informations sur une situation d'urgence personnelle. Cela permet de leur présenter des lignes d'assistance téléphonique et du contenu provenant d'organismes de confiance pour des requêtes spécifiques liées au suicide, aux agressions sexuelles, à l'ingestion de poison, à la violence sexiste ou à la dépendance aux drogues. En savoir plus sur l'affichage des informations de crise personnelle dans la recherche Google
  • Alertes SOS : en cas de catastrophes naturelles ou de situations de crise à grande échelle, notre système d'alertes SOS s'efforce de présenter les informations fournies par les autorités locales, nationales ou internationales. Ces informations peuvent inclure des sites Web et des numéros de téléphone d'urgence, des cartes, des traductions d'expressions utiles, des appels aux dons et plus encore. Familiarisez-vous avec le fonctionnement des alertes SOS et découvrez comment ces alertes sont intégrées aux alertes de crise de Google en cas d'inondation, de feux de forêt, de séisme, d'ouragans et d'autres catastrophes.

Systèmes de déduplication

Les recherches sur Google peuvent générer des milliers, voire des millions de pages Web correspondantes. Certaines d'entre elles peuvent être très similaires. Dans ce cas, pour éviter les doublons, nos systèmes n'affichent que les résultats les plus pertinents. Découvrez comment fonctionne la déduplication et comment afficher les résultats omis, le cas échéant.

La déduplication s'applique également aux extraits optimisés. Si une fiche de page Web est mise en avant en tant qu'extrait optimisé, nous ne la répéterons pas dans la suite de la première page de résultats. Les résultats sont ainsi davantage épurés, et les internautes peuvent trouver plus facilement les informations pertinentes.

Système de domaine pour les mots clés exacts

Nos systèmes de classement considèrent les mots figurant dans les noms de domaine comme l'un des nombreux facteurs permettant de déterminer si un contenu correspond à une recherche. Cependant, notre système de domaine pour les mots clés exacts s'assure que nous n'accordons pas trop de crédit au contenu hébergé sur des domaines conçus pour correspondre exactement à des requêtes particulières. Par exemple, quelqu'un pourrait créer un nom de domaine contenant les mots "meilleures-brasseries" dans l'espoir que tous ces mots propulseront le contenu au sommet des classements. Notre système s'adapte en conséquence.

Systèmes garantissant la fraîcheur des résultats de recherche

Nous disposons de différents systèmes garantissant la fraîcheur des résultats de recherche. Ceux-ci permettent d'afficher les contenus les plus récents, là où cela est nécessaire. Par exemple, si un internaute effectue une recherche sur un film qui vient de sortir, il s'intéressera probablement plus à des avis récents qu'à des articles plus anciens datant du début de la production. Autre exemple : une recherche générale portant sur les séismes renvoie normalement des informations sur les étapes de préparation et les ressources nécessaires pour faire face à ce type d'incident. Toutefois, si un séisme a eu lieu récemment, des articles de presse et des contenus plus récents peuvent s'afficher.

Nous disposons de plusieurs systèmes qui identifient les liens entre les pages afin d'identifier ce sur quoi elles portent et d'identifier les pages les plus utiles en réponse à une requête. PageRank est l'un des principaux systèmes de classement utilisés par Google depuis son lancement. Pour en savoir plus, lisez l'étude sur PageRank et le brevet d'origine. Le fonctionnement de PageRank a beaucoup évolué depuis, et il continue d'être l'un de nos principaux systèmes de classement.

Systèmes d'actualités locales

Nous disposons de systèmes qui s'efforcent d'identifier et d'afficher les sources d'actualités locales chaque fois que cela est pertinent, par exemple via les fonctionnalités "À la une" et "Actualités locales".

MUM

MUM (Multitask Unified Model) est un système d'IA capable de comprendre et de générer du langage. Il n'est pas utilisé pour le classement général dans la recherche Google, mais pour certaines applications spécifiques, comme pour améliorer les recherches concernant les informations sur la vaccination contre la COVID-19 et pour améliorer les légendes des extraits optimisés.

Mise en correspondance neuronale

La mise en correspondance neuronale est un système d'IA que Google utilise pour comprendre les représentations de concepts dans les requêtes et les pages, et les mettre en correspondance.

Systèmes de contenu original

Nous disposons de systèmes pour nous assurer que nous affichons de manière bien visible le contenu original dans les résultats de recherche, y compris les reportages originaux, avant le contenu de ceux qui ne font que répéter ce qui a déjà été dit. Cela inclut un balisage canonique spécial que les créateurs peuvent utiliser pour nous aider à mieux identifier la page principale si celle-ci a été dupliquée à plusieurs endroits.

Systèmes de rétrogradation avec suppression

Google a mis en place des règles qui autorisent la suppression de certains types de contenu. Si nous traitons un grand nombre de ces suppressions impliquant un site spécifique, nous nous servons de cela comme signal pour améliorer nos résultats. En particulier :

  • Suppression de contenu pour des raisons juridiques : Lorsque nous recevons un grand nombre de demandes valides de suppression pour atteinte aux droits d'auteur concernant un site donné, nous pouvons utiliser cela pour rétrograder d'autres contenus du site dans nos résultats. De cette façon, s'il y a d'autres contenus non conformes, les internautes sont moins susceptibles de les voir que le contenu original. Nous appliquons des signaux de rétrogradation similaires aux réclamations concernant les cas de diffamation, les articles de contrefaçon et les suppressions sur ordonnance du tribunal. Dans le cas de contenus d'abus sexuels sur mineurs, nous supprimons tout contenu de ce type lorsqu'il est identifié et nous rétrogradons tous les contenus des sites qui présentent une proportion élevée de contenus de ce type.
  • Suppression d'informations personnelles : Si nous traitons un grand nombre de suppressions d'informations personnes impliquant un site ayant des pratiques de suppression abusives, nous rétrogradons d'autres contenus de ce site dans nos résultats. Nous cherchons également à voir si le même type de comportement apparaît sur d'autres sites et, le cas échéant, nous rétrogradons le contenu qui y figure. Nous pouvons appliquer des pratiques de rétrogradation similaires pour les sites qui font l'objet d'un grand nombre de suppressions de contenus impliquant du doxxing, des images personnelles explicites créées ou partagées sans autorisation ou des contenus fictifs explicites non consentis.

Système de classement des passages

Le classement des passages est un système d'IA que nous utilisons pour identifier les sections ou "passages" individuels d'une page Web afin de mieux comprendre la pertinence d'une page par rapport à une recherche.

RankBrain

RankBrain est un système d'IA qui nous aide à comprendre le lien entre les mots et les concepts. De la sorte, nous sommes plus aptes à renvoyer du contenu pertinent même s'il ne comporte pas tous les termes exacts utilisés dans une recherche, car nous avons pu identifier que le contenu est associé à d'autres mots et concepts.

Systèmes garantissant la fiabilité des informations

Plusieurs systèmes fonctionnent de différentes manières pour afficher les informations les plus fiables, par exemple pour mettre en avant les pages faisant autorité et rétrograder les contenus de basse qualité et pour promouvoir un journalisme de qualité. En l'absence d'informations fiables, nos systèmes affichent automatiquement des renseignements sur le contenu pour signaler les sujets qui changent rapidement ou indiquer que la qualité globale des résultats disponibles pour la recherche n'est pas considérée comme fiable par nos systèmes. Vous bénéficiez également de conseils sur la manière d'effectuer des recherches afin d'obtenir des résultats plus utiles. Découvrez l'approche que nous adoptons pour fournir des informations de haute qualité dans la recherche Google.

Système d'avis

Le système d'avis vise à récompenser plus justement les avis de qualité, c'est-à-dire les contenus qui reposent sur des données pertinentes et sur un réel travail de recherche effectué par des experts ou des passionnés qui maîtrisent le sujet.

Système assurant la diversité des sites

Le système assurant la diversité des sites s'assure que nous n'affichions pas plus de deux fiches Web provenant d'un même site dans nos premiers résultats. L'objectif est qu'aucun site ne domine les premiers résultats de recherche. Cependant, plus de deux fiches peuvent apparaître dans les cas où nos systèmes déterminent que cela est particulièrement pertinent pour une recherche spécifique. La diversité des sites considère généralement les sous-domaines comme faisant partie d'un domaine racine. Autrement dit, les fiches provenant d'un sous-domaine (sous-domaine.example.com) et du domaine racine (example.com) sont toutes considérées comme issues du même site. Toutefois, les sous-domaines sont parfois traités comme des sites distincts à des fins de diversité lorsque nos systèmes jugent que cela est plus pertinent.

Systèmes de détection de spam

Personne ne souhaite que sa boîte de réception soit remplie de spam, d'où l'utilité des filtres antispam. La recherche doit faire face à un défi similaire, car Internet comporte une grande quantité de contenu indésirable qui, si nous ne faisons rien, nous empêche d'afficher les résultats les plus utiles et les plus pertinents. Nous avons recours à divers systèmes de détection de spam, y compris SpamBrain, pour traiter les contenus et les comportements qui enfreignent nos Règles concernant le spam. Ces systèmes sont constamment mis à jour pour s'adapter aux dernières évolutions des pratiques de spam.

Systèmes obsolètes

Les systèmes suivants sont indiqués à titre de référence, mais ne sont plus utilisés. Ils ont été intégrés à des systèmes ultérieurs ou à nos systèmes de classement principaux.

Système de contenu utile

Annoncé en 2022 sous le nom de "Mise à jour Helpful Content (utilité du contenu)", ce système était conçu pour s'assurer que les internautes voient dans les résultats de recherche un contenu original rédigé par des humains et pour des humains, plutôt que du contenu créé principalement pour générer du trafic sur un moteur de recherche. En mars 2024, il a évolué et fait maintenant partie de nos principaux systèmes de classement, car nos systèmes utilisent divers signaux et systèmes pour présenter des résultats utiles aux utilisateurs.

Hummingbird

Lancé en août 2013, ce système constituait une amélioration majeure de nos systèmes de classement généraux. Nos systèmes de classement ont continué à évoluer depuis, comme ils évoluaient déjà auparavant.

Système Panda

Ce système était conçu pour garantir l'affichage de contenus de haute qualité et originaux dans nos résultats de recherche. Annoncé en 2011 et surnommé "panda", il a évolué et s'est intégré à nos systèmes de classement principaux en 2015.

Système Penguin

Ce système était conçu pour lutter contre le spam dans les liens. Annoncé en 2012 et surnommé "Penguin", il a été intégré à nos systèmes de classement principaux en 2016.