Guide des systèmes de classement dans la recherche Google

Google utilise des systèmes de classement automatisés qui analysent de nombreux facteurs et signaux concernant des centaines de milliards de pages Web et d'autres contenus dans notre index de recherche, pour présenter les résultats les plus utiles et les plus pertinents, le tout en une fraction de seconde.

Nous améliorons régulièrement ces systèmes grâce à des tests et évaluations rigoureux, et nous vous informons des mises à jour de nos systèmes de classement lorsque celles-ci peuvent être utiles aux créateurs de contenu ou autres.

Cette page vous aide à comprendre certains de nos systèmes de classement les plus importants. Elle couvre certains de nos systèmes de classement principaux, sur lesquels reposent les résultats de recherche renvoyés suite à des requêtes. Elle passe également en revue certains systèmes impliqués qui présentent des besoins de classement spécifiques.

Vous pouvez également consulter notre site Comment fonctionne la recherche Google pour comprendre comment nos systèmes de classement, associés à d'autres processus, interagissent les uns avec les autres pour que la recherche Google réponde à notre mission : organiser les informations à l'échelle mondiale dans le but de les rendre accessibles et utiles à tous.

BERT

BERT (Bidirectional Encoder Representations from Transformers) est un système d'IA que Google utilise. Il nous permet de comprendre comment les combinaisons de mots expriment des significations et des intentions différentes.

Systèmes d'information de crise

Google a développé des systèmes pour fournir des informations utiles et opportunes en période de crise, qu'il s'agisse de situations de crise personnelles ou à grande échelle, ou encore de catastrophes naturelles :

  • Crise personnelle : nos systèmes s'efforcent de comprendre à quel moment les internautes recherchent des informations sur une situation d'urgence personnelle. Cela permet de leur présenter des lignes directes et du contenu d'organismes de confiance pour des requêtes spécifiques liées au suicide, aux agressions sexuelles, à l'ingestion de poison, à la violence sexiste ou à la dépendance aux drogues. En savoir plus sur l'affichage des informations de crise personnelle dans la recherche Google
  • Alertes SOS : en cas de catastrophes naturelles ou de situations de crise à grande échelle, notre système d'alertes SOS s'efforce de présenter les informations fournies par les autorités locales, nationales ou internationales. Ces informations peuvent inclure des sites Web et des numéros de téléphone d'urgence, des cartes, des traductions d'expressions utiles, des appels aux dons et plus encore. Familiarisez-vous avec le fonctionnement des alertes SOS et découvrez comment ces alertes sont intégrées aux alertes de crise de Google en cas d'inondation, de feux de forêt, de séisme, d'ouragans et d'autres catastrophes.

Systèmes de déduplication

Les recherches sur Google peuvent générer des milliers, voire des millions de pages Web correspondantes. Certaines d'entre elles peuvent être très similaires. Dans ce cas, pour éviter les doublons, nos systèmes n'affichent que les résultats les plus pertinents. Découvrez comment fonctionne la déduplication et comment afficher les résultats omis, le cas échéant.

La déduplication s'applique également aux extraits optimisés. Si une fiche de page Web est mise en avant en tant qu'extrait optimisé, nous ne la répéterons pas ultérieurement sur la première page des résultats. Les résultats sont ainsi davantage épurés, et les internautes peuvent trouver plus facilement les informations pertinentes.

Système de domaine pour les mots clés exacts

Nos systèmes de classement considèrent les mots figurant dans les noms de domaine comme l'un des nombreux facteurs permettant de déterminer si un contenu correspond à une recherche. Cependant, notre système de domaine pour les mots clés exacts s'assure que nous n'accordons pas trop de crédit au contenu hébergé sur des domaines conçus pour correspondre exactement à des requêtes particulières. Par exemple, quelqu'un pourrait créer un nom de domaine contenant les mots "meilleures-brasseries" dans l'espoir que tous ces mots propulseront le contenu dans les classements. Notre système s'adapte en conséquence.

Systèmes garantissant la fraîcheur des résultats de recherche

Nous disposons de différents systèmes garantissant la fraîcheur des résultats de recherche. Ceux-ci permettent d'afficher les contenus les plus récents, là où cela est nécessaire. Par exemple, si un internaute effectue une recherche sur un film qui vient de sortir, il s'intéressera probablement plus à des avis récents qu'à des articles plus anciens datant du début de la production. Autre exemple : une recherche générale portant sur les séismes renvoie normalement des informations sur les étapes de préparation et les ressources nécessaires pour faire face à ce type d'incident. Toutefois, si un séisme a eu lieu récemment, des articles de presse et des contenus plus récents peuvent s'afficher.

Système de contenu utile

Notre système de contenu utile est conçu de sorte que les internautes puissent voir dans les résultats de recherche un contenu original et pertinent rédigé par des "gens comme tout le monde", plutôt que du contenu créé principalement pour générer du trafic vers un moteur de recherche.

Nous disposons de plusieurs systèmes qui identifient les liens entre les pages afin d'identifier ce sur quoi elles portent et d'identifier les pages les plus utiles en réponse à une requête. PageRank est l'un des principaux systèmes de classement utilisés par Google depuis son lancement. Pour en savoir plus, lisez l'étude sur PageRank et le brevet d'origine. Le fonctionnement de PageRank a beaucoup évolué depuis, et il continue d'être l'un de nos principaux systèmes de classement.

Systèmes d'actualités locales

Nous disposons de systèmes qui s'efforcent d'identifier et d'afficher les sources d'actualités locales chaque fois que cela est pertinent, par exemple via les fonctionnalités "À la une" et "Actualités locales".

MUM

MUM (Multitask Unified Model) est un système d'IA capable de comprendre et de générer un langage. Il n'est pas utilisé pour le classement général dans la recherche Google, mais plutôt pour certaines applications spécifiques, par exemple pour améliorer les recherches concernant les informations sur la vaccination contre la COVID-19 et pour améliorer les légendes des extraits optimisés.

Mise en correspondance neuronale

La mise en correspondance neuronale est un système d'IA que Google utilise pour comprendre les représentations de concepts dans les requêtes et les pages, et les mettre en correspondance.

Systèmes de contenu d'origine

Nous disposons de systèmes pour nous assurer que nous affichons de manière bien visible le contenu original dans les résultats de recherche, y compris les rapports originaux, avant le contenu de ceux qui ne font que répéter ce qui a déjà été dit. Cela inclut un balisage canonique spécial que les créateurs peuvent utiliser pour nous aider à mieux identifier la page principale si celle-ci a été dupliquée à plusieurs endroits.

Systèmes de rétrogradation avec suppression

Google a mis en place des règles qui autorisent la suppression de certains types de contenu. Si nous traitons un grand nombre de ces suppressions impliquant un site spécifique, nous nous servons de cela comme signal pour améliorer nos résultats. Par exemple :

  • Suppression de contenu pour des raisons juridiques : lorsque nous recevons un grand nombre de demandes valides de suppression pour atteinte aux droits d'auteur concernant un site donné, nous pouvons utiliser cela pour rétrograder d'autres contenus du site dans nos résultats. De cette façon, s'il y a d'autres contenus non conformes, les internautes sont moins susceptibles de les voir que le contenu original. Nous appliquons des signaux de rétrogradation similaires aux réclamations concernant les cas de diffamation, les articles de contrefaçon et les suppressions sur ordonnance du tribunal.
  • Suppression d'informations personnelles : si nous traitons un grand nombre de demandes de suppression d'informations personnelles concernant un site dont les pratiques en termes de suppression de contenu sont abusives, nous rétrogradons les autres contenus publiés sur le site dans nos résultats. Nous cherchons également à voir si le même type de comportement apparaît sur d'autres sites et, le cas échéant, nous rétrogradons le contenu qui y figure. Nous pouvons appliquer des pratiques de rétrogradation similaires pour les sites qui reçoivent un grand nombre de suppressions de doxxing. De plus, nous disposons de protections automatiques conçues pour empêcher les images personnelles explicites distribuées sans accord d'être classées dans les premiers résultats de recherche en réponse à une requête portant sur le nom d'une personne.

Système d'expérience sur la page

Les internautes préfèrent les sites qui offrent une excellente expérience sur la page. C'est pourquoi nous disposons d'un système d'expérience sur la page qui évalue divers critères, tels que la vitesse de chargement des pages, l'ergonomie mobile, la présence ou non d'interstitiels intrusifs, ainsi que la sécurisation de l'accès aux pages. Lorsque de nombreuses correspondances sont possibles avec un niveau de pertinence relativement égal, ce système permet de privilégier le contenu offrant une meilleure expérience sur la page.

Système de classement des passages

Le classement des passages est un système d'IA que nous utilisons pour identifier les sections ou "passages" individuels d'une page Web afin de mieux comprendre la pertinence d'une page par rapport à une recherche.

Système d'avis sur les produits

Le système d'avis sur les produits vise à récompenser plus justement les contenus de qualité, à savoir ceux qui reposent sur des données pertinentes et sur un réel travail de recherche effectué par des experts ou des passionnés qui maîtrisent le sujet.

RankBrain

RankBrain est un système d'IA qui nous aide à comprendre le lien entre les mots et les concepts. De la sorte, nous sommes plus aptes à renvoyer du contenu pertinent même s'il ne comporte pas tous les termes exacts utilisés dans une recherche, car nous avons pu identifier que le contenu est associé à d'autres mots et concepts.

Systèmes garantissant la fiabilité des informations

Plusieurs systèmes fonctionnent de différentes manières pour afficher les informations les plus fiables, par exemple pour mettre en avant les pages faisant autorité et rétrograder les contenus de basse qualité et pour promouvoir un journalisme de qualité. En l'absence d'informations fiables, nos systèmes affichent automatiquement des avis spécifiques pour indiquer les sujets qui changent rapidement ou signaler que la qualité globale des résultats disponibles pour la recherche n'est pas considérée comme fiable par nos systèmes. Vous bénéficiez également de conseils sur la manière d'effectuer des recherches afin d'obtenir des résultats plus utiles. Découvrez l'approche que nous adoptons pour fournir des informations de haute qualité dans la recherche Google.

Système assurant la diversité des sites

Le système assurant la diversité des sites s'assure que nous n'affichions pas plus de deux fiches Web provenant d'un même site dans nos premiers résultats. L'objectif est qu'aucun site ne domine les premiers résultats de recherche. Cependant, plus de deux fiches peuvent apparaître dans les cas où nos systèmes déterminent que cela est particulièrement pertinent pour une recherche spécifique. La diversité des sites considère généralement les sous-domaines comme faisant partie d'un domaine racine. Autrement dit, les fiches provenant d'un sous-domaine (sous-domaine.example.com) et du domaine racine (example.com) sont toutes considérées comme issues du même site. Toutefois, les sous-domaines sont parfois traités comme des sites distincts à des fins de diversité lorsque nos systèmes jugent que cela est plus pertinent.

Systèmes de détection de spam

Personne ne souhaite que sa boîte de réception soit remplie de spam, d'où l'utilité des filtres antispam. La recherche doit faire face à un défi similaire, car Internet implique une grande quantité de contenu indésirable qui, si nous ne faisons rien, nous empêchent d'afficher les résultats les plus utiles et les plus pertinents. Nous avons recours à divers systèmes de détection de spam, y compris SpamBrain, pour traiter les contenus et les comportements qui enfreignent nos règles concernant le spam. Ces systèmes sont constamment mis à jour pour s'adapter aux dernières évolutions du spam.

Systèmes obsolètes

Les systèmes ci-dessous sont répertoriés à titre de référence, mais ne sont plus utilisés. Ils ont été intégrés à des systèmes ultérieurs ou à nos systèmes de classement principaux.

Hummingbird

Ce système lancé en août 2013 s'est révélé être une amélioration majeure de nos systèmes de classement généraux. Nos systèmes de classement ont continué à évoluer depuis, comme cela été déjà le cas auparavant.

Système de classement adapté aux mobiles

Lorsque de nombreuses correspondances sont possibles avec une pertinence relativement égale, le système de classement adapté aux mobiles privilégiait le contenu qui s'affichait le mieux sur les appareils mobiles, car le contenu adapté aux mobiles est plus utile pour les personnes effectuant des recherches sur ce type d'appareil. Ce système a depuis été intégré à notre système d'expérience sur la page.

Système PageSpeed

Ce système, annoncé en 2018, s'appelait à l'origine "Speed Update". En cas de correspondances égales, les contenus se chargeant plus rapidement pour les mobinautes obtenaient de meilleurs résultats dans nos résultats de recherche pour mobile. Ce système fait depuis partie de notre système d'expérience sur la page.

Système Panda

Ce système était conçu pour garantir l'affichage de contenus de haute qualité et originaux dans nos résultats de recherche. Annoncé en 2011 et surnommé "panda", il a évolué et est devenu un élément essentiel de nos systèmes de classement en 2015.

Système Penguin

Ce système était conçu pour lutter contre le spam dans les liens. Annoncé en 2012 et surnommé "Penguin", il a été intégré à nos principaux systèmes de classement en 2016.

Système de sites sécurisés

Ce système a été annoncé en 2014. En cas de correspondances égales, les sites sécurisés à l'aide du protocole HTTPS obtenaient de meilleurs résultats dans nos systèmes de classement. Ce système a contribué à la croissance des sites sécurisés à une époque où l'utilisation du protocole HTTPS était encore assez rare. Il fait depuis partie de notre système d'expérience sur la page.