Choix de l'URL canonique pour les pages en double et utilisation de la balise canonique
Si l'une des pages de votre site est accessible via plusieurs URL, ou si différentes pages de votre site présentent un contenu similaire (par exemple, une page avec une version mobile et une version classique), Google les considère comme des versions en double de la même page. Google choisira une URL comme version canonique et c'est celle-ci qui sera explorée. Toutes les autres URL seront considérées comme des URL en double et explorées moins souvent.
Si vous n'indiquez pas explicitement à Google quelle est l'URL canonique, Google choisira la page canonique à votre place. Il pourrait aussi à tort considérer que toutes les pages similaires sont des doublons d'une même page, ce qui pourrait entraîner un comportement indésirable, comme expliqué dans la section Pourquoi choisir une URL canonique.
Ce document explique le choix de l'URL canonique dans la recherche Google, dans quels cas vous devez spécifier une URL canonique et comment indiquer votre préférence à Google.
Qu'est-ce qu'une URL canonique ?
Une URL canonique est l'URL de la page considérée par Google comme la plus représentative de l'ensemble de pages dupliquées sur votre site. Si vous avez plusieurs URL pour une même page (example.com?dress=1234
et example.com/dresses/1234
), Google en choisit une comme URL canonique.
Les pages ne doivent pas nécessairement être absolument identiques. Les modifications mineures au niveau du tri ou du filtrage des pages de type liste ne suffisent pas à rendre ces pages uniques (tri par prix ou filtrage par couleur, par exemple). L'URL canonique peut se trouver sur un domaine différent de celui de l'URL en double.
Comment Google indexe et sélectionne l'URL canonique
Lorsque Google indexe un site, il essaie de déterminer le contenu principal de chaque page. S'il trouve plusieurs pages d'un même site qui sont semblables, il choisit celle qui lui paraît la plus complète et utile, et la définit comme page canonique. La page canonique est explorée plus régulièrement. Les pages en double sont analysées moins souvent afin de réduire la charge d'exploration sur votre site.
Google choisit la page canonique en fonction d'un certain nombre de facteurs (ou signaux), à savoir : si la page est diffusée ou non via le protocole HTTP ou HTTPS, la qualité de la page, la présence de l'URL dans un sitemap, et tout attribut rel=canonical
. Vous pouvez utiliser ces techniques pour indiquer votre préférence à Google, mais Google peut choisir une autre page canonique pour diverses raisons.
Les différentes versions linguistiques d'une même page ne sont considérées comme des doublons que si le contenu principal est dans la même langue. En d'autres termes, si seuls l'en-tête, le pied de page et tout autre texte secondaire sont traduits, mais que le corps du texte reste le même, ces pages sont considérées comme des doublons.
Google utilise les pages canoniques comme sources principales pour évaluer le contenu et la qualité. Le résultat de recherche Google redirige généralement vers la page canonique, sauf si l'un des doublons répond plus précisément à la requête d'un utilisateur. Par exemple, le résultat de recherche redirigera probablement vers la page mobile si l'internaute utilise un appareil mobile, même si la page canonique est la page pour ordinateur.
Pourquoi avoir des pages similaires ou en double
Vous pouvez avoir des raisons légitimes qui expliquent que votre site possède plusieurs URL dirigeant vers la même page, ou des pages en double ou très similaires présentant des URL différentes. Voici les raisons les plus courantes :
- Pour assurer la compatibilité avec plusieurs types d'appareils :
https://example.com/news/koala-rampage https://m.example.com/news/koala-rampage https://amp.example.com/news/koala-rampage
- Pour créer des URL dynamiques pour des éléments comme les paramètres de tri et de recherche ou les identifiants de session :
https://www.example.com/products?category=dresses&color=green https://example.com/dresses/cocktail?gclid=ABCD https://www.example.com/dresses/green/greendress.html
- Si votre système de blog enregistre automatiquement plusieurs URL lorsque vous placez le même article dans plusieurs rubriques :
https://blog.example.com/dresses/green-dresses-are-awesome/ https://blog.example.com/green-things/green-dresses-are-awesome/
-
Si votre serveur est configuré pour diffuser le même contenu pour les variantes www/non-www, HTTP/HTTPS et des ports de protocoles :
https://example.com/green-dresses https://example.com/green-dresses https://www.example.com/green-dresses https://example.com:80/green-dresses https://example.com:443/green-dresses
- Si le contenu de votre blog destiné à la syndication sur d'autres sites est reproduit partiellement ou intégralement sur ces domaines :
https://news.example.com/green-dresses-for-every-day-155672.html
(article syndiqué)https://blog.example.com/dresses/green-dresses-are-awesome/3245/
(article original)
Pourquoi choisir une URL canonique
Il est utile de choisir explicitement une page canonique parmi un ensemble de pages en double ou similaires pour plusieurs raisons :
-
Pour définir l'URL que vous souhaitez voir affichée dans les résultats de recherche. Vous préférez peut-être que les internautes accèdent à votre page produit présentant vos robes vertes via
https://www.example.com/dresses/green/greendress.html
plutôt que viahttps://example.com/dresses/cocktail?gclid=ABCD
. -
Pour regrouper des indicateurs de liens pour les pages similaires ou en double. Cela permet aux moteurs de recherche de regrouper les informations dont ils disposent concernant les URL individuelles (comme les liens vers ces dernières) en une seule URL favorite. Cela signifie que les liens d'autres sites qui redirigent vers
https://example.com/dresses/cocktail?gclid=ABCD
sont regroupés avec les liens vershttps://www.example.com/dresses/green/greendress.html
. - Pour simplifier le suivi des statistiques d'un seul produit/sujet. Avec différentes URL, il est plus difficile d'obtenir des données regroupées pour un contenu spécifique.
- Pour gérer le contenu syndiqué. Si vous syndiquez votre contenu pour le publier sur d'autres domaines, assurez-vous que votre URL préférée apparaît dans les résultats de recherche.
- Pour éviter de perdre du temps à explorer des pages en double. Pour que Googlebot exploite au mieux votre site, il est préférable de passer du temps à explorer les nouvelles pages (ou les pages mises à jour) de votre site, plutôt que d'explorer les versions classique et mobile des mêmes pages.
Identifier la page considérée comme canonique par Google
Utilisez l'outil d'inspection d'URL pour découvrir la page que Google considère comme étant canonique. Même si vous désignez explicitement une page canonique, il se peut que Google choisisse une autre page comme page canonique, pour diverses raisons, comme les performances ou le contenu.
Définir une page canonique
Pour spécifier une URL canonique pour des URLs en double ou similaires, optez pour l'une des méthodes suivantes. Nous vous encourageons à utiliser l'une de ces méthodes, mais aucune d'entre elles n'est obligatoire. Si vous n'indiquez aucune URL canonique, nous désignerons celle que nous pensons être la meilleure version ou URL. Veillez à respecter les consignes générales.
Méthode et description | |||
---|---|---|---|
Balise rel=canonical <link> |
Ajoutez une balise
|
||
En-tête HTTP rel=canonical |
Envoyez un en-tête
|
||
Sitemap |
Définissez vos pages canoniques dans un sitemap.
|
||
Redirection 301 |
Utilisez les redirections 301 pour indiquer à Googlebot qu'une URL de redirection constitue une meilleure version qu'une URL donnée. Utilisez cette méthode uniquement lorsque vous abandonnez une page en double. |
||
Variante AMP | Si l'une de vos variantes est une page AMP, vous devrez suivre les consignes AMP pour indiquer la page canonique et la variante AMP. |
Consignes générales
Quelle que soit la méthode de choix de l'URL canonique utilisée, suivez ces consignes générales.
- N'utilisez pas le fichier robots.txt pour la mise en forme canonique.
- N'utilisez pas l'outil de suppression d'URL pour le choix de l'URL canonique, car il supprime toutes les versions d'une URL de la recherche.
- Ne définissez pas différentes URL canoniques pour la même page, que vous utilisiez la même méthode ou non (par exemple, une URL dans un sitemap et une URL différente pour la même page avec l'attribut
rel="canonical"
). - N'utilisez pas la balise
noindex
, car elle empêche la sélection d'une page canonique. Cette règle s'applique à l'exclusion de la page d'un index, et non au choix d'une page canonique. -
Définissez une page canonique si vous utilisez des balises hreflang. Définissez une page canonique dans la même langue. S'il n'existe aucune page canonique dans la même langue, choisissez la meilleure langue de substitution possible.
-
Renvoyez les internautes vers une URL canonique plutôt que vers une URL dupliquée lorsque vous créez un lien sur votre site. Lorsque vous indiquez constamment l'URL que vous considérez comme canonique, Google comprend plus facilement votre préférence.
Préférer le HTTPS au HTTP pour les URL canoniques
Nous préférons définir une page HTTPS comme canonique plutôt que son équivalent HTTP, sauf en cas de problèmes ou d'indicateurs contradictoires. En voici quelques exemples :
- La page HTTPS dispose d'un certificat SSL incorrect.
- La page HTTPS contient des dépendances non sécurisées (autres que des images).
- La page HTTPS redirige les internautes vers ou via une page HTTP.
- La page HTTPS possède une balise
link
rel="canonical"
vers la page HTTP.
Bien que nos systèmes préfèrent les pages HTTPS aux pages HTTP par défaut, vous pouvez vous assurer de ce comportement en effectuant l'une des actions suivantes :
- Ajoutez des redirections sur la page HTTP vers la page HTTPS.
- Ajoutez une balise
link
rel="canonical"
sur la page HTTP vers la page HTTPS. - Mettez en œuvre le mécanisme HSTS.
Pour nous empêcher de définir à tort la page HTTP comme URL canonique, évitez les pratiques suivantes :
- Utiliser des certificats TLS/SSL et des redirections HTTPS vers HTTP incorrects, car ils nous incitent à privilégier le protocole HTTP. La mise en œuvre du mécanisme HSTS ne saurait se substituer à cette nette préférence.
- Inclure la page HTTP dans votre sitemap ou vos entrées "hreflang" plutôt que la version HTTPS.
- Mettre en œuvre votre certificat SSL/TLS pour le mauvais hôte en affichant, par exemple, le certificat de www.example.com sur example.com. Le certificat doit correspondre à l'URL complète de votre site. Vous pouvez également utiliser un certificat générique utilisable pour plusieurs sous-domaines d'un domaine.
Utiliser une balise link
rel="canonical"
Une balise link
rel="canonical"
(balise canonique) est utilisée dans la section <head> du code HTML pour indiquer qu'une page en chevauche une autre. Pour indiquer qu'une page est un doublon d'une autre page, vous pouvez utiliser une balise <link>
dans la section head
de votre code HTML.
Imaginons que vous souhaitiez faire de https://example.com/dresses/green-dresses
votre URL canonique, même si plusieurs URL permettent d'accéder à ce contenu. Suivez ces étapes pour indiquer que cette URL est canonique :
-
Marquez toutes les pages en double avec une balise link
rel="canonical"
.Ajoutez un élément
<
avec l'attributlink
>rel="canonical"
à la section<head>
des pages en double, redirigeant vers la page canonique. Exemple :<link rel="canonical" href="https://example.com/dresses/green-dresses" />
-
Si la page canonique possède une variante pour mobile, ajoutez-y une balise
link
rel="alternate"
qui redirige vers la version mobile de la page :<link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.example.com/dresses/green-dresses">
- Ajoutez des attributs hreflang ou d'autres redirections appropriées pour la page.
Utilisez des chemins d'accès absolus plutôt que relatifs avec la balise link
rel="canonical"
.
À faire :
https://www.example.com/dresses/green/greendress.html
À ne pas faire :
/dresses/green/greendress.html
Si vous ajoutez la balise de lien rel="canonical"
avec JavaScript, veillez à injecter correctement la balise de lien canonique.
Utiliser un en-tête HTTP rel="canonical"
Si vous pouvez configurer votre serveur, utilisez les en-têtes HTTP rel="canonical"
(plutôt que des balises HTML) pour indiquer l'URL canonique des documents pris en charge par la recherche Google, y compris les formats non HTML tels que les fichiers PDF.
Pour le moment, Google n'accepte cette méthode que pour les résultats de recherche sur le Web.
Si vous intégrez un fichier PDF dans plusieurs URL, vous pouvez renvoyer un en-tête HTTP rel="canonical"
pour indiquer à Googlebot quelle est l'URL canonique du fichier PDF :
Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"
Les recommandations pour l'en-tête HTTP rel="canonical"
sont identiques à celles de la balise link
rel="canonical"
. Conformément à la norme RFC2616, n'utilisez que des guillemets doubles dans l'en-tête HTTP rel="canonical"
.
Utiliser un sitemap
Choisissez une URL canonique pour chacune de vos pages et envoyez-les dans un sitemap. Toutes les pages répertoriées dans un sitemap sont suggérées en tant que pages canoniques ; Google déterminera lesquelles sont en double, le cas échéant, en fonction de la similarité du contenu.
Nous ne garantissons pas que nous considérerons les URL du sitemap comme des URL canoniques, mais c'est un moyen simple de définir ce type d'URL pour un site volumineux. Par ailleurs, les sitemaps permettent d'indiquer facilement à Google les pages de votre site qui sont, pour vous, les plus importantes.
N'incluez pas de pages non canoniques dans un sitemap. Si vous utilisez un sitemap, indiquez uniquement les URL canoniques.
Utiliser des redirections 301
pour les URL obsolètes
Utilisez cette méthode lorsque vous souhaitez supprimer des pages en double en assurant une transition fluide.
Admettons qu'il est possible d'accéder à votre page de plusieurs manières :
https://example.com/home
https://home.example.com
https://www.example.com
Choisissez votre URL canonique parmi ces URL et utilisez des redirections 301
pour envoyer le trafic des autres URL vers l'URL choisie. Une redirection 301
côté serveur est le meilleur moyen de vous assurer que les internautes et les moteurs de recherche sont redirigés vers la bonne page. Le code d'état 301
signifie que la page a été déplacée de manière définitive vers un autre emplacement.
Si vous utilisez un service d'hébergement de sites Web, recherchez dans leur documentation la configuration des redirections 301
.
Dépannage
Si une URL canonique correspond à une propriété qui ne vous appartient pas, vous ne pouvez pas voir le trafic généré pour la page en double. Voici quelques raisons courantes pour lesquelles une URL canonique peut faire partie d'une propriété distincte :
- Variantes linguistiques marquées de manière incorrecte : si vous utilisez plusieurs sites Web qui diffusent sensiblement le même contenu et qui sont localisés dans différentes langues pour répondre aux besoins des utilisateurs à travers le monde, veillez à suivre les instructions relatives aux sites localisés.
- Balises canoniques incorrectes : certains systèmes de gestion de contenu (CMS) ou leurs plug-ins peuvent utiliser de manière incorrecte les méthodes de choix de l'URL canonique pour renvoyer vers des URL sur des sites Web externes. Vérifiez que ce n'est pas le cas avec votre contenu. Si votre site indique une préférence inattendue en matière d'URL canonique (ce qui peut être dû à une utilisation incorrecte de
rel="canonical"
ou à une redirection301
), vous pouvez résoudre ce problème directement. - Serveurs configurés de manière inappropriée : certaines configurations inappropriées de l'hôte peuvent entraîner une sélection inattendue d'URL entre les domaines. Exemple :
- Suite à une mauvaise configuration, un serveur peut afficher du contenu issu de a.com en réponse à une demande d'URL pour b.com.
- Deux serveurs Web non liés entre eux peuvent afficher des pages
soft 404
identiques, sans que nous puissions les identifier comme des pages d'erreur.
- Piratage malveillant : certaines attaques de sites Web insèrent du code qui entraîne l'affichage d'une redirection
301
HTTP, ou l'inclusion d'une balise linkrel="canonical"
inter-domaines dans la balise<head>
HTML ou l'en-tête HTTP. Ce lien renvoie généralement vers une URL qui héberge du contenu malveillant ou du spam. Dans ce cas, nos algorithmes peuvent sélectionner l'URL qui pointe vers du contenu malveillant ou du spam à la place de l'URL qui figure sur le site Web piraté. - Site Web copycat : dans de rares cas, notre algorithme peut sélectionner une URL à partir d'un site externe hébergeant votre contenu sans votre autorisation. Si vous pensez qu'un autre site ne respecte pas les règles relatives aux droits d'auteur, vous pouvez contacter l'hébergeur du site pour lui demander de supprimer votre contenu. Vous pouvez également nous demander de supprimer de nos résultats de recherche la page qui porte atteinte à vos droits d'auteur en envoyant une demande DMCA (Digital Millennium Copyright Act).