Questions fréquentes sur les robots

Questions générales sur les robots

Dois-je forcément utiliser un fichier robots.txt sur mon site Web ?

Non. Lorsque nous consultons un site Web à l'aide de Googlebot, nous demandons d'abord l'autorisation de l'explorer en tentant de récupérer le fichier robots.txt. En général, même si un site Web n'a pas de fichier robots.txt, de balise meta robots ni d'en-tête HTTP X-Robots-Tag, nous l'explorons et l'indexons normalement.

Quelle méthode utiliser pour bloquer les robots d'exploration ?

Cela dépend. En résumé, il y a de bonnes raisons d'utiliser chacune de ces méthodes :

  • Fichier robots.txt : utilisez-le si l'exploration de votre contenu provoque des problèmes sur votre serveur. Par exemple, vous pouvez interdire l'exploration des scripts d'agenda infinis. N'utilisez pas le fichier robots.txt pour bloquer du contenu privé (utilisez plutôt l'authentification côté serveur) ni pour gérer le choix de l'URL canonique. Pour vous assurer qu'une URL n'est pas indexée, utilisez la balise meta robots ou l'en-tête HTTP X-Robots-Tag.
  • Balise meta robots : utilisez-la pour contrôler l'affichage d'une page HTML individuelle dans les résultats de recherche, ou pour vous assurer qu'elle ne s'y affiche pas.
  • En-tête HTTP X-Robots-Tag : utilisez-le pour contrôler l'affichage du contenu dans les résultats de recherche, ou pour vous assurer qu'il ne s'y affiche pas.

Puis-je utiliser le fichier robots.txt, la balise meta robots ou l'en-tête HTTP X-Robots-Tag pour supprimer le site d'un tiers des résultats de recherche ?

Non. Ces méthodes ne s'appliquent qu'aux sites sur lesquels vous pouvez modifier le code ou ajouter des fichiers. Découvrez comment supprimer des informations de Google.

Comment puis-je ralentir l'exploration de mon site Web par Google ?

Vous pouvez généralement modifier la vitesse d'exploration dans votre compte Google Search Console.

Questions sur le fichier robots.txt

J'utilise le même fichier robots.txt pour plusieurs sites Web. Puis-je utiliser une URL complète au lieu d'un chemin d'accès relatif ?

Non. À l'exception de sitemap:, les règles du fichier robots.txt ne sont valables que pour les chemins d'accès relatifs.

Puis-je placer le fichier robots.txt dans un sous-répertoire ?

Non. Le fichier doit être placé dans le répertoire racine du site Web.

Je veux bloquer un dossier privé. Puis-je empêcher d'autres personnes de lire mon fichier robots.txt ?

Non. Le fichier robots.txt est lisible par les internautes. Si les dossiers ou les noms de fichiers de contenu ne sont pas destinés au public, ne les répertoriez pas dans le fichier robots.txt. Il est déconseillé d'utiliser différents fichiers robots.txt en fonction du user-agent ou d'autres attributs.

Dois-je inclure une règle allow pour permettre l'exploration ?

Non, vous n'avez pas besoin d'inclure une règle allow. Toutes les URL sont implicitement autorisées et la règle allow permet de remplacer les règles disallow dans le même fichier robots.txt.

Que se passe-t-il s'il y a une erreur dans mon fichier robots.txt ou si j'utilise une règle non acceptée ?

Les robots d'exploration sont généralement très flexibles, et ils ne sont normalement pas perturbés par des erreurs mineures dans le fichier robots.txt. En général, dans le pire des cas, ils ignorent les règles incorrectes ou non acceptées. Gardez toutefois à l'esprit que Google ne peut pas lire dans les pensées. Nous devons interpréter le fichier robots.txt exploré. Cela dit, si vous êtes conscient qu'il y a des problèmes dans votre fichier robots.txt, vous n'aurez généralement aucun mal à les résoudre.

Quel programme dois-je utiliser pour créer un fichier robots.txt ?

Vous pouvez utiliser tout programme qui permet de créer un fichier texte valide. Les programmes les plus utilisés pour créer des fichiers robots.txt sont Notepad, TextEdit, vi ou emacs. Familiarisez-vous avec la création de fichiers robots.txt. Une fois le fichier créé, validez-le à l'aide de l'outil de test du fichier robots.txt.

Si j'empêche Google d'explorer une page en plaçant une règle disallow dans un fichier robots.txt, cette page va-t-elle disparaître des résultats de recherche ?

Empêcher Google d'explorer une page peut entraîner sa suppression de l'index.

Cependant, l'instruction disallow du fichier robots.txt ne garantit pas que la page ne s'affichera pas dans les résultats : nous pouvons décider, sur la base d'informations externes telles que des liens entrants, que la page est pertinente et, par conséquent, afficher l'URL dans les résultats. Si vous souhaitez véritablement empêcher l'indexation d'une page, utilisez la balise meta noindex robots ou l'en-tête HTTP X-Robots-Tag. Dans ce cas, vous ne devez pas bloquer la page dans le fichier robots.txt, car il est nécessaire que nous puissions l'explorer pour repérer la balise et suivre ses instructions. Découvrez comment contrôler ce que vous partagez avec Google.

Combien de temps faut-il pour que les changements apportés à mon fichier robots.txt se répercutent sur mes résultats de recherche ?

Tout d'abord, le cache du fichier robots.txt doit être actualisé. Nous gardons généralement le contenu en cache durant un jour au maximum. Pour accélérer ce processus, envoyez votre fichier robots.txt mis à jour à Google. Même une fois le changement identifié, l'exploration et l'indexation sont des processus complexes, qui peuvent être particulièrement longs pour les URL individuelles. Il est donc impossible d'indiquer des délais précis. De plus, sachez que même si votre fichier robots.txt interdit l'accès à une URL, celle-ci peut rester visible dans les résultats de recherche, bien que nous ne puissions pas l'explorer. Si vous souhaitez accélérer la suppression des pages bloquées, envoyez une demande de suppression.

Comment puis-je suspendre temporairement toute exploration de mon site Web ?

Pour suspendre temporairement l'exploration, renvoyez un code d'état HTTP 503 (service unavailable) pour toutes les URL, y compris pour le fichier robots.txt. Nous essaierons régulièrement d'accéder au fichier robots.txt, jusqu'à ce qu'il soit de nouveau accessible. Nous vous déconseillons de modifier votre fichier robots.txt pour interdire l'exploration.

Mon serveur n'est pas sensible à la casse. Comment puis-je interdire totalement l'exploration de certains dossiers ?

Les règles du fichier robots.txt sont sensibles à la casse. Dans ce cas, nous vous conseillons de vous assurer qu'une seule version de l'URL est indexée via le choix de l'URL canonique. En limitant le nombre de lignes que contient votre fichier robots.txt, cette approche vous permet de le gérer plus facilement. Si cela n'est pas possible, nous vous recommandons de lister les combinaisons fréquentes du nom de dossier ou de le raccourcir autant que possible, en utilisant seulement les premiers caractères au lieu du nom complet. Par exemple, au lieu de dresser la liste de toutes les permutations entre majuscules et minuscules de /MyPrivateFolder, vous pouvez lister les permutations de /MyP, si vous êtes certain qu'aucune autre URL à explorer ne commence par ces mêmes caractères. Si l'exploration ne pose pas de problème, il peut être judicieux de privilégier une balise meta robots ou un en-tête HTTP X-Robots-Tag.

Je renvoie 403 Forbidden pour toutes les URL, y compris le fichier robots.txt. Pourquoi l'exploration du site se poursuit-elle ?

Le code d'état HTTP 403 Forbidden, ainsi que d'autres codes d'état HTTP 4xx, sont perçus comme indiquant l'absence de fichier robots.txt. Dès lors, les robots d'exploration estiment généralement qu'ils peuvent explorer toutes les URL du site Web. Pour bloquer l'exploration du site Web, le fichier robots.txt doit être renvoyé avec un code d'état HTTP 200 OK et contenir une règle disallow appropriée.

Questions sur la balise meta robots

La balise meta robots sert-elle à remplacer le fichier robots.txt ?

Non. Le fichier robots.txt permet de contrôler l'accessibilité des pages. La balise meta robots contrôle l'indexation d'une page, mais pour que cette balise soit visible, la page doit être explorée. Si l'exploration d'une page est problématique (par exemple, si cela génère une charge élevée sur le serveur), utilisez le fichier robots.txt. Si la seule question est d'afficher ou non la page dans les résultats de recherche, vous pouvez utiliser la balise meta robots.

La balise meta robots peut-elle être utilisée pour empêcher l'indexation d'une partie d'une page ?

Non, la balise meta robots est un paramètre qui s'applique au niveau de la page.

Puis-je utiliser la balise meta robots ailleurs que dans une section <head> ?

Non, la balise meta robots doit se trouver dans la section <head> d'une page.

La balise meta robots empêche-t-elle l'exploration ?

Non. Même si la balise meta robots indique actuellement noindex, nous devrons explorer de nouveau cette URL de temps en temps pour vérifier si la balise meta a changé.

Quelle est la différence entre la balise meta nofollow robots et l'attribut "link" rel="nofollow" ?

La balise meta nofollow robots s'applique à tous les liens d'une page. L'attribut "link" rel="nofollow" ne s'applique qu'à des liens précis d'une page. Pour en savoir plus sur l'attribut "link" rel="nofollow", consultez notre documentation sur le spam généré par des utilisateurs et sur l'attribut rel="nofollow".

Questions sur l'en-tête HTTP X-Robots-Tag

Comment puis-je vérifier l'en-tête X-Robots-Tag d'une URL ?

Pour consulter les en-têtes du serveur, le plus simple est d'utiliser l'outil d'inspection d'URL de la Google Search Console. Pour vérifier les en-têtes de réponse des URL, effectuez la recherche "outil de vérification des en-têtes de serveur" ou similaire.