Présentation du fichier robots.txt

Un fichier robots.txt indique aux robots d'exploration d'un moteur de recherche les URL auxquelles il peut accéder sur votre site. Son objectif principal est d'éviter de surcharger votre site de demandes. Il ne sert pas à empêcher qu'une page Web figure dans les résultats de recherche Google. Pour empêcher qu'une page figure sur Google, vous devez en bloquer l'indexation avec la directive noindex ou protéger l'accès à cette page par un mot de passe.

À quoi sert un fichier robots.txt ?

Un fichier robots.txt sert principalement à gérer le trafic des robots d'exploration sur votre site et, généralement, à empêcher Google d'explorer un fichier selon son type :

Effet du fichier robots.txt sur différents types de fichiers
Page Web

Vous pouvez utiliser un fichier robots.txt pour des pages Web (HTML, PDF ou autres formats non multimédias interprétables par Google) afin de gérer le trafic d'exploration. Cette pratique est notamment utile si vous pensez que votre serveur risque d'être submergé par les requêtes du robot d'exploration Google ou pour éviter l'exploration de pages similaires ou sans grande importance sur votre site.

Si votre page Web est bloquée via un fichier robots.txt, son URL peut tout de même apparaître dans les résultats de recherche. Toutefois, le résultat ne contiendra pas de description. Les fichiers image, vidéo, PDF et autres fichiers non HTML sont exclus. Si vous voyez ce résultat de recherche pour votre page et que vous souhaitez le corriger, supprimez l'entrée robots.txt qui bloque la page. Si vous souhaitez empêcher complètement l'affichage de la page dans les résultats de recherche, utilisez une autre méthode.

Fichier multimédia

Utilisez un fichier robots.txt pour gérer le trafic d'exploration, et empêcher les fichiers image, vidéo et audio d'apparaître dans les résultats de recherche Google. Notez que cela n'empêche pas les autres pages ou utilisateurs de créer des liens vers votre fichier image, vidéo ou audio.

Fichier de ressource Vous pouvez utiliser un fichier robots.txt pour bloquer les fichiers de ressource tels que les images, scripts ou fichiers de style non importants, si vous pensez que l'absence de ces ressources n'affectera pas le chargement des pages de façon significative. Cependant, si l'absence de ces ressources rend la page plus compliquée à comprendre pour le robot d'exploration Google, vous ne devez pas les bloquer, car cela nous empêche d'analyser correctement les pages dépendant de ces ressources.

Comprendre les limites d'un fichier robots.txt

Avant de créer ou de modifier un fichier robots.txt, vous devez connaître les limites liées à cette méthode de blocage des URL. En fonction de vos objectifs et de votre situation, vous pouvez envisager d'autres mécanismes pour vous assurer que vos URL sont introuvables sur le Web.

  • Les directives des fichiers robots.txt ne sont pas forcément compatibles avec tous les moteurs de recherche.
    Les robots d'exploration ne sont pas obligés de suivre les instructions des fichiers robots.txt. Googlebot et les autres robots d'exploration sérieux respectent les instructions des fichiers robots.txt, mais il est possible que d'autres robots ne le fassent pas. Par conséquent, si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d'exploration, nous vous conseillons d'utiliser d'autres méthodes de blocage, comme la protection par mot de passe des fichiers privés sur votre serveur.
  • Les robots d'exploration peuvent interpréter la syntaxe de différentes façons.
    Bien que les robots d'exploration sérieux suivent les directives du fichier robots.txt, tous ne les interprètent pas forcément de la même façon. Il est important de connaître la syntaxe appropriée, car certains robots pourraient ne pas comprendre certaines instructions.
  • Une page bloquée par un robot peut tout de même être indexée si elle est référencée sur d'autres sites.
    Le contenu bloqué par le fichier robots.txt ne sera ni exploré, ni indexé, mais nous pouvons toujours trouver et indexer une URL non autorisée si elle est référencée ailleurs sur le Web. Par conséquent, l'adresse URL, et potentiellement d'autres informations accessibles au public, comme le texte d'ancrage dans les liens vers la page, peuvent continuer de figurer dans les résultats de recherche Google. La procédure conseillée pour empêcher l'affichage d'une URL dans les résultats de recherche Google consiste à protéger par mot de passe les fichiers correspondants sur votre serveur, à utiliser la balise Meta ou l'en-tête de réponse noindex, ou encore à supprimer complètement la page.

Créer un fichier robots.txt

Si vous avez décidé d'utiliser un fichier robots.txt, découvrez comment en créer un.