Présentation du fichier robots.txt

Un fichier robots.txt indique aux robots d'exploration d'un moteur de recherche les URL auxquelles il peut accéder sur votre site. Son objectif principal est d'éviter de surcharger votre site de demandes. Il ne sert pas à empêcher qu'une page Web figure dans les résultats de recherche Google. Pour empêcher qu'une page figure sur Google, bloquez l'indexation avec noindex ou protégez-la par mot de passe.

À quoi sert un fichier robots.txt ?

Un fichier robots.txt sert principalement à gérer le trafic des robots d'exploration sur votre site et, généralement, à empêcher Google d'explorer un fichier selon son type :

Effet du fichier robots.txt sur différents types de fichiers
Page Web

Vous pouvez utiliser un fichier robots.txt pour des pages Web (HTML, PDF ou autres formats non multimédias interprétables par Google) afin de gérer le trafic d'exploration. Cette pratique est notamment utile si vous pensez que votre serveur risque d'être submergé par les requêtes du robot d'exploration Google ou pour éviter l'exploration de pages similaires ou sans grande importance sur votre site.

Si votre page Web est bloquée via un fichier robots.txt, son URL peut tout de même apparaître dans les résultats de recherche. Toutefois, le résultat ne contiendra pas de description. Les fichiers image, vidéo, PDF et autres fichiers non HTML sont exclus. Si vous voyez ce résultat de recherche pour votre page et que vous souhaitez le corriger, supprimez l'entrée robots.txt qui bloque la page. Si vous souhaitez empêcher complètement l'affichage de la page dans les résultats de recherche, utilisez une autre méthode.

Fichier multimédia

Utilisez un fichier robots.txt pour gérer le trafic d'exploration, et empêcher les fichiers image, vidéo et audio d'apparaître dans les résultats de recherche Google. Notez que cela n'empêche pas les autres pages ou utilisateurs de créer des liens vers votre fichier image, vidéo ou audio.

Fichier de ressource Vous pouvez utiliser un fichier robots.txt pour bloquer les fichiers de ressource tels que les images, scripts ou fichiers de style non importants, si vous pensez que l'absence de ces ressources n'affectera pas le chargement des pages de façon significative. Cependant, si l'absence de ces ressources rend la page plus compliquée à comprendre pour le robot d'exploration Google, ne les bloquez pas, car cela nous empêche d'analyser correctement les pages dépendant de ces ressources.

Comprendre les limites d'un fichier robots.txt

Avant de créer ou de modifier un fichier robots.txt, vous devez connaître les limites liées à cette méthode de blocage des URL. En fonction de vos objectifs et de votre situation, vous pouvez envisager d'autres mécanismes pour vous assurer que vos URL sont introuvables sur le Web.

  • Les règles robots.txt ne sont pas forcément compatibles avec tous les moteurs de recherche.
    Les instructions des fichiers robots.txt ne peuvent pas obliger le robot d'exploration à respecter les règles de votre site. Il appartient au robot d'exploration de s'y conformer. Googlebot et les autres robots d'exploration sérieux respectent les instructions des fichiers robots.txt, mais il est possible que d'autres robots ne le fassent pas. Par conséquent, si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d'exploration, nous vous conseillons d'utiliser d'autres méthodes de blocage, comme la protection par mot de passe des fichiers privés sur votre serveur.
  • Les robots d'exploration peuvent interpréter la syntaxe de différentes façons.
    Bien que les robots d'exploration sérieux suivent les directives du fichier robots.txt, tous ne les interprètent pas forcément de la même façon. Il est important de connaître la syntaxe appropriée, car certains robots pourraient ne pas comprendre certaines instructions.
  • Une page non autorisée dans le fichier robots.txt peut toujours être indexée si d'autres sites la référencent.
    Nous n'explorons et n'indexons pas le contenu bloqué par le fichier robots.txt, mais nous pouvons toujours trouver et indexer une URL non autorisée si elle est référencée ailleurs sur le Web. Par conséquent, l'adresse URL, et potentiellement d'autres informations accessibles au public, comme le texte d'ancrage dans les liens vers la page, peuvent continuer de figurer dans les résultats de recherche Google. La procédure conseillée pour empêcher l'affichage d'une URL dans les résultats de recherche Google consiste à protéger par mot de passe les fichiers correspondants sur votre serveur, à utiliser la balise meta noindex ou l'en-tête de réponse, ou encore à supprimer complètement la page.

Créer ou modifier un fichier robots.txt

Si vous avez décidé d'utiliser un fichier robots.txt, découvrez comment en créer un. Si vous en avez déjà configuré un, découvrez comment le mettre à jour.

Vous voulez en savoir plus ? Consultez les ressources suivantes :