Effet des codes d'état HTTP ainsi que des erreurs réseau et DNS sur la recherche Google

Cette page décrit l'impact des différents codes d'état HTTP, erreurs réseau et erreurs DNS sur la recherche Google. Nous présentons les 20 codes d'état les plus courants rencontrés par Googlebot sur le Web, ainsi que les erreurs réseau et DNS les plus visibles. Les codes d'état plus rares, tels que 418 (I'm a teapot), ne sont pas couverts. Tous les problèmes mentionnés sur cette page génèrent une erreur ou un avertissement correspondant dans le rapport de statistiques sur l'exploration de la Search Console.

Codes d'état HTTP

Les codes d'état HTTP sont générés par le serveur qui héberge le site lorsqu'il répond à une requête envoyée par un client, par exemple un navigateur ou un robot d'exploration. Chaque code d'état HTTP a une signification différente, mais le résultat de la requête est souvent le même. Par exemple, différents codes d'état indiquent une redirection, mais leur résultat est le même.

La Search Console génère des messages d'erreur pour les codes d'état dans la plage 4xx–5xx et pour les redirections ayant échoué (3xx). Si le serveur répond avec un code d'état 2xx, le contenu reçu dans la réponse peut être pris en compte pour l'indexation.

Codes d'état HTTP
2xx (success)

Google prend en compte le contenu pour l'indexation. Si le contenu suggère une erreur, par exemple une page vide ou un message d'erreur, la Search Console affiche une erreur de type "soft 404".

200 (success)

Googlebot transmet le contenu au pipeline d'indexation. Les systèmes d'indexation peuvent indexer le contenu, mais cela n'est pas garanti.

201 (created)
202 (accepted)

Googlebot attend de recevoir le contenu pendant un temps limité, puis transmet ce qu'il reçoit au pipeline d'indexation. Le délai d'expiration dépend du user-agent. Par exemple, il peut différer selon que Googlebot pour smartphone ou Googlebot pour les images est utilisé.

204 (no content)

Googlebot signale au pipeline d'indexation qu'il n'a reçu aucun contenu. La Search Console peut afficher une erreur 404 de type "soft" dans le rapport de couverture de l'index du site.

3xx (redirects)

Googlebot suit jusqu'à 10 sauts de redirection. Si le robot d'exploration ne reçoit pas de contenu au bout de ces 10 sauts, la Search Console affiche une erreur de redirection dans le rapport de couverture de l'index du site. Le nombre de sauts que Googlebot suit dépend du user-agent. Par exemple, Googlebot pour les smartphones peut présenter une valeur différente de celle de Googlebot pour les images.

301 (moved permanently)

Googlebot suit la redirection, et le pipeline d'indexation utilise cette redirection comme un signal fort indiquant que la cible de la redirection est canonique.

302 (found)

Googlebot suit la redirection, et le pipeline d'indexation utilise cette redirection comme un signal faible indiquant que la cible de la redirection est canonique.

303 (see other)
304 (not modified)

Googlebot indique au pipeline d'indexation que le contenu est identique à celui de la dernière exploration. Le pipeline d'indexation peut recalculer les signaux pour l'URL, mais le code d'état n'a aucun effet sur l'indexation.

307 (temporary redirect) Équivaut à 302.
308 (moved permanently) Équivaut à 301.
4xx (client errors)

Le pipeline d'indexation de Google ne prend pas en compte les URL qui renvoient un code d'état 4xx pour l'indexation. De même, les URL qui sont déjà indexées et qui renvoient un code d'état 4xx sont supprimées de l'index.

400 (bad request)

Toutes les erreurs 4xx, à l'exception de 429, sont traitées de la même manière : Googlebot signale au pipeline d'indexation que le contenu n'existe pas.

Le pipeline d'indexation supprime l'URL de l'index si elle a déjà été indexée. Les nouvelles pages 404 ne sont pas traitées. La fréquence d'exploration diminue progressivement.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Googlebot traite le code d'état 429 comme un signal indiquant que le serveur est surchargé. Il est considéré comme une erreur de serveur.

5xx (server errors)

Les erreurs de serveur 5xx et 429 invitent les robots d'exploration de Google à ralentir temporairement l'exploration. Les URL déjà indexées sont conservées, mais finissent par être supprimées de l'index.

500 (internal server error)

Googlebot diminue la vitesse d'exploration du site. La baisse de la vitesse d'exploration est proportionnelle au nombre d'URL individuelles qui renvoient une erreur de serveur. Le pipeline d'indexation de Google supprime de l'index les URL qui renvoient continuellement une erreur de serveur.

502 (bad gateway)
503 (service unavailable)

Erreurs réseau et DNS

Les erreurs réseau et DNS ont des effets négatifs rapides sur la présence d'une URL dans la recherche Google. Googlebot traite les délais d'expiration du réseau, la réinitialisation de la connexion et les erreurs DNS de la même manière que les erreurs de serveur 5xx. En cas d'erreurs réseau, l'exploration se met immédiatement à ralentir, car une erreur réseau indique que le serveur ne peut pas gérer la charge de diffusion. Les URL déjà indexées qui sont inaccessibles sont supprimées de l'index Google sous quelques jours. La Search Console peut générer des messages d'erreur pour chaque erreur.

Déboguer les erreurs réseau

Ces erreurs se produisent avant l'exploration de l'URL par Google ou pendant son exploration. Étant donné que ces erreurs peuvent se produire avant que le serveur ne réponde et avant qu'un code d'état ne permette d'identifier le problème, le diagnostic de ces erreurs peut être plus difficile. Pour déboguer les erreurs liées au délai d'expiration et à la réinitialisation de la connexion, procédez comme suit :

  • Examinez les paramètres et les journaux de votre pare-feu. Il se peut qu'une règle de blocage ne soit pas suffisamment précise.
  • Examinez le trafic réseau. Utilisez des outils tels que tcpdump etWireshark pour capturer et analyser les paquets TCP, puis rechercher les anomalies qui pointent vers un module réseau ou un composant réseau spécifique.
  • Si vous ne trouvez rien de suspect, contactez votre hébergeur.

L'erreur peut provenir de n'importe quel composant de serveur qui gère le trafic réseau. Par exemple, les interfaces réseau surchargées peuvent ne pas traiter certains paquets, entraînant ainsi des délais d'expiration (impossibilité d'établir une connexion), et réinitialiser les connexions (paquet RST envoyé en raison de la fermeture par erreur d'un port).

Déboguer les erreurs DNS

Les erreurs DNS sont généralement dues à une mauvaise configuration. Pour déboguer les erreurs DNS, procédez comme suit :

  • Examinez vos enregistrements DNS. Vérifiez que les enregistrements A et CNAME pointent respectivement vers les adresses IP et le nom d'hôte appropriés. Exemple :
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Vérifiez que tous vos serveurs de noms pointent vers les bonnes adresses IP de votre site. Exemple :
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Si vous avez modifié votre configuration DNS au cours des dernières 72 heures, vous devrez peut-être attendre que vos modifications soient appliquées sur le réseau DNS global.
  • Si vous exécutez votre propre serveur DNS, assurez-vous qu'il est opérationnel et qu'il n'est pas surchargé.