Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Googlebot

Googlebot est le nom générique du robot d'exploration de Google. Il désigne deux types de robots d'exploration distincts : l'un simule un internaute sur un ordinateur, tandis que l'autre simule un utilisateur sur un appareil mobile.

Votre site Web est probablement exploré par les deux types de robots d'exploration de Google : Googlebot pour ordinateur et Googlebot pour smartphone. Pour identifier le sous-type Googlebot, consultez la chaîne user-agent dans la requête. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (version pour ordinateur ou pour smartphone).

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes.

Googlebot est conçu pour être exécuté simultanément sur plusieurs machines afin d'améliorer les performances et de s'adapter à la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites qu'ils peuvent être amenés à explorer. Par conséquent, vos journaux peuvent indiquer différentes visites de google.com, toutes classées sous le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez demander une modification de la vitesse d'exploration.

En règle générale, Googlebot effectue l'exploration via HTTP/1.1. Toutefois, depuis novembre 2020, le protocole HTTP/2 peut être utilisé pour les sites qui peuvent en bénéficier, dans la mesure où ils acceptent ce protocole. Cela contribue à économiser les ressources informatiques (par exemple, le processeur et la mémoire RAM) pour les sites concernés et pour Googlebot, sans affecter leur indexation ni leur classement.

Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Googlebot tente d'explorer votre site via ce protocole. En cas d'échec, vous pouvez envoyer un message à l'équipe Googlebot (notez toutefois que cette solution est temporaire).

Googlebot peut explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible. Toutes les ressources référencées dans le code HTML, comme les images, les vidéos, les fichiers CSS et le code JavaScript, sont récupérées séparément. Au-delà des 15 premiers Mo de fichier, Googlebot arrête l'exploration et ne prend en compte que les 15 premiers Mo pour l'indexation. La taille maximale de fichier est appliquée aux données non compressées. D'autres robots d'exploration peuvent avoir des limites différentes.

Empêcher Googlebot d'accéder à votre site

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut s'afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaie d'explorer ces liens incorrects.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. Assurez-vous de bien comprendre les différentes options : vous pouvez empêcher Googlebot d'explorer une page, l'empêcher d'indexer une page ou bien rendre une page complètement inaccessible, que ce soit par un robot d'exploration ou un utilisateur.

Validation de Googlebot

Avant de bloquer Googlebot, sachez que la chaîne user-agent utilisée par Googlebot est souvent falsifiée par d'autres robots. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inverse au niveau de l'adresse IP source de la requête ou de vérifier que l'adresse IP source fait partie des plages d'adresses IP de Googlebot.