Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Googlebot

Googlebot est le nom générique des deux types de robots d'exploration de Google :

Pour identifier le sous-type Googlebot, consultez la chaîne user-agent dans la requête. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (version pour ordinateur ou pour smartphone).

Pour la plupart des sites, Google indexe principalement la version mobile du contenu. Par conséquent, la plupart des demandes d'exploration Googlebot sont effectuées à l'aide du robot pour mobile, tandis qu'une minorité est traitée par le robot pour ordinateur.

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes.

Googlebot est conçu pour être exécuté simultanément sur plusieurs machines afin d'améliorer les performances et de s'adapter à la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites qu'ils peuvent être amenés à explorer. Par conséquent, vos journaux peuvent indiquer des visites provenant de plusieurs adresses IP, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez réduire la vitesse d'exploration.

Googlebot explore principalement à partir d'adresses IP aux États-Unis. Si Googlebot détecte qu'un site bloque les requêtes provenant des États-Unis, il est susceptible de tenter d'explorer les URL à partir d'adresses IP situées dans d'autres pays. La liste des blocs d'adresses IP actuellement utilisés par Googlebot est disponible au format JSON.

Googlebot explore les pages via HTTP/1.1 et HTTP/2, si celui-ci est pris en charge par le site. La version du protocole utilisée pour explorer votre site n'a pas d'impact sur le classement. Toutefois, l'exploration via HTTP/2 peut permettre d'économiser des ressources de calcul (par exemple, le processeur et la mémoire RAM) pour votre site et Googlebot.
Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Googlebot tente d'explorer votre site via HTTP/2. En cas d'échec, vous pouvez envoyer un message à l'équipe Googlebot (notez toutefois que cette solution est temporaire).

Googlebot peut explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible. Toutes les ressources référencées dans le code HTML, comme les images, les vidéos, les fichiers CSS et le code JavaScript, sont récupérées séparément. Au-delà des 15 premiers Mo de fichier, Googlebot arrête l'exploration et ne prend en compte que les 15 premiers Mo pour l'indexation. La taille maximale de fichier est appliquée aux données non compressées. D'autres robots d'exploration Google peuvent avoir des limites différentes.

Empêcher Googlebot d'accéder à votre site

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut s'afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaie d'explorer ces liens incorrects.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. Assurez-vous de bien comprendre les différentes options : vous pouvez empêcher Googlebot d'explorer une page, l'empêcher d'indexer une page ou bien rendre une page complètement inaccessible, que ce soit par un robot d'exploration ou un utilisateur.

Validation de Googlebot

Avant de bloquer Googlebot, sachez que la chaîne user-agent utilisée par Googlebot est souvent falsifiée par d'autres robots. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inverse au niveau de l'adresse IP source de la requête ou de vérifier que l'adresse IP source fait partie des plages d'adresses IP de Googlebot.