Googlebot
Googlebot est le nom générique de deux types de robots d'exploration utilisés par la recherche Google:
- Googlebot Smartphone : un robot d'exploration pour mobile qui simule un utilisateur sur un appareil mobile.
- Googlebot Desktop : un robot d'exploration pour ordinateur qui simule un utilisateur sur ordinateur.
Pour identifier le sous-type Googlebot, consultez l'en-tête de requête HTTP user-agent
dans la requête. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (version pour ordinateur ou pour mobile).
Pour la plupart des sites, la recherche Google indexe principalement la version mobile du contenu. Par conséquent, la plupart des demandes d'exploration Googlebot est traitée à l'aide du robot pour mobile, tandis qu'une minorité est traitée par le robot pour ordinateur.
Comment Googlebot accède-t-il à votre site ?
Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez réduire la vitesse d'exploration.
Googlebot peut explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible. Chaque ressource référencée dans le code HTML (CSS ou JavaScript, par exemple) est récupérée séparément, et chaque extraction est soumise à la même limite de taille de fichier. Au-delà des 15 premiers Mo de fichier, Googlebot arrête l'exploration et n'envoie que les 15 premiers Mo en considération pour l'indexation. La taille maximale de fichier est appliquée aux données non compressées. D'autres robots d'exploration Google, par exemple Googlebot Video et Googlebot Image, peuvent être soumis à des limites différentes.
Lorsque Googlebot explore à partir d'adresses IP aux États-Unis, son fuseau horaire est l'heure du Pacifique.
Les autres propriétés techniques de Googlebot sont décrites dans la présentation des robots d'exploration Google.
Empêcher Googlebot d'accéder à votre site
Googlebot découvre les nouvelles URL à explorer principalement à partir des liens intégrés aux pages explorées précédemment. Il est quasiment impossible de garder un site secret en évitant de publier des liens qui pointent vers celui-ci. Par exemple, dès qu'un internaute clique sur un lien de votre site "secret" vers un autre site, l'URL de votre site "secret" peut apparaître dans la balise de provenance, puis être stockée et publiée par l'autre site dans un fichier journal.
Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. N'oubliez pas qu'il existe une différence entre l'exploration et l'indexation. Empêcher Googlebot d'explorer une page n'empêche pas que son URL apparaisse dans les résultats de recherche:
- Vous voulez empêcher Googlebot d'explorer une page ? Utilisez un fichier robots.txt.
-
Vous ne voulez pas que Google indexe une page ? Utilisez
noindex
. - Vous voulez empêcher les robots d'exploration et les utilisateurs d'accéder à une page ? Utilisez une autre méthode, telle que la protection par mot de passe.
Le blocage de Googlebot affecte la recherche Google (y compris Discover et toutes les fonctionnalités de la recherche Google), ainsi que d'autres produits tels que Google Images, Google Vidéo et Google Actualités.
Validation de Googlebot
Avant de bloquer Googlebot, sachez que l'en-tête de requête HTTP user-agent
utilisé par Googlebot est souvent falsifié (spoofing) par d'autres robots d'exploration. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inverse au niveau de l'adresse IP source de la requête ou de vérifier que l'adresse IP source fait partie des plages d'adresses IP de Googlebot.