Lundi 16 janvier 2017
Ces derniers temps, nous avons vu fleurir un certain nombre de définitions du "budget d'exploration". Toutefois, nous ne disposons pas d'un terme unique pour décrire tout ce que cela signifie en externe. Avec cet article, nous entendons clarifier ce dont il s'agit réellement et ce que cela implique pour Googlebot.
Tout d'abord, nous voulons souligner le fait que le budget d'exploration, tel qu'il est décrit ci-dessous, ne concerne pas la plupart des éditeurs. Si les nouvelles pages sont généralement explorées le jour même de leur publication, les webmasters n'ont pas à se préoccuper du budget d'exploration. De même, si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement la plupart du temps.
Hiérarchiser le contenu à explorer, la date d'exploration et la quantité de ressources que le serveur hôte peut consacrer à l'exploration est plus important pour les sites plus volumineux ou ceux qui génèrent automatiquement des pages à partir de paramètres d'URL, par exemple.
Limite de la vitesse d'exploration
Googlebot est conçu pour être un bon citoyen du Web. Il fait de l'exploration sa priorité, tout en s'assurant de ne pas nuire à l'expérience des internautes qui consultent le site. C'est ce que nous appelons la "limite de la vitesse d'exploration". Elle définit une valeur maximale pour un site donné.
Pour faire simple, cela représente le nombre de connexions simultanées parallèles que Googlebot peut utiliser pour explorer le site, ainsi que le temps qu'il doit attendre entre deux explorations. La vitesse d'exploration peut augmenter ou diminuer en fonction de deux facteurs :
- État de l'exploration : si le site répond très rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue, et Googlebot réduit son exploration.
- Limite définie dans la Search Console : les propriétaires de sites Web peuvent réduire l'exploration de leur site par Googlebot. Sachez que définir une limite plus élevée n'entraîne pas nécessairement une augmentation de l'exploration.
Besoin d'exploration
Même si la vitesse d'exploration n'atteint pas sa limite, en l'absence de besoin d'indexation, l'activité de Googlebot sera faible. Les deux facteurs qui jouent un rôle important dans la détermination du besoin d'exploration sont les suivants :
- Popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans notre index.
- Obsolescence : nos systèmes s'efforcent d'empêcher que les URL ne soient pas actualisées dans l'index.
En outre, les événements sur l'ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d'exploration afin de réindexer le contenu sur les nouvelles URL.
En associant la vitesse d'exploration et le besoin d'exploration, nous définissons le budget d'exploration comme le nombre d'URL que Googlebot peut et veut explorer.
Facteurs affectant le budget d'exploration
D'après nos analyses, la multiplication d'URL à faible valeur ajoutée peut nuire à l'exploration et à l'indexation d'un site. D'après ce que nous avons pu constater, les URL à faible valeur ajoutée entrent dans ces catégories, par ordre d'importance :
- Navigation à facettes et identifiants de session
- Contenu en double sur le site
- Pages d'erreurs "soft 404"
- Pages piratées
- Espaces infinis et proxys
- Contenu de mauvaise qualité et spam
Gaspiller inutilement des ressources du serveur pour des pages de ce type détournera l'activité d'exploration de pages qui ont réellement de la valeur, ce qui peut considérablement retarder la découverte de contenu intéressant sur un site.
Questions les plus fréquentes
L'exploration est le point d'entrée des sites dans les résultats de recherche Google. L'exploration efficace d'un site Web aide à son indexation dans la recherche Google.
La vitesse du site a-t-elle une influence sur mon budget d'exploration ? Qu'en est-il des erreurs ?
En rendant un site plus rapide, vous améliorez l'expérience utilisateur tout en augmentant la vitesse d'exploration. Pour Googlebot, un site rapide est le signe de serveurs en bon état : il peut accéder à un contenu plus important avec le même nombre de connexions. En revanche, un nombre important d'erreurs 5xx ou de problèmes de délai avant expiration de la connexion indiquent le contraire, et l'exploration ralentit.
Nous recommandons de prêter attention au rapport de statistiques sur l'exploration disponible dans la Search Console et de limiter le nombre d'erreurs de serveur.
L'exploration est-elle un facteur de classement ?
Une vitesse d'exploration supérieure n'aboutit pas nécessairement à un meilleur classement dans les résultats de recherche. Google utilise des centaines d’indicateurs pour classer les résultats : même si l'exploration est nécessaire pour figurer dans les résultats, elle n'est pas un indicateur de classement.
Les autres versions des URL et le contenu intégré comptent-ils dans le budget d'exploration ?
En général, toutes les URL que Googlebot explore comptent dans le budget d'exploration d'un site. Les autres versions des URL, comme les versions AMP ou "hreflang", ainsi que le contenu intégré, comme le contenu CSS et JavaScript, y compris les appels AJAX (c'est-à-dire XHR), peuvent nécessiter une exploration et utiliser ainsi le budget d'exploration d'un site. De même, les chaînes de redirection longues peuvent avoir des conséquences négatives sur l'exploration.
Puis-je contrôler Googlebot à l'aide de la règle crawl-delay
?
La règle non standard crawl-delay
d'un fichier robots.txt n'est pas traitée par Googlebot.
La règle nofollow
a-t-elle une incidence sur le budget d'exploration ?
Cela dépend. Toute URL explorée a une incidence sur le budget d'exploration. Par conséquent, même si votre page marque une URL avec l'instruction nofollow
, elle peut toujours être explorée si une autre page de votre site ou toute page disponible sur le Web n'étiquette pas ce lien avec cette instruction.
Les URL dont j'ai bloqué l'accès via le fichier robots.txt affectent-elles mon budget d'exploration ?
Non. Les URL non autorisées n'ont pas d'incidence sur le budget d'exploration.
Pour en savoir plus sur la façon d'optimiser l'exploration de votre site, consultez notre article sur l'optimisation de l'exploration de 2009, qui est toujours valable. Si vous avez des questions, n'hésitez pas à les poser sur les forums.