Guide sur la gestion du budget d'exploration pour les propriétaires de sites volumineux
Ce guide explique comment optimiser l'exploration par Google des sites très volumineux et fréquemment mis à jour.
Si votre site ne comporte pas un grand nombre de pages qui changent rapidement ou si vos pages semblent être explorées le jour de leur publication, la lecture de ce guide n'est pas nécessaire. Il vous suffit de maintenir votre sitemap à jour et de vérifier régulièrement la couverture de votre index.
Si votre contenu est disponible depuis un certain temps, mais qu'il n'a jamais été indexé, il est important d'agir. Commencez par utiliser l'outil d'inspection d'URL pour déterminer la raison pour laquelle votre page n'est pas indexée.
À qui s'adresse ce guide ?
Ce guide avancé cible les sites suivants :
- Sites très volumineux (plus d'un million de pages uniques) dont le contenu change assez souvent (une fois par semaine)
- Sites de taille moyenne ou grande (plus de 10 000 pages uniques) dont le contenu change très rapidement (quotidiennement)
- Sites dont une proportion importante d'URL est classifiée comme Détectée, actuellement non indexée par la Search Console
Théorie générale de l'exploration
Le Web est tellement vaste qu'il ne permet pas à Google d'explorer ni d'indexer toutes les URL disponibles. C'est pourquoi Googlebot ne peut pas explorer indéfiniment un site. Le temps et les ressources que Google consacre à l'exploration d'un site sont généralement régis par le budget d'exploration de ce site. Notez que tous les éléments explorés sur votre site ne sont pas nécessairement indexés. Chaque page doit être évaluée, consolidée et examinée afin de déterminer si elle sera indexée après son exploration.
Le budget d'exploration est déterminé par deux éléments clés : la limite de la capacité d'exploration et le besoin d'exploration.
Limite de la capacité d'exploration
L'objectif de Googlebot est d'explorer votre site sans surcharger vos serveurs. Pour ce faire, Googlebot calcule une limite de la capacité d'exploration. Celle-ci correspond au nombre maximal de connexions simultanées parallèles que Googlebot peut utiliser pour explorer un site, ainsi qu'au temps qu'il doit attendre entre deux explorations. Cette valeur est calculée dans le but de couvrir l'ensemble de votre contenu principal sans surcharger vos serveurs.
La limite de la capacité d'exploration peut augmenter ou diminuer en fonction de différents facteurs :
- État de l'exploration : si le site répond rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue, et Googlebot réduit son exploration.
- Limites d'exploration de Google : bien que notre infrastructure soit très vaste, elle n'est pas infinie. C'est pourquoi nous devons faire des choix par rapport aux ressources dont nous disposons.
Besoin d'exploration
En règle générale, Google consacre autant de temps que nécessaire à l'exploration d'un site, en fonction de sa taille, de la fréquence d'actualisation, de la qualité de ses pages et de sa pertinence par rapport aux autres sites.
Les facteurs qui jouent un rôle majeur dans la détermination du besoin d'exploration sont les suivants :
- Inventaire perçu : sans consigne de votre part, Googlebot tente d'explorer la totalité ou la plupart des URL de votre site dont il a connaissance. Si un grand nombre d'entre elles constituent des doublons ou si leur exploration n'est pas indispensable pour une autre raison (page supprimée, contenu sans importance, etc.), une grande partie du temps passé par Google sur votre site est gaspillé. Ce facteur fait partie de ceux que vous pouvez contrôler le plus facilement.
- Popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans notre index.
- Obsolescence : l'objectif de nos systèmes est d'explorer fréquemment les documents afin d'identifier toute modification.
En outre, les événements sur l'ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d'exploration afin de réindexer le contenu sur les nouvelles URL.
Récapitulatif
En associant la capacité d'exploration au besoin d'exploration, Google définit le budget d'exploration d'un site comme l'ensemble des URL que Googlebot peut et veut explorer. Même si la limite de la capacité d'exploration n'est pas atteinte, si le besoin d'exploration est faible, Googlebot explore moins votre site.
Bonnes pratiques
Pour optimiser l'efficacité de l'exploration, suivez ces bonnes pratiques :
- Gérer votre inventaire d'URL : utilisez les outils appropriés pour indiquer à Google les pages à explorer ou à ne pas explorer. Si Google passe trop de temps à explorer des URL qui ne sont pas adaptées à l'index, Googlebot peut décider de cesser de consulter le reste de votre site (ou d'augmenter son budget d'exploration pour le couvrir entièrement).
- Consolidez le contenu en double. Éliminez le contenu en double afin de concentrer l'exploration sur le contenu qui est unique plutôt que sur les URL uniques.
- Bloquez l'exploration des URL à l'aide du fichier robots.txt. Il est possible que certaines pages soient importantes pour les utilisateurs, mais que vous ne souhaitiez pas forcément qu'elles apparaissent dans les résultats de recherche (pages à défilement infini qui dupliquent des informations sur des pages liées ou versions triées différemment de la même page, par exemple). Si vous ne pouvez pas les consolider comme décrit dans le premier point, bloquez ces pages sans importance (dans la recherche Google) à l'aide du fichier robots.txt. En bloquant les URL avec le fichier robots.txt, vous réduisez considérablement le risque qu'elles soient indexées.
-
Renvoyez un code d'état
404
ou410
pour les pages supprimées définitivement. Google n'oublie pas les URL dont il a connaissance, mais un code d'état404
lui permet de comprendre qu'il n'est plus utile d'explorer à nouveau l'URL correspondante. En revanche, les URL bloquées restent dans la file d'attente d'exploration beaucoup plus longtemps et sont réexplorées une fois que le blocage est supprimé. - Éliminez les erreurs
soft 404
. Les pagessoft 404
continuent à être explorées et consomment donc inutilement une partie de votre budget. Recherchez des erreurssoft 404
dans le rapport Couverture de l'index. - Mettez régulièrement à jour vos sitemaps. Google consulte régulièrement votre sitemap. Veillez donc à y inclure tout le contenu à explorer. Si votre site comprend du contenu mis à jour, nous vous recommandons d'inclure la balise
<lastmod>
. - Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
- Optimisez le chargement de vos pages. Si nous sommes en mesure de charger et d'afficher vos pages rapidement, il est probable que nous parviendrons à lire davantage de contenu sur votre site.
- Suivez l'exploration de votre site. Vérifiez si votre site a rencontré des problèmes de disponibilité lors de l'exploration et cherchez des moyens d'améliorer l'efficacité de l'exploration.
Suivre l'exploration et l'indexation de votre site
Voici les principales étapes à suivre pour suivre le profil d'exploration de votre site :
- Vérifiez si Googlebot rencontre des problèmes de disponibilité sur votre site.
- Déterminez si certaines de vos pages ne sont pas explorées alors qu'elles devraient l'être.
- Vérifiez si certaines parties de votre site doivent être explorées plus rapidement qu'elles ne le sont déjà.
- Optimisez l'exploration de votre site.
- Corrigez toute exploration excessive de votre site.
Vérifier si Googlebot rencontre des problèmes de disponibilité sur votre site
L'amélioration de la disponibilité de votre site n'entraîne pas nécessairement une augmentation de votre budget d'exploration. Google détermine la vitesse d'exploration la plus appropriée en fonction du besoin d'exploration, comme décrit précédemment. Cependant, les problèmes de disponibilité empêchent Google d'explorer votre site autant qu'il le souhaiterait.
Diagnostic :
Consultez le rapport de statistiques sur l'exploration pour afficher l'historique d'exploration de Googlebot pour votre site. Celui-ci indique à quel moment Google a rencontré des problèmes de disponibilité sur votre site. Si des erreurs ou des avertissements de disponibilité sont signalés, examinez les graphiques Disponibilité de l'hôte et recherchez les instances où les demandes Googlebot ont dépassé la limite rouge. Cliquez ensuite sur le graphique pour voir quelles URL ont échoué et essayez de déterminer si elles correspondent à celles ayant rencontré des problèmes sur votre site.
Vous pouvez également utiliser l'outil d'inspection d'URL pour tester quelques URL de votre site. Si l'outil renvoie des avertissements Charge de l'hôte dépassée, cela signifie que Googlebot ne peut pas explorer autant d'URL de votre site que nécessaire.
Traitement :
- Lisez la documentation du rapport "Statistiques sur l'exploration" pour déterminer comment détecter et gérer certains problèmes de disponibilité.
- Bloquez l'exploration des pages requises (voir la section Gérer votre inventaire).
- Accélérez le chargement et l'affichage des pages (voir la section Optimiser l'exploration de votre site).
- Augmentez la capacité de votre serveur. Si Google semble atteindre constamment la limite de diffusion de votre site lors de son exploration, mais que certaines de vos URL importantes ne sont pas explorées ou mises à jour autant de fois que nécessaire, l'augmentation de la capacité de votre serveur peut aider Google à explorer davantage de pages sur votre site. Consultez l'historique de disponibilité de votre hôte dans le rapport "Statistiques sur l'exploration" pour déterminer si la vitesse d'exploration de Google semble fréquemment dépasser la limite. Si tel est le cas, augmentez vos ressources de diffusion pendant un mois, puis vérifiez si les demandes d'exploration ont augmenté pendant cette période.
Vérifier si certaines parties de votre site ne sont pas explorées alors qu'elles devraient l'être
Google consacre autant de temps que nécessaire à votre site afin d'indexer tout le contenu pertinent et de haute qualité qu'il y trouve. Si vous estimez que Googlebot est passé à côté d'un contenu important, plusieurs raisons sont possibles : soit Googlebot ne sait pas que ce contenu existe ou n'y a pas accès, soit la disponibilité de votre site restreint l'accès de Google (ou Google tente de ne pas surcharger votre site).
Diagnostic :
La Search Console ne permet pas de filtrer l'historique d'exploration par URL ou par chemin. Toutefois, vous pouvez inspecter les journaux de votre site pour savoir si des URL spécifiques ont été explorées par Googlebot. Rappelez-vous que les URL explorées ne sont pas forcément indexées.
L'identification et l'exploration des nouvelles pages requièrent plusieurs jours pour la plupart des sites, sauf pour ceux où l'exploration du contenu doit avoir lieu le jour de la publication, tels que les sites d'actualités.
Traitement :
Si vous ajoutez des pages à votre site et qu'elles ne sont pas explorées dans un délai raisonnable, soit Google n'a pas connaissance de leur existence ou n'y a pas accès, soit votre site a atteint sa capacité de diffusion maximale ou vous avez épuisé votre budget d'exploration.
- Notifiez Google en cas d'ajout de pages : mettez à jour vos sitemaps afin qu'ils reflètent les nouvelles URL.
- Examinez les règles du fichier robots.txt afin de vérifier que vous ne bloquez pas des pages par erreur.
- Vérifiez vos priorités d'exploration (ou utilisez votre budget d'exploration avec discernement). Gérez votre inventaire et optimisez l'exploration de votre site.
- Vérifiez que vous n'avez pas atteint la capacité de diffusion. Googlebot réduit l'exploration s'il détecte que vos serveurs rencontrent des difficultés pour répondre aux demandes d'exploration.
Notez que les pages explorées ne s'affichent pas forcément dans les résultats de recherche, notamment si leur contenu ne présente pas d'intérêt particulier pour les internautes ou si la demande des utilisateurs est insuffisante.
Vérifier si les mises à jour sont explorées suffisamment rapidement
Si nous n'explorons pas les pages que vous venez de créer ou de modifier, il est possible que ces créations ou modifications aient échappé à nos systèmes de détection. Voici comment nous informer des modifications apportées à vos pages.
Notez que Google s'efforce de vérifier et d'indexer les pages dans les meilleurs délais. Pour la plupart des sites, ce délai est d'au moins trois jours. Ne vous attendez pas à ce que Google indexe les pages le jour où vous les publiez, sauf s'il s'agit d'un site d'actualités ou si votre site fait partie des sites reconnus pour lesquels le facteur temps est déterminant.
Diagnostic :
Examinez les journaux de votre site pour déterminer quand des URL spécifiques ont été explorées par Googlebot.
Pour connaître la date d'indexation, utilisez l'outil d'inspection d'URL ou effectuez une recherche Google portant sur les URL que vous avez actualisées.
Traitement :
Conseillé :
- Utilisez un sitemap Google Actualités si votre site propose des articles d'actualité.
- Utilisez la balise
<lastmod>
dans les sitemaps pour indiquer qu'une URL indexée a été actualisée. - Utilisez une structure d'URL simple pour aider Google à identifier vos pages.
- Fournissez des liens
<a>
explorables standards pour aider Google à détecter vos pages.
À éviter :
- Envoyez le même sitemap, sans aucune modification, plusieurs fois par jour.
- Comptez à ce que Googlebot explore tous les éléments de votre sitemap ou à ce qu'il les explore immédiatement. Les sitemaps sont des suggestions utiles pour Googlebot, et non des exigences absolues.
- Ajoutez dans vos sitemaps les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche. Ces pages contribuent à épuiser votre budget d'exploration.
Optimiser l'exploration de votre site
Accélérer le chargement des pages
L'exploration Google est limitée par la bande passante, le temps et la disponibilité des instances Googlebot. Si votre serveur répond rapidement aux demandes, il se peut que nous puissions explorer plus de pages de votre site que prévu. Ceci dit, l'objectif principal de Google est d'explorer le contenu de haute qualité. Par conséquent, si vous vous contentez de lui proposer des pages de faible qualité, cela n'incitera pas Googlebot à explorer une plus grande partie de votre site même si elles sont plus rapides. Par contre, si nous estimons que nous sommes passés à côté de contenu de qualité sur votre site, nous augmenterons votre budget afin de pouvoir l'explorer.
Voici comment optimiser l'exploration de vos pages et de vos ressources :
- Empêchez Googlebot de charger les ressources volumineuses, mais sans importance, à l'aide d'un fichier robots.txt. Assurez-vous de ne bloquer que les ressources non critiques, à savoir celles qui n'affectent pas la signification de la page (comme les images décoratives).
- Vérifiez que vos pages se chargent rapidement.
- Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
- Le temps de réponse aux demandes du serveur, ainsi que le temps nécessaire pour afficher les pages, jouent un rôle majeur, y compris la durée de chargement et d'exécution des ressources intégrées telles que les images et les scripts. Tenez compte des ressources volumineuses ou lentes requises pour l'indexation.
Spécifier les modifications de contenu à l'aide de codes d'état HTTP
Google accepte généralement les en-têtes de requêtes HTTP If-Modified-Since
et If-None-Match
pour l'exploration. Les robots d'exploration Google n'envoient pas les en-têtes à chaque tentative d'exploration. Cela dépend du cas d'utilisation de la requête (par exemple, AdsBot est plus susceptible de définir les en-têtes des requêtes HTTP If-Modified-Since
et If-None-Match
). Si nos robots d'exploration envoient l'en-tête If-Modified-Since
, la valeur de l'en-tête correspond à la date et à l'heure de la dernière exploration du contenu. Sur la base de cette valeur, le serveur peut choisir de renvoyer un code d'état HTTP 304 (Not Modified)
sans corps de réponse, auquel cas Google réutilisera la dernière version du contenu explorée. Si le contenu est plus récent que la date spécifiée par le robot d'exploration dans l'en-tête If-Modified-Since
, le serveur peut renvoyer un code d'état HTTP 200 (OK)
avec le corps de la réponse.
Indépendamment des en-têtes de requête, vous pouvez envoyer un code d'état HTTP 304 (Not Modified)
sans aucun corps de réponse à toute requête Googlebot si le contenu n'a pas changé depuis la dernière visite de Googlebot par l'URL. Vous économiserez ainsi du temps et des ressources à votre serveur, ce qui peut améliorer indirectement l'efficacité de l'exploration.
Masquer les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche
Le fait de mobiliser les ressources du serveur pour des pages secondaires peut réduire l'activité d'exploration pour les pages que vous considérez comme essentielles. Résultat : la détection du contenu nouveau ou mis à jour sur un site peut être retardée de manière significative.
L'exposition de nombreuses URL qui ne devraient pas être explorées par un moteur de recherche peut avoir un impact négatif sur l'exploration et l'indexation de votre site. Ces URL appartiennent généralement aux catégories suivantes :
- Navigation à facettes et identifiants de session : la navigation à facettes correspond généralement à du contenu en double sur le site. Les identifiants de session et autres paramètres d'URL qui permettent simplement de trier ou de filtrer la page n'ajoutent rien au contenu existant. Utilisez un fichier robots.txt pour bloquer les pages de navigation à facettes.
- Contenu en double : aidez Google à identifier le contenu en double afin d'éviter toute exploration inutile.
- Pages
soft 404
: affichez un code404
lorsqu'une page n'existe plus. - Pages piratées : consultez le rapport sur les problèmes de sécurité, puis corrigez ou supprimez les pages piratées que vous y trouvez.
- Espaces infinis et proxys : empêchez l'exploration de ces entités à l'aide d'un fichier robots.txt.
- Contenu de mauvaise qualité et spam : il va de soi qu'il est préférable d'éviter ce genre de situation.
- Pages de commande, pages à défilement infini ou pages d'action (pages d'inscription ou d'achat immédiat, par exemple).
Conseillé :
- Utilisez le fichier robots.txt si vous ne souhaitez pas que Google explore une ressource ou une page.
- Si une ressource commune est réutilisée sur plusieurs pages (telle qu'une image partagée ou un fichier JavaScript), référencez cette ressource avec la même URL sur chaque page. De cette manière, Google mettra en cache et réutilisera la même ressource sans avoir à la demander plusieurs fois.
À éviter :
- Évitez d'ajouter ou de supprimer régulièrement des pages ou des répertoires dans le fichier robots.txt dans le but de redistribuer une partie du budget d'exploration de votre site. N'utilisez le fichier robots.txt que pour les pages ou les ressources qui ne devraient pas figurer sur Google à long terme.
- Évitez d'effectuer une rotation des sitemaps ou d'utiliser d'autres mécanismes de masquage temporaire pour redistribuer le budget.
Gérer la surexploration de votre site (urgence)
Googlebot exploite des algorithmes qui l'empêchent de surcharger votre site de demandes d'exploration. Toutefois, si vous estimez que cela n'est pas suffisant, plusieurs options s'offrent à vous.
Diagnostic :
Surveillez votre serveur pour déterminer si le nombre de requêtes Googlebot envoyées à votre site est excessif.
Traitement :
En cas d'urgence, nous vous recommandons de suivre les étapes ci-dessous pour ralentir la fréquence d'exploration de Googlebot :
- Renvoyez des codes d'état de réponse HTTP
503
ou429
temporairement pour les requêtes Googlebot lorsque votre serveur est surchargé. Googlebot tentera de réexplorer ces URL pendant environ deux jours. Sachez que si vous renvoyez des codes de non-disponibilité pendant une durée prolongée, Google ralentira définitivement ou cessera d'explorer les URL de votre site. Veillez donc à prendre les mesures supplémentaires suivantes. -
Lorsque la vitesse d'exploration diminue, cessez de renvoyer des codes d'état de réponse HTTP
503
ou429
pour les requêtes d'exploration. Si vous renvoyez503
ou429
pendant plus de deux jours, Google supprimera ces URL de l'index. - Surveillez la capacité de l'exploration et de l'hôte au fil du temps.
- Si le robot problématique fait partie des robots d'exploration AdsBot, cela signifie probablement que vous avez créé des cibles d'annonces dynamiques du Réseau de Recherche pour votre site que Google tente d'explorer. Cette exploration se répète toutes les trois semaines. Si votre serveur n'est pas assez puissant pour gérer ces explorations, pensez à limiter vos cibles d'annonces ou à augmenter la capacité de diffusion.
Idées reçues et faits avérés concernant l'exploration
Testez vos connaissances sur la façon dont Google explore et indexe les sites Web.
5xx
(erreurs de serveur) ou de problèmes de délai avant expiration de la connexion indiquent le contraire, et l'exploration ralentit. Nous recommandons de prêter attention au rapport "Statistiques sur l'exploration" dans la Search Console et de limiter le nombre d'erreurs de serveur.
nofollow
a une incidence sur le budget d'exploration.nofollow
, elle peut toujours être explorée si une autre page de votre site ou toute page disponible sur le Web n'étiquette pas ce lien avec cette instruction nofollow
.noindex
pour contrôler le budget d'exploration.noindex
.
Toutefois,
noindex
est là pour vous aider à exclure des contenus de l'index. Si vous souhaitez vous assurer que ces pages n'entrent pas dans l'index Google, continuez à utiliser noindex
et ne vous souciez pas du budget d'exploration. Il est également important de noter que si vous supprimez des URL de l'index Google avec noindex
ou une autre méthode, Googlebot peut se concentrer sur d'autres URL de votre site, ce qui signifie que noindex
peut libérer indirectement une partie du budget d'exploration de votre site.
4xx
gaspillent leur budget d'exploration.4xx
(sauf 429
) ne gaspillent pas votre budget d'exploration. Google a tenté d'explorer la page, mais a reçu un code d'état et aucun autre contenu.