Guide sur la gestion du budget d'exploration pour les propriétaires de sites volumineux

Ce guide explique comment optimiser l'exploration par Google des sites très volumineux et fréquemment mis à jour.

Si votre site ne comporte pas un grand nombre de pages qui changent rapidement ou si vos pages semblent être explorées le jour de leur publication, la lecture de ce guide n'est pas nécessaire. Il vous suffit de maintenir votre sitemap à jour et de vérifier régulièrement la couverture de votre index.

Si votre contenu est disponible depuis un certain temps, mais qu'il n'a jamais été indexé, il est important d'agir. Commencez par utiliser l'outil d'inspection d'URL pour déterminer la raison pour laquelle votre page n'est pas indexée.

À qui s'adresse ce guide ?

Ce guide avancé cible les sites suivants :

  • Sites très volumineux (plus d'un million de pages uniques) dont le contenu change assez souvent (une fois par semaine)
  • Sites de taille moyenne ou grande (plus de 10 000 pages uniques) dont le contenu change très rapidement (quotidiennement)

Théorie générale de l'exploration

Le Web est tellement vaste qu'il ne permet pas à Google d'explorer ni d'indexer toutes les URL disponibles. C'est pourquoi Googlebot ne peut pas explorer indéfiniment un site. Le temps et les ressources que Google consacre à l'exploration d'un site sont généralement régis par le budget d'exploration de ce site. Notez que tous les éléments explorés sur votre site ne sont pas nécessairement indexés. Chaque page doit être évaluée, consolidée et examinée afin de déterminer si elle sera indexée après son exploration.

Le budget d'exploration est déterminé par deux éléments clés : la limite de la capacité d'exploration et le besoin d'exploration.

Limite de la capacité d'exploration

L'objectif de Googlebot est d'explorer votre site sans surcharger vos serveurs. Pour ce faire, Googlebot calcule une limite de la capacité d'exploration. Celle-ci correspond au nombre maximal de connexions simultanées parallèles que Googlebot peut utiliser pour explorer un site, ainsi qu'au temps qu'il doit attendre entre deux explorations. Cette valeur est calculée dans le but de couvrir l'ensemble de votre contenu principal sans surcharger vos serveurs.

La limite de la capacité d'exploration peut augmenter ou diminuer en fonction de différents facteurs :

  • État de l'exploration : si le site répond rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue, et Googlebot réduit son exploration.
  • Limite définie par le propriétaire du site dans la Search Console : les propriétaires de sites Web ont la possibilité de réduire l'exploration de leur site par Googlebot. Notez que la définition de limites plus élevées n'augmente pas automatiquement l'exploration.
  • Limites d'exploration de Google : bien que notre infrastructure soit très vaste, elle n'est pas infinie. C'est pourquoi nous devons faire des choix par rapport aux ressources dont nous disposons.

Besoin d'exploration

En règle générale, Google consacre autant de temps que nécessaire à l'exploration d'un site, en fonction de sa taille, de la fréquence de mise à jour, de la qualité de ses pages et de sa pertinence par rapport aux autres sites.

Les facteurs qui jouent un rôle majeur dans la détermination du besoin d'exploration sont les suivants :

  • Inventaire perçu : sans consigne de votre part, Googlebot tente d'explorer la totalité ou la plupart des URL de votre site dont il a connaissance. Si un grand nombre d'entre elles constituent des doublons ou si leur exploration n'est pas indispensable pour une autre raison (page supprimée, contenu sans importance, etc.), une grande partie du temps passé par Google sur votre site est gaspillé. Ce facteur fait partie de ceux que vous pouvez contrôler le plus facilement.
  • Popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans notre index.
  • Obsolescence : l'objectif de nos systèmes est d'explorer fréquemment les documents afin d'identifier toute modification.

En outre, les événements sur l'ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d'exploration afin de réindexer le contenu sur les nouvelles URL.

Récapitulatif

En associant la capacité d'exploration au besoin d'exploration, Google définit le budget d'exploration d'un site comme l'ensemble d'URL que Googlebot peut et veut explorer. Même si la limite de la capacité d'exploration n'est pas atteinte, si le besoin d'exploration est faible, Googlebot explore moins votre site.

Bonnes pratiques

Pour optimiser l'efficacité de l'exploration, suivez ces bonnes pratiques :

  • Gérer votre inventaire d'URL : utilisez les outils appropriés pour indiquer à Google les pages à explorer ou à ne pas explorer. Si Google passe trop de temps à explorer des URL qui ne sont pas adaptées à l'index, Googlebot peut décider de cesser de consulter le reste de votre site (ou d'augmenter son budget d'exploration pour le couvrir entièrement).
    • Consolidez le contenu en double. Éliminez le contenu en double afin de concentrer l'exploration sur le contenu qui est unique plutôt que sur les URL uniques.
    • Bloquez l'exploration des URL que vous ne souhaitez pas indexer. Il est possible que certaines pages soient importantes pour les utilisateurs, mais que vous ne souhaitiez pas qu'elles apparaissent dans les résultats de recherche (pages à défilement infini qui dupliquent des informations sur des pages liées ou versions triées différemment de la même page, par exemple). Si vous ne pouvez pas les consolider comme décrit dans le premier point, bloquez ces pages sans importance (dans la recherche Google) à l'aide du fichier robots.txt ou de l'outil Paramètres d'URL (pour le contenu en double accessible par des paramètres d'URL).
    • Renvoyez l'erreur 404/410 pour les pages supprimées définitivement. Google n'oublie pas les URL dont il a connaissance, mais une erreur 404 lui permet de comprendre qu'il n'est plus utile d'explorer à nouveau l'URL correspondante. En revanche, les URL bloquées restent dans la file d'attente d'exploration beaucoup plus longtemps et sont réexplorées une fois que le blocage est supprimé.
    • Éliminez les erreurs "soft 404". Les pages auxquelles des erreurs "soft 404" sont associées continuent à être explorées et consomment donc inutilement une partie de votre budget. Consultez le rapport Couverture de l'index pour identifier les erreurs "soft 404".
    • Mettez régulièrement à jour vos sitemaps. Google consulte régulièrement votre sitemap. Veillez donc à y inclure tout le contenu à explorer. Si votre site comprend du contenu mis à jour, nous vous recommandons d'inclure la balise <lastmod>.
    • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Optimisez le chargement de vos pages. Si nous sommes en mesure de charger et d'afficher vos pages rapidement, il est probable que nous parviendrons à lire davantage de contenu sur votre site.
  • Suivez l'exploration de votre site. Vérifiez si votre site a rencontré des problèmes de disponibilité lors de l'exploration et cherchez des moyens d'améliorer l'efficacité de l'exploration.

Suivre l'exploration et l'indexation de votre site

Voici les principales étapes à suivre pour suivre le profil d'exploration de votre site :

  1. Vérifiez si Googlebot rencontre des problèmes de disponibilité sur votre site.
  2. Déterminez si certaines de vos pages ne sont pas explorées alors qu'elles devraient l'être.
  3. Vérifiez si certaines parties de votre site doivent être explorées plus rapidement qu'elles ne le sont déjà.
  4. Optimisez l'exploration de votre site.
  5. Corrigez toute exploration excessive de votre site.

1. Vérifier si Googlebot rencontre des problèmes de disponibilité sur votre site

L'amélioration de la disponibilité de votre site n'entraîne pas nécessairement une augmentation de votre budget d'exploration. Google détermine la vitesse d'exploration la plus appropriée en fonction du besoin d'exploration, comme décrit précédemment. Cependant, les problèmes de disponibilité empêchent Google d'explorer votre site autant qu'il le souhaiterait.

Diagnostic :

Consultez le rapport de statistiques sur l'exploration pour afficher l'historique d'exploration de Googlebot pour votre site. Celui-ci indique à quel moment Google a rencontré des problèmes de disponibilité sur votre site. Si des erreurs ou des avertissements de disponibilité sont signalés, examinez les graphiques Disponibilité de l'hôte et recherchez les instances où les demandes Googlebot ont dépassé le seuil critique. Cliquez ensuite sur le graphique pour voir quelles URL ont échoué et essayez de déterminer si elles correspondent à celles ayant rencontré des problèmes sur votre site.

Traitement :

  • Lisez la documentation du rapport sur les statistiques d'exploration pour déterminer comment détecter et gérer certains problèmes de disponibilité.
  • Bloquez l'exploration des pages requises (voir la section Gérer votre inventaire).
  • Accélérez le chargement et l'affichage des pages (voir la section Optimiser l'exploration de votre site).
  • Augmentez la capacité de votre serveur. Si Google semble atteindre constamment la limite de diffusion de votre site lors de son exploration, mais que certaines de vos URL importantes ne sont pas explorées ou mises à jour autant de fois que nécessaire, l'augmentation de la capacité de votre serveur peut aider Google à explorer davantage de pages sur votre site. Consultez l'historique de disponibilité de votre hôte dans le rapport des statistiques sur l'exploration pour déterminer si la vitesse d'exploration de Google semble fréquemment dépasser la limite. Si tel est le cas, augmentez vos ressources de diffusion pendant un mois, puis vérifiez si les demandes d'exploration ont augmenté pendant cette période.

2. Vérifier si certaines parties de votre site ne sont pas explorées alors qu'elles devraient l'être

Google consacre autant de temps que nécessaire à votre site afin d'indexer tout le contenu pertinent et de haute qualité qu'il y trouve. Si vous estimez que Googlebot est passé à côté d'un contenu important, plusieurs raisons sont possibles : soit Googlebot n'a pas connaissance de l'existence de ce contenu ou n'y a pas accès, soit la disponibilité de votre site restreint l'accès de Google (ou Google tente de ne pas surcharger votre site).

Diagnostic :

La Search Console ne permet pas de filtrer l'historique d'exploration par URL ou par chemin. Toutefois, vous pouvez inspecter les journaux de votre site pour savoir si des URL spécifiques ont été explorées par Googlebot. Rappelez-vous que les URL explorées ne sont pas forcément indexées.

L'identification et l'exploration des nouvelles pages requièrent au moins plusieurs jours pour la plupart des sites, sauf pour ceux où l'exploration du contenu doit avoir lieu le jour de la publication, tels que les sites d'actualités.

Traitement :

Si vous ajoutez des pages à votre site et qu'elles ne sont pas explorées dans un délai raisonnable, soit Google n'a pas connaissance de leur existence ou n'y a pas accès, soit votre site a atteint sa capacité de diffusion maximale ou vous avez épuisé votre budget d'exploration.

  1. Notifiez Google en cas d'ajout de pages : mettez à jour vos sitemaps afin qu'ils reflètent les nouvelles URL.
  2. Examinez les règles du fichier robots.txt afin de vérifier que vous ne bloquez pas des pages par erreur.
  3. Si toutes vos pages non explorées contiennent des paramètres d'URL, il est possible qu'elles soient exclues en raison des configurations effectuées dans l'outil Paramètres d'URL. Malheureusement, il n'existe aucun moyen de vérifier ce type d'exclusion. C'est pourquoi nous vous déconseillons généralement d'utiliser cet outil.
  4. Vérifiez vos priorités d'exploration (ou utilisez votre budget d'exploration avec discernement). Gérez votre inventaire et optimisez l'exploration de votre site.
  5. Vérifiez que vous n'avez pas atteint la capacité de diffusion. Googlebot réduit l'exploration s'il détecte que vos serveurs rencontrent des difficultés pour répondre aux demandes d'exploration.

Notez que les pages explorées ne s'affichent pas forcément dans les résultats de recherche, notamment si leur contenu ne présente pas d'intérêt particulier pour les internautes ou si la demande des utilisateurs est insuffisante.

3. Vérifier si les mises à jour sont explorées suffisamment rapidement

Si nous n'explorons pas vos pages nouvelles ou mises à jour, il se peut que nous ne les ayons pas détectées ou que nous n'ayons pas compris qu'elles avaient été mises à jour. Voici comment nous informer des mises à jour de vos pages.

Notez que Google s'efforce de vérifier et d'indexer les pages dans les meilleurs délais. Pour la plupart des sites, ce délai est d'au moins trois jours. Ne vous attendez pas à ce que Google indexe les pages le jour où vous les publiez, sauf si vous êtes un site d'actualités ou que vous faites partie des sites reconnus pour lesquels le facteur temps est déterminant.

Diagnostic :

Examinez les journaux de votre site pour déterminer quand des URL spécifiques ont été explorées par Googlebot.

Pour connaître la date d'indexation, utilisez l'outil d'inspection d'URL ou effectuez une recherche Google portant sur les URL que vous avez mises à jour.

Traitement :

Conseillé :

  • Utilisez un sitemap Google Actualités si votre site propose des articles d'actualité. Envoyez une requête ping à Google lorsque votre sitemap est publié ou modifié.
  • Utilisez la balise <lastmod> dans les sitemaps pour indiquer qu'une URL indexée a été mise à jour.
  • Utilisez une structure d'URL simple pour aider Google à identifier vos pages.
  • Fournissez des liens <a> explorables standards pour aider Google à détecter vos pages.

À éviter :

  • Envoyez le même sitemap, sans aucune modification, plusieurs fois par jour.
  • Comptez à ce que Googlebot explore tous les éléments de votre sitemap ou à ce qu'il les explore immédiatement. Les sitemaps sont des suggestions utiles pour Googlebot, et non des exigences absolues.
  • Ajoutez dans vos sitemaps les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche. Ces pages contribuent à épuiser votre budget d'exploration.

4. Optimiser l'exploration de votre site

Accélérer le chargement des pages

L'exploration Google est limitée par la bande passante, le temps et la disponibilité des instances Googlebot. Si votre serveur répond rapidement aux demandes, il se peut que nous puissions explorer plus de pages de votre site que prévu. Ceci dit, l'objectif principal de Google est d'explorer le contenu de haute qualité. Par conséquent, si vous vous contentez de lui proposer des pages de faible qualité, cela n'incitera pas Googlebot à explorer une plus grande partie de votre site même si elles sont plus rapides. Par contre, si nous estimons que nous sommes passés à côté de contenu de qualité sur votre site, nous augmenterons votre budget afin de pouvoir l'explorer.

Voici comment optimiser l'exploration de vos pages et de vos ressources :

  • Empêchez Googlebot de charger les ressources volumineuses, mais sans importance, à l'aide d'un fichier robots.txt. Assurez-vous de ne bloquer que les ressources non critiques, à savoir celles qui n'affectent pas la signification de la page (comme les images décoratives).
  • Vérifiez que vos pages se chargent rapidement.
  • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Le temps de réponse aux demandes du serveur, ainsi que le temps nécessaire pour afficher les pages, jouent un rôle majeur, y compris la durée de chargement et d'exécution des ressources intégrées telles que les images et les scripts. Tenez compte des ressources volumineuses ou lentes requises pour l'indexation.

Masquer les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche

Le fait de mobiliser les ressources du serveur pour des pages secondaires peut réduire l'activité d'exploration pour les pages que vous considérez comme essentielles. Résultat : la détection du contenu nouveau ou mis à jour sur un site peut être retardée de manière significative.

L'exposition de nombreuses URL qui ne devraient pas être explorées par un moteur de recherche peut avoir un impact négatif sur l'exploration et l'indexation de votre site. Ces URL appartiennent généralement aux catégories suivantes :

  • Navigation à facettes et identifiants de session : la navigation à facettes correspond généralement à du contenu en double sur le site. Les identifiants de session et autres paramètres d'URL qui permettent simplement de trier ou de filtrer la page n'ajoutent rien au contenu existant. Utilisez un fichier robots.txt pour bloquer les pages de navigation à facettes. Si vous constatez que Google explore un grand nombre d'URL en double avec des paramètres différents sur votre site, envisagez de bloquer le contenu en double paramétré.
  • Contenu en double : aidez Google à identifier le contenu en double afin d'éviter toute exploration inutile.
  • Pages "soft 404" : affichez un code 404 lorsqu'une page n'existe plus.
  • Pages piratées : consultez le rapport sur les problèmes de sécurité, puis corrigez ou supprimez les pages piratées que vous y trouvez.
  • Espaces infinis et proxys : empêchez l'exploration de ces entités à l'aide d'un fichier robots.txt.
  • Contenu de mauvaise qualité et spam : il va de soi qu'il est préférable d'éviter ce genre de situation.
  • Pages de commande, pages à défilement infini ou pages d'action (pages d'inscription ou d'achat immédiat, par exemple).

Conseillé :

  • Utilisez le fichier robots.txt si vous ne souhaitez pas que Google explore une ressource ou une page.
  • Si une ressource commune est réutilisée sur plusieurs pages (telle qu'une image partagée ou un fichier JavaScript), référencez cette ressource avec la même URL sur chaque page. De cette manière, Google mettra en cache et réutilisera la même ressource sans avoir à la demander plusieurs fois.

À éviter :

  • Ajoutez ou supprimez régulièrement des pages ou des répertoires dans le fichier robots.txt afin de "libérer" une partie du budget d'exploration pour votre site. Utilisez le fichier robots.txt uniquement pour les pages ou les ressources qui ne devraient pas figurer sur Google à long terme.
  • Effectuez une rotation des sitemaps ou utilisez d'autres mécanismes de masquage temporaire pour "libérer une plus grande partie du budget".

5. Gérer la surexploration de votre site (urgence)

Googlebot exploite des algorithmes qui l'empêchent de surcharger votre site de demandes d'exploration. Toutefois, si vous estimez que cela n'est pas suffisant, plusieurs options s'offrent à vous.

Diagnostic :

Surveillez votre serveur pour déterminer si le nombre de requêtes Googlebot envoyées à votre site est excessif.

Traitement :

En cas d'urgence, nous vous recommandons de suivre les étapes ci-dessous pour ralentir la fréquence d'exploration de Googlebot :

  1. Lorsque votre serveur est surchargé, répondez aux requêtes Googlebot par des codes de résultat HTTP 503/429 temporaires. Googlebot tentera de réexplorer ces URL pendant environ deux jours. Sachez que si vous renvoyez des codes de non-disponibilité pendant une durée prolongée, Google ralentira définitivement ou cessera d'explorer les URL de votre site. Veillez donc à prendre les mesures supplémentaires suivantes :
  2. Réduisez la vitesse d'exploration de votre site par Googlebot. Cette opération peut prendre jusqu'à deux jours et nécessite l'autorisation du propriétaire du site dans la Search Console. Ne prenez cette mesure que si vous constatez une exploration excessive répétée à long terme par Google dans le rapport de statistiques sur l'exploration, disponible dans le graphique Disponibilité de l'hôte > Utilisation de l'hôte.
  3. Lorsque la vitesse d'exploration diminue, cessez de renvoyer des codes de résultat 503/429 pour les demandes d'exploration. L'affichage de codes de résultat 503 pendant plus de deux jours incite Google à supprimer les URL correspondantes de l'index.
  4. Surveillez la capacité de l'exploration et de l'hôte au fil du temps. Si nécessaire, augmentez de nouveau la vitesse d'exploration ou autorisez la vitesse d'exploration par défaut.
  5. Si le robot problématique fait partie des robots d'exploration AdsBot, cela signifie probablement que vous avez créé des cibles d'annonces dynamiques du Réseau de Recherche pour votre site que Google tente d'explorer. Cette exploration se répète toutes les deux semaines. Si votre serveur n'est pas assez puissant pour gérer ces explorations, pensez à limiter vos cibles d'annonces ou à augmenter la capacité de diffusion.

Idées reçues et faits avérés concernant l'exploration

Testez vos connaissances sur la façon dont Google explore et indexe les sites Web.

La compression de mes sitemaps contribue à augmenter le budget d'exploration.
Vrai
Faux
C'est une idée reçue. Le fait de compresser un sitemap n'empêche pas qu'il doit être récupéré sur le serveur. Dès lors, l'envoi de sitemaps compressés ne fait pas réellement gagner de temps à Google pour l'exploration.
Google privilégie les contenus les plus récents. Je préfère donc continuer à peaufiner ma page.
Vrai
Faux
Le contenu est évalué en fonction de la qualité, quelle que soit son ancienneté. Créez et mettez à jour votre contenu autant que nécessaire, mais il n'est pas utile d'y apporter constamment des modifications mineures pour donner l'impression que le contenu principal est plus récent qu'il ne l'est vraiment.
Google privilégie le contenu qui existe de longue date (qui a fait ses preuves) plutôt que les nouveaux contenus.
Vrai
Faux
Si votre page est utile, peu importe que son contenu soit nouveau ou ancien.
Google préfère les URL propres et n'apprécie pas les paramètres de requête.
Vrai
Faux
Nous pouvons explorer les paramètres. Toutefois, n'oubliez pas de bloquer les pages dont les paramètres renvoient vers du contenu en double.
Plus vos pages se chargent et s'affichent rapidement, plus elles ont de chance d'être explorées par Google.
Vrai
Vrai, dans la mesure où nos ressources sont limitées par le temps et par le nombre de robots d'exploration dont nous disposons. Dès lors, plus vous nous proposez de pages dans une période de temps réduite, plus nous pouvons en explorer. Cependant, nous pouvons consacrer plus de temps à l'exploration d'un site qui contient des informations plus importantes, même s'il est plus lent. De manière générale, il est préférable d'accroître le chargement et l'affichage de votre site pour améliorer l'expérience utilisateur plutôt que pour augmenter la couverture de l'exploration. Il est beaucoup plus simple d'aider Google à explorer le contenu approprié que de s'attendre à ce qu'il explore tout votre site à chaque fois. Notez que l'exploration d'un site implique à la fois l'extraction et l'affichage du contenu. Le temps passé à afficher la page compte autant que le temps passé à demander la page. Par conséquent, en accélérant l'affichage de vos pages, vous augmentez également la vitesse d'exploration.
Faux
Les sites de petite taille ne sont pas explorés aussi souvent que les grands.
Vrai
Faux
Si un site propose du contenu intéressant qui change souvent, nous l'explorons souvent, quelle que soit sa taille.
Plus votre contenu est facilement accessible depuis la page d'accueil, plus Google y prête attention.
Vrai
Vrai et faux
La page d'accueil de votre site en est souvent la page centrale. Par conséquent, les pages qui y sont directement liées peuvent être considérées comme plus importantes et être donc explorées plus souvent. Toutefois, cela ne signifie pas que ces pages seront mieux classées que les autres pages de votre site.
Faux
La gestion des versions d'URL est un bon moyen d'inciter Google à réexplorer mes pages.
Vrai
Vrai et faux
L'utilisation d'une URL pour laquelle la gestion des versions est activée afin d'inciter Google à la réexplorer plus tôt fonctionne probablement. Toutefois, cela n'est généralement pas nécessaire et consomme inutilement les ressources d'exploration si la page n'a pas été modifiée. Si vous utilisez des URL pour lesquelles la gestion des versions est activée afin d'indiquer le nouveau contenu à Google, vous ne devez modifier ces URL que lorsque le contenu correspondant a changé de manière significative.
Faux
La vitesse du site et les erreurs affectent mon budget d'exploration.
Vrai
En rendant un site plus rapide, vous améliorez l'expérience utilisateur tout en augmentant la vitesse d'exploration. Pour Googlebot, un site rapide est le signe de serveurs en bon état : il peut accéder à un contenu plus important avec le même nombre de connexions. En revanche, un nombre important de codes de résultats HTTP 5xx (erreurs de serveur) ou de problèmes de délai d'inactivité de la connexion indiquent le contraire, et l'exploration ralentit. Nous recommandons de prêter attention au rapport de statistiques sur l'exploration dans la Search Console et de limiter le nombre d'erreurs de serveur.
Faux
L'exploration est un facteur de classement.
Vrai
Faux
L'amélioration de la vitesse d'exploration n'entraîne pas nécessairement un meilleur classement dans les résultats de recherche. Google utilise de nombreux signaux pour classer les résultats. Même si l'exploration est nécessaire pour qu'une page figure dans les résultats de recherche, elle n'influe pas sur le classement.
Les autres versions des URL et le contenu intégré comptent dans le budget d'exploration.
Vrai
En général, toutes les URL que Googlebot explore comptent dans le budget d'exploration d'un site. Les autres versions des URL, comme les versions AMP ou "hreflang", ainsi que le contenu intégré, comme le contenu CSS et JavaScript, y compris les requêtes XHR, peuvent nécessiter une exploration et utiliser ainsi le budget d'exploration d'un site.
Faux
Je peux contrôler Googlebot à l'aide de l'instruction "crawl-delay".
Vrai
Faux
L'instruction non standard "crawl-delay" d'un fichier robots.txt n'est pas traitée par Googlebot.
L'instruction nofollow a une incidence sur le budget d'exploration.
Vrai
Vrai et faux
Toute URL explorée a une incidence sur le budget d'exploration. Par conséquent, même si votre page marque une URL avec l'instruction nofollow, elle peut toujours être explorée si une autre page de votre site ou toute page disponible sur le Web n'étiquette pas ce lien avec cette instruction.
Faux