Guida per i proprietari di siti di grandi dimensioni per la gestione del budget di scansione

Questa guida descrive come ottimizzare la scansione di Google dei siti di grandi dimensioni soggetti a frequenti aggiornamenti.

Se il tuo sito non contiene un numero elevato di pagine soggette a frequenti modifiche o se sembra che le tue pagine siano sottoposte a scansione nello stesso giorno in cui vengono pubblicate, non è necessario che tu legga questa guida. È sufficiente tenere aggiornata la Sitemap e controllare la copertura dell'indice con regolarità.

Se i tuoi contenuti sono disponibili da diverso tempo, ma non sono mai stati indicizzati, il problema è diverso; utilizza lo strumento Controllo URL per scoprire perché la tua pagina non viene indicizzata.

Destinatari della guida

Questa è una guida avanzata destinata a:

  • Siti di grandi dimensioni (oltre un milione di pagine univoche) con contenuti che cambiano con una certa frequenza (una volta a settimana).
  • Siti di medie o grandi dimensioni (oltre 10.000 pagine univoche) con contenuti che cambiano molto spesso (ogni giorno).
  • Siti con una porzione consistente di URL totali classificati da Search Console come Rilevata, ma attualmente non indicizzata

Teoria generale della scansione

Il web è uno spazio praticamente infinito e l'esplorazione e l'indicizzazione di ogni URL disponibile va ben oltre le capacità di Google. Pertanto, il tempo che Googlebot può dedicare alla scansione di un singolo sito è limitato. La quantità di tempo e risorse che Google dedica alla scansione di un sito viene comunemente chiamata budget di scansione. Tieni presente che non tutti gli elementi sottoposti a scansione sul tuo sito verranno necessariamente indicizzati; ogni pagina deve essere valutata, accorpata e verificata per stabilire se verrà indicizzata dopo la scansione.

Gli elementi principali che determinano il budget di scansione sono il limite di capacità di scansione e la domanda di scansione.

Limite di capacità di scansione

Il compito di Googlebot è eseguire la scansione del tuo sito senza sovraccaricare i tuoi server. Per riuscirci, Googlebot calcola un limite di capacità di scansione dato dal numero massimo di connessioni simultanee che può utilizzare per eseguire la scansione di un sito e dal ritardo tra recuperi. Questo valore viene calcolato in modo da fornire la copertura di tutti i contenuti importanti, senza sovraccaricare i tuoi server.

Il limite di capacità di scansione può aumentare o diminuire in base a diversi fattori:

  • Stato della scansione: se per un po' di tempo il sito risponde rapidamente, il limite aumenta e, di conseguenza, possono essere utilizzate più connessioni per la scansione. Se il sito rallenta o risponde con errori del server, il limite diminuisce e Googlebot esegue un numero inferiore di scansioni.
  • Limiti di scansione di Google: Google dispone di risorse ragguardevoli, ma non illimitate. Pertanto, deve assegnare priorità per ottimizzarne l'impiego.

Domanda di scansione

In genere, Google dedica tutto il tempo necessario alla scansione di un sito in base a dimensioni del sito stesso, frequenza di aggiornamento, qualità delle pagine e pertinenza, in modo commisurato agli altri siti.

I fattori che svolgono un ruolo significativo nel determinare la domanda di scansione sono i seguenti:

  • Inventario percepito: in mancanza di tue indicazioni, Googlebot proverà a eseguire la scansione di tutti gli URL o della maggior parte degli URL noti sul tuo sito. Qualora il tuo sito dovesse contenere un numero elevato di URL duplicati o che non è necessario sottoporre a scansione perché rimossi, non importanti o altro, Google potrebbe impiegare più tempo del dovuto per eseguirne la scansione. Questo è il fattore che puoi tenere maggiormente sotto controllo.
  • Popolarità: gli URL più popolari su internet tendono a essere sottoposti più spesso a scansione per tenerli costantemente aggiornati nel nostro indice.
  • Mancato aggiornamento: i nostri sistemi ripetono la scansione dei documenti con una frequenza sufficiente a rilevare eventuali modifiche.

Inoltre, eventi a livello di sito, come il trasferimento del sito, possono generare un aumento della domanda di scansione per reindicizzare i contenuti in base ai nuovi URL.

In sintesi

Prendendo in considerazione la capacità di scansione e la domanda di scansione nel loro insieme, Google definisce il budget di scansione di un sito come l'insieme di URL che Googlebot può e vuole sottoporre a scansione. Anche se il limite di capacità di scansione non viene raggiunto, se la domanda di scansione è bassa la frequenza di scansione del tuo sito da parte di Googlebot sarà comunque inferiore.

Best practice

Segui queste best practice per massimizzare l'efficienza delle tue scansioni:

  • Gestisci l'inventario di URL: utilizza gli strumenti appropriati per comunicare a Google quali pagine è necessario o non è necessario sottoporre a scansione. Se Google dedica troppo tempo alla scansione di URL non idonei all'indicizzazione, Googlebot potrebbe decidere che non vale la pena esaminare il resto del sito (né tantomeno aumentare il budget per farlo).
    • Accorpa i contenuti duplicati: elimina contenuti duplicati per concentrare la scansione su contenuti univoci anziché su URL univoci.
    • Blocca la scansione degli URL utilizzando il file robots.txt: seppure alcune pagine potrebbero essere importanti per gli utenti, non è detto che tu voglia che siano visualizzate nei risultati della Ricerca. Un esempio sono le pagine a scorrimento continuo che duplicano informazioni su pagine collegate o le versioni della stessa pagina ordinate in modo diverso. Se non riesci ad accorpare queste pagine non importanti per la ricerca come descritto nel primo punto elenco, bloccale utilizzando il file robots.txt. Se blocchi gli URL con il file robots.txt, la probabilità di indicizzazione degli URL si riduce notevolmente.
    • Restituisci un codice di stato 404 o 410 per le pagine rimosse definitivamente: Google non dimenticherà un URL noto, ma un codice di stato 404 segnala in modo chiaro di evitare la nuova scansione di quel dato URL. Gli URL bloccati continueranno a rimanere nella coda di scansione, anche se verranno sottoposti nuovamente a scansione solo con la rimozione del blocco.
    • Elimina gli errori soft 404: le pagine soft 404 continueranno a essere sottoposte a scansione e a incidere negativamente sul budget. Controlla il report Copertura dell'indice per verificare la presenza di errori soft 404.
    • Mantieni aggiornate le Sitemap: Google legge le tue Sitemap con regolarità, quindi assicurati di includere tutti i contenuti che vuoi che siano sottoposti a scansione. Se il tuo sito include contenuti aggiornati, ti consigliamo di includere il tag <lastmod>.
    • Evita lunghe catene di reindirizzamento, che hanno un effetto negativo sulla scansione.
  • Fai in modo che le tue pagine si carichino in modo efficiente: se Google riesce a caricare e visualizzare le tue pagine più velocemente, è possibile che riesca a leggere più contenuti sul tuo sito.
  • Monitora la scansione del tuo sito: controlla se il sito ha riscontrato problemi di disponibilità durante la scansione e cerca dei modi per renderla più efficiente.

Monitorare la scansione e l'indicizzazione del sito

Di seguito sono riportati i passaggi principali per monitorare la scansione del tuo sito:

  1. Verifica se Googlebot sta riscontrando problemi di disponibilità sul tuo sito.
  2. Verifica se sono presenti pagine che devono essere sottoposte a scansione e non lo sono.
  3. Verifica se la scansione di parti del tuo sito debba essere più veloce di quanto lo sia al momento.
  4. Migliora l'efficienza della scansione del tuo sito.
  5. Gestisci i casi di scansione eccessiva del tuo sito.

Verifica se Googlebot sta riscontrando problemi di disponibilità sul tuo sito

Migliorare la disponibilità del sito non aumenta necessariamente il budget di scansione: Google determina la frequenza di scansione ottimale in base alla domanda di scansione, come descritto in precedenza. Tuttavia, i problemi di disponibilità impediscono a Google di eseguire la scansione del tuo sito tutte le volte che potrebbe.

Diagnosi

Utilizza il report Statistiche di scansione per controllare la cronologia di scansione di Googlebot per il tuo sito. Il report mostra quando sono stati riscontrati problemi di disponibilità sul tuo sito. Se vengono segnalati errori o avvisi di disponibilità relativi al tuo sito, cercane le istanze nei grafici di disponibilità dell'host in cui le richieste di Googlebot hanno superato la linea di demarcazione rossa. Fai clic sul grafico per vedere quali URL non erano disponibili e prova a correlarli con i problemi sul tuo sito.

Inoltre, puoi utilizzare lo strumento Controllo URL per testare alcuni URL sul tuo sito. Se lo strumento restituisce l'avviso Carico host superato, significa che Googlebot non può eseguire la scansione di tutti gli URL del tuo sito che ha individuato.

Gestione

  • Leggi la documentazione relativa al report Statistiche di scansione per scoprire come identificare e gestire alcuni problemi di disponibilità.
  • Blocca la scansione delle pagine se non vuoi che vengano sottoposte a scansione (consulta la sezione Gestisci l'inventario di URL).
  • Aumenta la velocità di caricamento e rendering delle pagine (consulta la sezione Migliora l'efficienza della scansione del tuo sito).
  • Aumenta la capacità del server. Se Google continua a eseguire la scansione del tuo sito al limite di capacità di pubblicazione, ma restano comunque URL importanti che non vengono sottoposti a scansione o ad aggiornamento tanto quanto necessario, mettere a disposizione un maggior numero di risorse di pubblicazione potrebbe consentire a Google di richiedere più pagine sul tuo sito. Controlla la cronologia delle disponibilità dell'host nel report Statistiche di scansione per verificare se la frequenza di scansione di Google sembra superare spesso la linea di demarcazione. In questo caso, incrementa le risorse di pubblicazione per un mese e verifica se le richieste di scansione subiscono un aumento durante lo stesso periodo.

Verifica se parti del tuo sito che dovrebbero essere sottoposte a scansione non lo sono

Google dedica tutto il tempo necessario al tuo sito per indicizzare tutti i contenuti di alta qualità e di valore per gli utenti che è in grado di rilevare. Se pensi che Googlebot non stia rilevando contenuti importanti, è possibile che i contenuti non siano noti a Googlebot o che siano stati bloccati per Google oppure che la disponibilità del tuo sito limiti l'accesso di Google (ovvero Google sta tentando di non sovraccaricare il sito).

Diagnosi

Search Console non fornisce una cronologia di scansione per il tuo sito che può essere filtrata in base all'URL o al percorso, ma puoi controllare i log del sito per verificare se Googlebot ha eseguito la scansione di specifici URL. Stabilire se gli URL di scansione siano stati indicizzati o meno è tutta un'altra questione.

Ricorda che, per la maggior parte dei siti, saranno necessari diversi giorni prima che le nuove pagine siano rilevate. Ad eccezione dei siti in cui il fattore tempo è decisivo, come i siti di notizie, la maggior parte dei siti non può aspettarsi una scansione degli URL nello stesso giorno.

Gestione

Se aggiungi pagine al tuo sito e queste non vengono sottoposte a scansione in un periodo di tempo ragionevole, è possibile che queste pagine non siano note a Google o che siano bloccate, oppure che sia stata raggiunta la capacità di pubblicazione massima sul sito o che tu abbia esaurito il budget di scansione.

  1. Comunica a Google le tue nuove pagine: aggiorna le tue Sitemap in modo che riflettano i nuovi URL.
  2. Esamina le regole del tuo file robots.txt per assicurarti di non bloccare involontariamente le pagine.
  3. Rivedi le tue priorità di scansione (ovvero, usa il budget di scansione in modo oculato). Gestisci il tuo inventario e migliora l'efficienza di scansione del tuo sito.
  4. Assicurati che la capacità di pubblicazione non si stia esaurendo. Googlebot ridimensionerà la scansione se rileva che i tuoi server hanno problemi a rispondere alle richieste di scansione.

Tieni presente che le pagine potrebbero non essere visualizzate nei risultati di ricerca, anche se sottoposte a scansione, qualora il valore o le richieste degli utenti non siano sufficienti.

Controlla se la scansione degli aggiornamenti avviene con sufficiente tempestività

Se pagine nuove o aggiornate sul tuo sito dovessero sfuggire alla scansione, è possibile che non siano state visualizzate o non ne sia stato rilevato l'aggiornamento. Ecco come puoi aiutarci a identificare aggiornamenti delle pagine.

Tieni presente che Google si impegna a controllare e indicizzare le pagine in modo ragionevolmente tempestivo. Per la maggior parte dei siti, i tempi di attesa sono di minimo 3 giorni. Non aspettarti che Google indicizzi le pagine lo stesso giorno in cui le pubblichi, a meno che il tuo non sia un sito di notizie o che abbia altri contenuti di valore elevato in cui il fattore tempo è decisivo.

Diagnosi

Controlla i log del sito per stabilire quando Googlebot ha eseguito la scansione di specifici URL.

Per determinare la data di indicizzazione, utilizza lo strumento Controllo URL oppure cerca su Google gli URL aggiornati.

Gestione

Pratiche consigliate:

  • Utilizzare una Sitemap per Google News se il proprio sito fornisce notizie.
  • Utilizzare il tag <lastmod> nelle Sitemap per indicare la data dell'ultimo aggiornamento di un URL indicizzato.
  • Utilizzare una struttura di URL semplice per aiutare Google a rilevare le proprie pagine.
  • Fornire link <a> standard che è possibile sottoporre a scansione per aiutare Google a rilevare le proprie pagine.
  • Se il tuo sito utilizza HTML separato per le versioni mobile e desktop, fornisci nella versione mobile lo stesso insieme di link della versione desktop. Se non è possibile fornire lo stesso insieme di link nella versione mobile, assicurati che siano inclusi in un file Sitemap. Google indicizza solo la versione mobile delle pagine e limitare i link mostrati lì può rallentare il rilevamento di nuove pagine.

Pratiche non consigliate:

  • Inviare la stessa Sitemap invariata più volte al giorno.
  • Aspettarsi che Googlebot esegua la scansione di tutti i contenuti di una Sitemap o che ne esegua la scansione immediata. Le Sitemap rappresentano suggerimenti utili per Googlebot, non requisiti assoluti.
  • Includere URL nelle Sitemap che non vuoi che vengano mostrati nella Ricerca. Ciò può sprecare il tuo budget di scansione per pagine che non vuoi vengano indicizzate.

Migliora l'efficienza della scansione del tuo sito

Aumentare la velocità di caricamento pagina

La scansione di Google è limitata da fattori come larghezza di banda, tempo e disponibilità delle istanze di Googlebot. Quanto più veloce è risposta del sito, tanto maggiore è il numero di pagine che è possibile vengano sottoposte a scansione. Detto ciò, Google vuole soltanto eseguire la scansione di contenuti di alta qualità, pertanto velocizzare il caricamento di pagine di scarsa qualità non induce Googlebot a voler estendere la scansione del tuo sito; se invece Google ritiene che continuando a eseguire la scansione possa rilevare contenuti di alta qualità, è probabile che aumenti il budget di scansione messo a tua disposizione per farlo.

Ecco come puoi ottimizzare le pagine e le risorse per la scansione:

  • Impedisci a Googlebot il caricamento di risorse di grandi dimensioni, ma non importanti, utilizzando il file robots.txt. Assicurati di bloccare solo le risorse non critiche, ossia risorse non importanti per comprendere il significato della pagina (come immagini a scopo decorativo).
  • Assicurati che le pagine vengano caricate rapidamente.
  • Evita lunghe catene di reindirizzamento, che hanno un effetto negativo sulla scansione.
  • Sia il tempo di risposta alle richieste del server sia il tempo necessario per il rendering delle pagine sono importanti, incluso il tempo di caricamento e di esecuzione delle risorse incorporate, come immagini e script. Fai attenzione a risorse voluminose o lente necessarie per l'indicizzazione.

Specificare le modifiche ai contenuti con codici di stato HTTP

In genere Google supporta le intestazioni delle richieste HTTP If-Modified-Since e If-None-Match per la scansione. I crawler di Google non inviano le intestazioni con tutti i tentativi di scansione; dipende dal caso d'uso della richiesta (ad esempio, AdsBot ha più probabilità di impostare le intestazioni delle richieste HTTP If-Modified-Since e If-None-Match). Se i nostri crawler inviano l'intestazione If-Modified-Since, il valore dell'intestazione equivale alla data e all'ora dell'ultima scansione dei contenuti. In base a questo valore, il server potrebbe scegliere di restituire un codice di stato HTTP 304 (Not Modified) senza un corpo della risposta; in questo caso, Google riutilizza la versione dei contenuti sottoposta a scansione l'ultima volta. Se i contenuti sono più recenti rispetto alla data specificata dal crawler nell'intestazione If-Modified-Since, il server può restituire un Codice di stato HTTP 200 (OK) con il corpo della risposta.

Indipendentemente dalle intestazioni della richiesta, puoi inviare un codice di stato HTTP 304 (Not Modified) e nessun corpo della risposta per qualsiasi richiesta di Googlebot se i contenuti non sono cambiati dall'ultima volta che Googlebot ha visitato l'URL. Ciò consentirà di risparmiare tempo e risorse di elaborazione del server, il che potrebbe migliorare indirettamente l'efficienza della scansione.

Nascondere gli URL che non vuoi che vengano visualizzati nei risultati di ricerca

Lo spreco di risorse del server su pagine superflue può compromettere l'attività di scansione di pagine per te importanti, comportando un ritardo significativo nel rilevamento di contenuti nuovi o aggiornati su un sito.

Mostrare un numero elevato di URL del sito che non vuoi vengano sottoposti a scansione dalla Ricerca può influire negativamente sulla scansione e sull'indicizzazione di un sito. In genere questi URL rientrano nelle seguenti categorie:

  • Navigazione per facet e identificatori di sessione: la navigazione per facet estrapola in genere contenuti duplicati dal sito e gli identificatori di sessione, così come altri parametri URL, ordinano o filtrano la pagina ma non forniscono nuovi contenuti. Utilizza il file robots.txt per bloccare le pagine di navigazione per facet.
  • Contenuti duplicati: aiuta Google a identificare contenuti duplicati per evitare la scansione superflua.
  • Pagine soft 404: restituisci un codice 404 quando una pagina non esiste più.
  • Pagine compromesse: assicurati di controllare il report Problemi di sicurezza e di correggere o rimuovere tutte le pagine compromesse trovate.
  • Spazi infiniti e proxy: impedisci la scansione di questi elementi utilizzando il file robots.txt.
  • Scarsa qualità e contenuti spam: come è ovvio, meglio evitare.
  • Pagine del carrello degli acquisti, pagine a scorrimento continuo e pagine che eseguono un'azione (come pagine con invito a registrarsi o ad acquistare).

Pratiche consigliate:

  • Utilizzare il file robots.txt se non vuoi che Google esegua la scansione di una risorsa o di una pagina.
  • Se una stessa risorsa viene riutilizzata su più pagine (ad esempio un'immagine o un file JavaScript condiviso), fai riferimento alla risorsa utilizzando il medesimo URL in ogni pagina, in modo che Google possa memorizzare e riutilizzare questa risorsa, senza doverla richiedere più volte.

Pratiche non consigliate:

  • Aggiungere o rimuovere con assiduità pagine o directory dal file robots.txt per riallocare il budget di scansione in più per il tuo sito. Riservare il file robots.txt solo per quelle pagine o risorse che non vuoi vengano visualizzate su Google per lunghi periodi di tempo.
  • Alternare tra Sitemap o utilizzare altri meccanismi di occultamento temporanei per riallocare il budget.

Gestisci i casi di scansione eccessiva del tuo sito (emergenze)

Googlebot è dotato di algoritmi che gli impediscono di sovraccaricare il tuo sito con richieste di scansione. Tuttavia, se ritieni che, malgrado ciò, Googlebot stia sovraccaricando il tuo sito, puoi provare diverse soluzioni.

Diagnosi

Esegui il monitoraggio del server per verificare che il tuo sito non riceva troppe richieste da Googlebot.

Gestione

In caso di emergenza, procedi come riportato di seguito per rallentare la scansione Googlebot ed evitare il sovraccarico:

  1. Quando il tuo server è sovraccarico, restituisci temporaneamente codici di stato della risposta HTTP 503 o 429 per le richieste di Googlebot. Googlebot riproverà a eseguire di nuovo la scansione di questi URL per circa 2 giorni. Tieni presente che la restituzione dei codici di tipo "nessuna disponibilità" per più di alcuni giorni comporterà il rallentamento o l'interruzione definitiva della scansione degli URL sul tuo sito, pertanto segui i prossimi passaggi aggiuntivi.
  2. Se la frequenza di scansione diminuisce, interrompi la restituzione dei codici di stato della risposta HTTP 503 o 429 per le richieste di scansione; se restituisci 503 o 429 per più di 2 giorni, Google eliminerà questi URL dall'indice.
  3. Esegui il monitoraggio della scansione e della capacità del tuo host nel tempo.
  4. Se a causare il problema è uno dei crawler di AdsBot, è possibile che tu abbia creato target per gli annunci dinamici della rete di ricerca per il tuo sito e che Google stia tentando di eseguirne la scansione. Questa scansione viene ripetuta ogni 3 settimane. Se la capacità del tuo server non è sufficiente a gestire queste scansioni, limita i target degli annunci o richiedi un aumento della capacità di pubblicazione.

Miti e fatti sulla scansione

Verifica le tue conoscenze sulla modalità di scansione e indicizzazione dei siti web da parte di Google.

La compressione delle Sitemap può aumentare il budget di scansione a mia disposizione.
True
Falso
No, è falso. Anche se inserite in file .zip, le Sitemap devono comunque essere recuperate sul server, pertanto Google non risparmia molto in termini di tempo o di impegno quando invii Sitemap compresse.
Google preferisce che i contenuti siano i più aggiornati possibili, quindi mi conviene continuare ad apportare piccole modifiche alla mia pagina.
True
Falso
I contenuti vengono classificati in base alla qualità e non a quando risalgono. Crea e aggiorna i tuoi contenuti secondo necessità. Vale a ben poco far sì che, con un artificio, le pagine appaiano rinnovate apportandovi banali modifiche e aggiornandone la data.
Google preferisce contenuti vecchi (hanno più peso) rispetto a contenuti nuovi.
True
Falso
Se la tua pagina è utile, resta tale, indipendentemente dall'età dei contenuti.
Google preferisce URL puliti privi di parametri di ricerca.
True
Falso
Possiamo eseguire la scansione dei parametri.
Quanto più è elevata la velocità di caricamento e rendering di pagina, tanto maggiore sarà la capacità di scansione di Google.
True
Vero, nel senso che le nostre risorse sono limitate da una combinazione di tempo e numero di bot di scansione disponibili. Se riesci a pubblicare più pagine in tempi brevi, potremo eseguire la scansione di un maggior numero di queste. Potremmo tuttavia dedicare più tempo alla scansione di un sito che contiene informazioni più importanti, anche se è più lento. È probabilmente più importante per te rendere il tuo sito più veloce per gli utenti che per aumentare la copertura di scansione. È molto più semplice aiutare Google a eseguire la scansione dei contenuti giusti piuttosto che di tutti i contenuti ogni volta. Tieni presente che la scansione di un sito è costituita tanto dal recupero quanto dal rendering dei contenuti. Il tempo dedicato al rendering della pagina viene conteggiato al pari del tempo trascorso per richiederla. Pertanto, quanto più veloce è il rendering delle pagine tanto più veloce sarà la scansione.
Falso
I siti di piccole dimensioni non vengono sottoposti a scansione con la stessa frequenza dei siti di grandi dimensioni.
True
Falso
Se un sito presenta contenuti importanti che subiscono frequenti modifiche, spesso ne eseguiamo la scansione, indipendentemente dalle dimensioni.
Quanto più vicini sono i contenuti alla home page, tanto più importanti sono considerati da Google.
True
Parzialmente vero
La home page è spesso la pagina più importante del tuo sito, pertanto le pagine collegate in modo diretto alla home page potrebbero essere considerate più importanti e quindi sottoposte più frequentemente a scansione. Tuttavia, ciò non significa che queste pagine avranno un ranking più elevato rispetto alle altre pagine del tuo sito.
Falso
Utilizzare URL con versioni è un metodo efficace per incoraggiare Google a ripetere la scansione delle mie pagine.
True
Parzialmente vero
L'utilizzo di URL con versione per la tua pagina con l'intento di indurre Google a eseguirne di nuovo la scansione potrebbe funzionare, ma spesso non è necessario e comporta uno spreco di risorse di scansione se la pagina non ha subito alcuna effettiva modifica. Se decidi comunque di utilizzare URL con versione per indicare nuovi contenuti, ti consigliamo di modificare l'URL solo se i contenuti della pagina hanno subito sostanziali modifiche.
Falso
La velocità del sito e gli errori incidono sul mio budget di scansione.
True
Rendere un sito più veloce migliora l'esperienza degli utenti e aumenta anche la frequenza di scansione. Per Googlebot un sito veloce è sintomatico di server integri e che, pertanto, può recuperare più contenuti con lo stesso numero di connessioni, mentre un numero significativo di codici di stato della risposta HTTP 5xx (errori del server) o timeout della connessione indica il contrario e la scansione rallenta. Consigliamo di prestare attenzione al report Statistiche di scansione in Search Console e di ridurre il numero di errori del server.
Falso
La scansione è un fattore del ranking.
True
Falso
Migliorare la frequenza di scansione non comporta necessariamente il miglioramento della posizione nei risultati di ricerca. Google si avvale di numerosi indicatori per classificare i risultati e, sebbene la scansione è necessaria affinché una pagina sia visualizzata nei risultati di ricerca, non è un indicatore del suo ranking.
URL alternativi e contenuti incorporati contano ai fini del budget di scansione.
True
In genere, qualsiasi URL di cui Googlebot esegue la scansione viene conteggiato ai fini del budget di scansione di un sito. Gli URL alternativi, come AMP o hreflang, nonché i contenuti incorporati, come CSS e JavaScript, inclusi i recuperi XHR, potrebbero dover essere sottoposti a scansione e consumare il budget di scansione di un sito.
Falso
Posso controllare Googlebot con la regola "crawl-delay".
True
Falso
La regola non standard "crawl-delay" del file robots.txt non viene elaborata da Googlebot.
La regola nofollow influisce sul budget di scansione.
True
Parzialmente vero
Qualsiasi URL sottoposto a scansione incide sul budget di scansione e quindi, anche se una pagina contrassegna un URL come nofollow, questo URL può comunque essere sottoposto a scansione se un'altra pagina del tuo sito o qualsiasi pagina del web non etichetta il link come nofollow.
Falso
Posso utilizzare noindex per controllare il budget di scansione.
True
Parzialmente vero
Qualsiasi URL sottoposto a scansione incide sul budget di scansione, e Google deve eseguire la scansione della pagina per trovare la regola noindex.

Tuttavia, noindex serve ad aiutarti a non indicizzare nulla. Se vuoi assicurarti che queste pagine non vengano inseriti nell'indice di Google, continua a utilizzare noindex e non preoccuparti del budget di scansione. Inoltre, è importante far presente che se rimuovi gli URL dall'indice di Google con noindex o in altro modo, Googlebot può concentrarsi su altri URL nel tuo sito, il che significa che noindex nel lungo periodo può liberare indirettamente del budget di scansione per il sito.
Falso
Le pagine che mostrano codici di stato HTTP 4xx sprecano budget di scansione.
True
Falso
Le pagine che mostrano codici di stato HTTP 4xx (tranne 429) non sprecano budget di scansione. Google ha tentato di eseguire la scansione della pagina, ma ha ricevuto un codice di stato e nessun altro contenuto.