Ottimizza il budget di scansione

Questa guida descrive come ottimizzare la scansione di Google dei siti di grandi dimensioni soggetti a frequenti aggiornamenti.

Se il tuo sito non contiene un numero elevato di pagine soggette a frequenti modifiche o se sembra che le tue pagine siano sottoposte a scansione nello stesso giorno in cui vengono pubblicate, non è necessario che tu legga questa guida. Per la Ricerca Google in particolare è sufficiente tenere aggiornata la Sitemap e controllare regolarmente la copertura dell'indice.

Destinatari della guida

Sebbene i consigli contenuti in questa guida siano generalmente buone pratiche, questa è una guida avanzata destinata principalmente ai seguenti tipi di siti:

Siti di grandi dimensioni (oltre un milione di pagine univoche) con contenuti che cambiano con una certa frequenza (una volta a settimana).
Siti di medie o grandi dimensioni (oltre 10.000 pagine univoche) con contenuti che cambiano molto spesso (ogni giorno).
Siti con una porzione consistente di URL totali classificati da Search Console come Rilevata, ma attualmente non indicizzata

Teoria generale della scansione

Il web è uno spazio praticamente infinito e l'esplorazione e l'indicizzazione di ogni URL disponibile va ben oltre le capacità di Google. Pertanto, il tempo che i crawler di Google possono dedicare alla scansione di un singolo sito è limitato, dove un sito è definito dal nome host. Ad esempio, https://www.example.com/ e https://code.example.com/ sono due nomi host diversi e pertanto hanno budget di scansione separati. Il tempo e le risorse che Google dedica alla scansione di un sito vengono comunemente denominati budget di scansione e sono determinati da due elementi principali: il limite della capacità di scansione e la domanda di scansione.

Limite della capacità di scansione

Il compito di Google è eseguire la scansione del tuo sito senza sovraccaricare i tuoi server. A questo scopo, i crawler di Google calcolano un limite della capacità di scansione dato dal numero massimo di connessioni parallele simultanee che Google può utilizzare per eseguire la scansione di un sito nonché il ritardo tra i recuperi. Questo valore viene calcolato in modo da fornire la copertura di tutti i contenuti importanti, senza sovraccaricare i tuoi server.

Il limite di capacità di scansione può aumentare o diminuire in base a diversi fattori:

Stato della scansione: se per un po' di tempo il sito risponde rapidamente, il limite aumenta e, di conseguenza, possono essere utilizzate più connessioni per la scansione. Se il sito rallenta o risponde con errori del server, il limite diminuisce e Google esegue un numero inferiore di scansioni.
Limiti di scansione di Google: Google dispone di risorse ragguardevoli, ma non illimitate. Pertanto, deve assegnare priorità per ottimizzarne l'impiego.

Domanda di scansione

Ogni crawler ha una propria "richiesta" quando si tratta di eseguire la scansione del web. Ad esempio, AdsBot in genere ha una domanda più elevata quando un sito utilizza target degli annunci dinamici, Google Shopping ha una domanda più elevata per i prodotti presenti nei feed dei commercianti e la domanda di Googlebot varia in base alle dimensioni, alla frequenza di aggiornamento, alla qualità delle pagine e alla pertinenza di un sito rispetto ad altri siti.

In generale, i fattori che svolgono un ruolo significativo nel determinare la domanda di scansione sono i seguenti:

Inventario percepito: in mancanza di tue indicazioni, Google prova a eseguire la scansione di tutti gli URL o della maggior parte degli URL noti sul tuo sito. Qualora il tuo sito dovesse contenere un numero elevato di URL duplicati o che non è necessario sottoporre a scansione perché rimossi, non importanti o altro, Google potrebbe impiegare più tempo del dovuto per eseguirne la scansione. Questo è il fattore che puoi tenere maggiormente sotto controllo.
Popolarità: gli URL più popolari su internet tendono a essere sottoposti più spesso a scansione per tenerli costantemente aggiornati nei nostri sistemi.
Mancato aggiornamento: i nostri sistemi ripetono la scansione dei documenti con una frequenza sufficiente a rilevare eventuali modifiche.

Inoltre, eventi a livello di sito, come il trasferimento del sito, possono generare un aumento della domanda di scansione per rielaborare i contenuti in base ai nuovi URL.

In sintesi

Prendendo in considerazione la capacità di scansione e la domanda di scansione nel loro insieme, Google definisce il budget di scansione di un sito come l'insieme di URL che può e vuole sottoporre a scansione. Anche se il limite della capacità di scansione non viene raggiunto, se la domanda di scansione è bassa la frequenza di scansione del tuo sito da parte di Google sarà comunque inferiore.

Best practice

Per massimizzare l'efficienza della scansione, segui queste best practice:

Gestisci l'inventario di URL: utilizza gli strumenti appropriati per comunicare a Google quali pagine è necessario o non è necessario sottoporre a scansione. Se Google dedica troppo tempo alla scansione di URL che non dovrebbe, i crawler di Google potrebbero decidere che non vale la pena esaminare il resto del sito (né tantomeno aumentare il budget per farlo).
- Accorpa i contenuti duplicati: elimina contenuti duplicati per concentrare la scansione su contenuti unici anziché su URL unici.
- Blocca la scansione degli URL utilizzando il file robots.txt: anche se alcune pagine potrebbero essere importanti per gli utenti, non è detto che tu voglia che siano visualizzate sulle piattaforme Google o che vengano rielaborate dai sistemi di Google. Un esempio sono le pagine a scorrimento continuo che duplicano informazioni su pagine collegate o le versioni della stessa pagina ordinate in modo diverso. Se non riesci ad accorpare queste pagine non importanti per la ricerca come descritto nel primo punto elenco, bloccale utilizzando il file robots.txt. Se blocchi gli URL con il file robots.txt, Google non potrà eseguirne la scansione e la probabilità che vengano elaborati da altri sistemi Google (ad esempio l'indicizzazione da parte della Ricerca Google) si riduce notevolmente.
  Non utilizzare il tag noindex, in quanto Google ne eseguirà comunque la richiesta, anche se poi abbandonerà la pagina non appena rileva un meta tag o un'intestazione noindex nella risposta HTTP, sprecando tempo per la scansione. Non utilizzare il file robots.txt per riallocare temporaneamente del budget di scansione per altre pagine; usalo invece per bloccare le pagine o le risorse che non vuoi che siano sottoposte a scansione. Google non trasferirà il nuovo budget di scansione disponibile ad altre pagine, a meno che non stia già raggiungendo il limite di pubblicazione del tuo sito.
- Restituisci un codice di stato 404 o 410 per le pagine rimosse definitivamente: Google non dimenticherà un URL noto, ma un codice di stato 404 segnala in modo chiaro di evitare la nuova scansione di quel dato URL. Gli URL bloccati continueranno a rimanere nella coda di scansione, anche se verranno sottoposti nuovamente a scansione solo con la rimozione del blocco.
- Elimina gli errori soft 404: le pagine soft 404 continueranno a essere sottoposte a scansione e a incidere negativamente sul budget. Controlla il report Copertura dell'indice per verificare la presenza di errori soft 404.
- Mantieni aggiornate le Sitemap: Google legge le tue Sitemap con regolarità, quindi assicurati di includere tutti i contenuti che vuoi che siano sottoposti a scansione. Se il tuo sito include contenuti aggiornati, ti consigliamo di includere il tag <lastmod>.
- Evita lunghe catene di reindirizzamento, che hanno un effetto negativo sulla scansione.
Fai in modo che le tue pagine si carichino in modo efficiente: se Google riesce a caricare e visualizzare le tue pagine più velocemente, è possibile che riesca a leggere più contenuti sul tuo sito.
Esegui il debug dei problemi relativi al budget di scansione. verifica se il sito ha riscontrato problemi di disponibilità durante la scansione e cerca dei modi per renderla più efficiente.

Come faccio ad aumentare il budget di scansione?

Esistono due modi per aumentare il budget di scansione:

Aggiungi altre risorse del server: se non è possibile eseguire la scansione del tuo sito a causa della capacità del server da parte tua (ad esempio, viene visualizzato il messaggio Carico host superato nello strumento Controllo URL), aggiungi altre risorse del server, se ha senso per la tua attività.
Ottimizza la qualità dei contenuti per il prodotto Google di destinazione: Google determina le risorse di scansione allocate a ogni sito prendendo in considerazione gli elementi pertinenti al prodotto Google specifico. Ad esempio, per la Ricerca Google, sono inclusi fattori come popolarità, valore complessivo per l'utente, unicità dei contenuti e capacità di pubblicazione.