Budget di scansione e Googlebot

Lunedì 16 gennaio 2017

Di recente abbiamo visto molte definizioni per "budget di scansione"; tuttavia, non disponiamo di un unico termine in grado di esprimere a pieno il concetto di "budget di scansione". In questo post presentiamo la nostra definizione e cosa significa per Googlebot.

Innanzitutto, ci teniamo a sottolineare che il budget di scansione, come descritto di seguito, è un aspetto di cui la maggior parte dei publisher non devono preoccuparsi. Se le nuove pagine tendono a essere sottoposte a scansione nello stesso giorno di pubblicazione, il budget di scansione non è un aspetto primario per i webmaster; analogamente, se un sito ha meno di alcune migliaia di URL, la maggior parte delle volte verrà sottoposto a scansione in modo efficiente.

Assegnare la priorità a cosa sottoporre a scansione, quando e quante risorse il server che ospita il sito può destinare alla scansione è più importante per i siti più grandi oppure per quelli che, ad esempio, generano automaticamente pagine in base ai parametri URL.

Limite della frequenza di scansione

Googlebot è progettato per essere un buon cittadino del Web. La scansione è la sua priorità principale, così come assicurare che l'esperienza degli utenti che visitano il sito non venga compromessa. Questo meccanismo è chiamato "limite della frequenza di scansione", che limita la frequenza di recupero massima per un determinato sito.

In breve, rappresenta il numero di connessioni simultanee parallele che Googlebot potrebbe utilizzare per eseguire la scansione del sito, nonché il tempo necessario per l'attesa tra i recuperi. La frequenza di scansione può aumentare o diminuire in base a due fattori:

  • Stato della scansione: se per un po' di tempo il sito risponde rapidamente, il limite aumenta e, di conseguenza, possono essere utilizzate più connessioni per la scansione. Se il sito rallenta o risponde con errori del server, il limite diminuisce e Googlebot esegue un numero inferiore di scansioni.
  • Limite impostato in Search Console: i proprietari di siti web possono ridurre la frequenza di scansione di Googlebot del proprio sito. Tenete presente che l'impostazione di limiti più elevati non aumenta automaticamente la frequenza di scansione.

Domanda di scansione

Anche se il limite di frequenza di scansione non viene raggiunto, se non vi è domanda di indicizzazione, l'attività di Googlebot sarà scarsa. I due fattori che svolgono un ruolo significativo nel determinare la domanda di scansione sono i seguenti:

  • Popolarità: gli URL più popolari su Internet tendono a essere sottoposti più spesso a scansione per tenerli costantemente aggiornati nel nostro indice.
  • Mancato aggiornamento: i nostri sistemi tentano di evitare che gli URL diventino inattivi nell'indice.

Inoltre, eventi a livello di sito, come il trasferimento del sito, possono generare un aumento della domanda di scansione per reindicizzare i contenuti in base ai nuovi URL.

Considerando insieme la frequenza di scansione e la domanda di scansione, definiamo il budget di scansione come il numero di URL che Googlebot può e vuole sottoporre a scansione.

Fattori che influiscono sul budget di scansione

In base alla nostra analisi, la presenza di molti URL di scarso valore può incidere negativamente sulla scansione e sull'indicizzazione di un sito. Abbiamo riscontrato che gli URL di scarso valore che rientrano in queste categorie sono, in ordine di importanza:

Lo spreco di risorse del server su pagine come queste riduce l'attività di scansione delle pagine di effettivo valore, il che può causare un ritardo significativo nella scoperta di contenuti validi su un sito.

Domande più frequenti

La scansione è il punto di accesso per i siti ai risultati di ricerca di Google. La scansione efficiente di un sito web ne facilita l'indicizzazione nella Ricerca Google.

La velocità del sito incide sul mio budget di scansione? E gli errori?

Rendere un sito più veloce migliora l'esperienza degli utenti e aumenta anche la frequenza di scansione. Per Googlebot un sito veloce è sintomatico di server integri e che, pertanto, può recuperare più contenuti con lo stesso numero di connessioni, mentre un numero significativo di errori 5xx o timeout della connessione indica il contrario e la scansione rallenta.

Consigliamo di prestare attenzione al report Errori di scansione in Search Console e di ridurre il numero di errori del server.

La scansione è un fattore del ranking?

Una frequenza di scansione maggiore non comporta necessariamente il miglioramento della posizione nei risultati della Ricerca. Google si avvale di centinaia di indicatori per classificare i risultati e, sebbene la scansione sia necessaria per comparire nei risultati di ricerca, non è un indicatore di ranking.

Gli URL alternativi e i contenuti incorporati contano ai fini del budget di scansione?

In genere, qualsiasi URL di cui Googlebot esegue la scansione viene conteggiato ai fini del budget di scansione di un sito. Gli URL alternativi, come AMP o hreflang, nonché i contenuti incorporati, come CSS e JavaScript, tra cui AJAX (ad esempio chiamate XHR), potrebbero dover essere sottoposti a scansione e consumare il budget di scansione di un sito. Analogamente, lunghe catene di reindirizzamento potrebbero avere un effetto negativo sulla scansione.

Posso controllare Googlebot con l'istruzione "crawl-delay"?

L'istruzione non standard "crawl-delay" del file robots.txt non viene elaborata da Googlebot.

L'istruzione nofollow incide sul budget di scansione?

Dipende. Qualsiasi URL sottoposto a scansione incide sul budget di scansione e quindi, anche se una pagina contrassegna un URL come nofollow, tale URL può comunque essere sottoposto a scansione se un'altra pagina del tuo sito o qualsiasi pagina del Web non etichetta il link come nofollow.

Gli URL che ho impostato come non consentiti tramite il file robots.txt influiscono sul mio budget di scansione in qualche modo?

No, gli URL non consentiti non influiscono sul budget di scansione.

Per informazioni su come ottimizzare la scansione del vostro sito, consultate il nostro post del blog relativo all'ottimizzazione della scansione del 2009, che è ancora valido. In caso di domande, chiedete pure nei forum.