Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Panoramica dei crawler di Google (user agent)

"Crawler" (a volte chiamato anche "robot" o "spider") è un termine generico che indica qualsiasi programma utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. Il crawler principale di Google è Googlebot. Nella tabella che segue vengono riportate informazioni sui crawler di Google più comuni che potresti notare nei tuoi log referrer e su come specificarli nel file robots.txt, nei meta tag robots e nelle istruzioni HTTP X-Robots-Tag.

Nella tabella che segue vengono indicati i crawler usati da vari prodotti e servizi Google:

  • Il token dello user agent viene usato nella riga User-agent: del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito. Come mostrato nella tabella, alcuni crawler hanno più di un token, ma per l'applicazione di una regola è necessario un solo token corrispondente. Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere sul tuo sito web.
  • La stringa completa dello user agent è una descrizione completa del crawler che viene mostrata nella richiesta HTTP e nei log web.

Crawler

APIs-Google

Token dello user agent APIs-Google
Stringa completa dello user agent APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Controlla la qualità dell'annuncio nella pagina web su Android.

Token dello user agent AdsBot-Google-Mobile
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Controlla la qualità dell'annuncio nella pagina web su iPhone.

Token dello user agent AdsBot-Google-Mobile
Stringa completa dello user agent Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Controlla la qualità dell'annuncio nella pagina web su desktop.

Token dello user agent AdsBot-Google
Stringa completa dello user agent AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Token dello user agent Mediapartners-Google
Stringa completa dello user agent Mediapartners-Google

Googlebot Image

Token dello user agent
  • Googlebot-Image
  • Googlebot
Stringa completa dello user agent Googlebot-Image/1.0

Googlebot News

Token dello user agent
  • Googlebot-News
  • Googlebot
Stringa completa dello user agent Lo user agent Googlebot-News utilizza diverse stringhe dello user agent Googlebot.

Googlebot Video

Token dello user agent
  • Googlebot-Video
  • Googlebot
Stringa completa dello user agent Googlebot-Video/1.0

Googlebot Desktop

Token dello user agent Googlebot
Stringhe complete dello user agent
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Token dello user agent Googlebot
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Token dello user agent Mediapartners-Google
Stringa completa dello user agent (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Controlla la qualità dell'annuncio nella pagina su app per Android. Segue le regole dei robot AdsBot-Google.

Token dello user agent AdsBot-Google-Mobile-Apps
Stringa completa dello user agent AdsBot-Google-Mobile-Apps

Feedfetcher

Token dello user agent FeedFetcher-Google
Stringa completa dello user agent FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Token dello user agent Google-Read-Aloud
Stringhe complete dello user agent

Agenti attuali:

  • Agente desktop:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
  • Agente dispositivi mobili:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)

Agente precedente (deprecato):

google-speakr

Duplex Web

Token dello user agent DuplexWeb-Google
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Google Favicon

Token dello user agent
  • Googlebot-Image
  • Googlebot
Stringa completa dello user agent Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Web Light

Token dello user agent googleweblight
Stringa completa dello user agent Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Google StoreBot

Token dello user agent Storebot-Google
Stringhe complete dello user agent
  • Agente desktop:

    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

  • Agente mobile:

    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google Site Verifier

Token dello user agent Google-Site-Verification
Stringa completa dello user agent Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Una nota su Chrome/W.X.Y.Z negli user agent

Dove vedi la stringa Chrome/W.X.Y.Z nelle stringhe dello user agent nella tabella, W.X.Y.Z è in realtà un segnaposto che rappresenta la versione del browser Chrome usata da quello user agent: ad esempio 41.0.2272.96. Il numero di versione aumenterà nel tempo fino a corrispondere all'ultima versione di release di Chromium utilizzata da Googlebot.

Se cerchi nei log oppure applichi filtri alle richieste sul tuo server per individuare uno user agent con questo pattern, utilizza i caratteri jolly per il numero della versione, anziché indicare un numero di versione specifico.

User agent nel file robots.txt

Quando vengono riconosciuti diversi user agent nel file robots.txt, Google segue quello più specifico. Se vuoi consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se vuoi impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user agent Googlebot. Ad esempio, se vuoi che vengano visualizzate tutte le tue pagine nei risultati della Ricerca Google e che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. Analogamente, se vuoi impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user agent Googlebot; in questo modo impedirai l'accesso anche a tutti gli altri user agent di Google.

Tuttavia, se preferisci, puoi avere un controllo più granulare. Ad esempio, per visualizzare tutte le tue pagine nella Ricerca Google, evitando però che le immagini presenti nella tua directory personale vengano sottoposte a scansione, puoi utilizzare il file robots.txt per impedire allo user agent Googlebot-Image di eseguire la scansione dei file presenti nella tua directory personale (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Per fare un altro esempio, supponiamo che tu voglia mostrare annunci in tutte le tue pagine, ma preferisca che tali pagine non vengano visualizzate nella Ricerca Google. In questo caso, devi bloccare Googlebot, ma consentire lo user agent Mediapartners-Google, nel seguente modo:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User agent nei meta tag robots

Alcune pagine utilizzano diversi meta tag robots per specificare istruzioni per crawler differenti, nel seguente modo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

In questo caso Google utilizzerà la somma delle istruzioni negative e Googlebot seguirà entrambe le istruzioni noindex e nofollow. Leggi informazioni più dettagliate sul controllo della modalità di scansione e indicizzazione del tuo sito da parte di Google.

Controllare la velocità di scansione

Ciascun crawler di Google accede ai siti per uno scopo specifico e a frequenze diverse. Google utilizza algoritmi per determinare la frequenza di scansione ottimale per ogni sito. Se un crawler di Google esegue troppo spesso la scansione del tuo sito, puoi ridurre la frequenza di scansione.