"Crawler" è un termine generico che indica qualsiasi programma (come un robot o uno spider) utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. Il crawler principale di Google è Googlebot. Nella tabella che segue vengono riportate informazioni sui crawler di Google più comuni che potresti notare nei tuoi log referrer e su come dovrebbero essere specificati nel file robots.txt, nei meta tag robots e nelle istruzioni HTTP X-Robots-Tag.
Nella tabella che segue vengono indicati i crawler usati da vari prodotti e servizi Google:
- Il token dello user agent viene usato nella riga
User-agent:
del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito. Come mostrato nella tabella, alcuni crawler hanno più di un token, ma per l'applicazione di una regola è necessario un solo token corrispondente. Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere sul tuo sito web. - La stringa completa dello user agent è una descrizione completa del crawler che viene mostrata nella richiesta e nei log web.
Crawler | Token dello user-agent (token di prodotto) | Stringa completa dello user-agent |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(Controlla la qualità dell'annuncio nella pagina web su Android) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Controlla la qualità dell'annuncio nella pagina su iPhone) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Controlla la qualità dell'annuncio nella pagina web su desktop) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Image |
|
Googlebot-Image/1.0 |
Googlebot-News |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
Googlebot Desktop |
|
|
Googlebot Smartphone |
|
|
Mobile AdSense |
|
(Vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
(Controlla la qualità dell'annuncio nella pagina per app Android; segue le regole dei robot AdsBot-Google) |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Agenti attuali:
Agente precedente (obsoleto): |
|
Duplex Web |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google Favicon (Recupera le favicon di vari servizi) |
Per le richieste avviate dall'utente, ignora le regole del file robots.txt |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Google StoreBot | Storebot-Google |
Agente desktop:
Agente per dispositivi mobili:
|
User agent nel file robots.txt
Quando vengono riconosciuti diversi user agent nel file robots.txt, Google segue quello più specifico. Se vuoi consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se vuoi impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user agent Googlebot. Ad esempio, se vuoi che vengano visualizzate tutte le tue pagine nei risultati della Ricerca Google e che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. Analogamente, se vuoi impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user agent Googlebot
; in questo modo impedirai l'accesso anche a tutti gli altri user agent di Google.
Tuttavia, se preferisci, puoi avere un controllo più granulare. Ad esempio, per visualizzare tutte le tue pagine nella Ricerca Google, evitando però che le immagini presenti nella tua directory personale vengano sottoposte a scansione, puoi utilizzare il file robots.txt per impedire allo user agent Googlebot-Image
di eseguire la scansione dei file presenti nella tua directory personal (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalPer fare un altro esempio, supponiamo che tu voglia mostrare annunci in tutte le tue pagine, ma preferisca che tali pagine non vengano visualizzate nella Ricerca Google. In questo caso, devi bloccare Googlebot, ma consentire lo user agent
Mediapartners-Google
, nel seguente modo:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
User agent nei meta tag robots
Alcune pagine utilizzano diversi meta tag robots per specificare istruzioni per crawler differenti, nel seguente modo:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
In questo caso Google utilizzerà la somma delle istruzioni negative e Googlebot seguirà entrambe le istruzioni noindex
e nofollow
. Leggi informazioni più dettagliate sul controllo della modalità di scansione e indicizzazione del tuo sito da parte di Google.