Elenco dei crawler per casi speciali di Google

I crawler per casi speciali vengono utilizzati da prodotti Google specifici in cui è presente un accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto. Ad esempio, AdsBot ignora lo user agent globale del file robots.txt (*) con l'autorizzazione del publisher dell'annuncio. Le proprietà tecniche generali dei crawler di Google si applicano anche ai crawler per casi speciali.

I crawler per casi speciali potrebbero ignorare le regole del file robots.txt e, di conseguenza, operano da un intervallo di IP diverso rispetto ai crawler comuni. Gli intervalli di IP sono pubblicati nell'oggetto special-crawlers.json. La maschera DNS inversa dei crawler per casi speciali corrisponde a rate-limited-proxy-***-***-***-***.google.com.

L'elenco seguente mostra i crawler per casi speciali e le stringhe dello user agent così come appaiono nelle richieste HTTP, i relativi token dello user agent per la riga User-agent: nel file robots.txt e i prodotti interessati dalle preferenze di scansione del crawler. L'elenco non è completo, si limita solo ai richiedenti che hanno maggiori probabilità di apparire nei file di log e per cui abbiamo ricevuto domande.

APIs-Google

User-Agent nelle richieste HTTP

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

robots.txt

Token dello user agent nel file robots.txt

APIs-Google

Lo user agent globale (*) viene ignorato.

Gruppo robots.txt di esempio

user-agent: APIs-Google
allow: /archive/1Q84
disallow: /archive/

Prodotti interessati Le preferenze di scansione indirizzate allo user agent APIs-Google influiscono sulla consegna dei messaggi delle notifiche push da parte delle API di Google.

AdsBot Mobile Web

User-Agent nelle richieste HTTP

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

robots.txt

Token dello user agent nel file robots.txt

AdsBot-Google-Mobile

Lo user agent globale (*) viene ignorato.

Gruppo robots.txt di esempio

user-agent: AdsBot-Google-Mobile
allow: /archive/1Q84
disallow: /archive/

Prodotti interessati Le preferenze di scansione indirizzate allo user agent AdsBot-Google-Mobile influiscono sulla capacità di Google Ads di controllare la qualità degli annunci nelle pagine web.

AdsBot

User-Agent nelle richieste HTTP

AdsBot-Google (+http://www.google.com/adsbot.html)

robots.txt

Token dello user agent nel file robots.txt

AdsBot-Google

Lo user agent globale (*) viene ignorato.

Gruppo robots.txt di esempio

user-agent: AdsBot-Google
allow: /archive/1Q84
disallow: /archive/

Prodotti interessati Le preferenze di scansione indirizzate allo user agent AdsBot-Google influiscono sulla capacità di Google Ads di controllare la qualità degli annunci nelle pagine web.

AdSense

User-Agent nelle richieste HTTP

Agente desktop	Mediapartners-Google
Agente mobile	(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

robots.txt

Token dello user agent nel file robots.txt	`Mediapartners-Google` Lo user agent globale (`*`) viene ignorato.
Gruppo robots.txt di esempio	user-agent: Mediapartners-Google allow: /archive/1Q84 disallow: /archive/

Prodotti interessati Le preferenze di scansione indirizzate allo user agent Mediapartners-Google influiscono su Google AdSense. Il crawler di AdSense visita i siti partecipanti per fornire annunci pertinenti.

Google-Safety

User-Agent nelle richieste HTTP	Google-Safety
robots.txt	Lo user agent Google-Safety ignora le regole del file robots.txt.
Prodotti interessati	Lo user agent Google-Safety gestisce la scansione specifica per abusi, come il rilevamento di malware per i link disponibili pubblicamente nelle proprietà di Google. Di conseguenza, non è interessato dalle preferenze di esecuzione della scansione.

Crawler per casi speciali ritirati

I seguenti crawler per casi speciali non sono più in uso e vengono indicati qui solo come riferimento storico.

AdsBot Mobile Web

User-Agent nelle richieste HTTP

Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

robots.txt

Token dello user agent nel file robots.txt

AdsBot-Google-Mobile

Lo user agent globale (*) viene ignorato.

Prodotti interessati Le preferenze di scansione indirizzate allo user agent AdsBot-Google-Mobile hanno influito sulla capacità di Google Ads di controllare la qualità degli annunci nelle pagine web su iPhone.

Duplex web

User-Agent nelle richieste HTTP

Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

robots.txt

Token dello user agent nel file robots.txt

DuplexWeb-Google

Duplex web potrebbe ignorare il carattere jolly *.

Prodotti interessati Supportava il servizio Duplex web.

Google Favicon

User-Agent nelle richieste HTTP

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

robots.txt

Token dello user agent nel file robots.txt

Googlebot-Image

Googlebot

Mobile Apps Android

User-Agent nelle richieste HTTP

AdsBot-Google-Mobile-Apps

robots.txt

Token dello user agent nel file robots.txt

AdsBot-Google-Mobile-Apps

Lo user agent AdsBot-Google-Mobile-Apps ha rispettato le regole robots AdsBot-Google, ma ha ignorato lo user agent globale (*).

Prodotti interessati Le preferenze di scansione indirizzate allo user agent AdsBot-Google-Mobile-Apps influiscono sulla capacità di Google Ads di controllare la qualità degli annunci nelle pagine delle app per Android.

Web Light

User-Agent nelle richieste HTTP

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

robots.txt

Token dello user agent nel file robots.txt

googleweblight

Lo user agent googleweblight veniva utilizzato solo per le richieste di navigazione esplicite di un visitatore reale, pertanto ignorava le regole del file robots.txt utilizzate per bloccare le richieste di scansione automatiche.

Prodotti interessati Lo user agent Web Light verificava la presenza dell'intestazione no-transform ogni volta che un utente faceva clic sulla tua pagina nella Ricerca in condizioni appropriate.