Panoramica dei crawler e dei fetcher di Google (user agent)
Google utilizza crawler e fetcher per eseguire azioni per i propri prodotti, in modo automatico o su richiesta dell'utente.
"Crawler" (a volte chiamato anche "robot" o "spider") è un termine generico che indica qualsiasi programma utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. Il crawler principale di Google utilizzato per la Ricerca Google è chiamato Googlebot.
I fetcher, come i browser, sono strumenti che richiedono un singolo URL quando viene richiesto da un utente.
Le seguenti tabelle mostrano i crawler e i fetcher di Google utilizzati da vari prodotti e servizi, come potresti vederli nei tuoi log referrer e come specificarli nel robots.txt. Gli elenchi non sono esaustivi, e riguardano solo i richiedenti più comuni che possono essere visualizzati nei file di log.
-
Il token dello user agent viene usato nella riga
User-agent:
del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito. Come mostrato nella tabella, alcuni crawler hanno più di un token, ma per l'applicazione di una regola è necessario un solo token corrispondente. Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere sul tuo sito web. - La stringa completa dello user agent è una descrizione completa del crawler che viene mostrata nella richiesta HTTP e nei log web.
Crawler comuni
I crawler comuni di Google vengono utilizzati per trovare informazioni per la creazione degli indici della Ricerca di Google, eseguire scansioni specifiche di altri prodotti e per scopi di analisi. Devono sempre rispettare le regole del file robots.txt e, in generale, eseguire la scansione dagli intervalli di IP pubblicati nell'oggetto googlebot.json.
Crawler comuni | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Utilizzato per la scansione di URL delle immagini per Google Immagini e per i prodotti che dipendono dalle immagini.
|
||||
Googlebot News |
Googlebot News utilizza Googlebot per la scansione di articoli, tuttavia rispetta il suo
token dello user agent storico
|
||||
Googlebot Video |
Utilizzato per la scansione di URL dei video per Google Video e per i prodotti che dipendono dai video.
|
||||
Google StoreBot |
Google StoreBot esegue la scansione di alcuni tipi di pagine, incluse, a titolo esemplificativo, pagine dei dettagli del prodotto, pagine del carrello e pagine di pagamento.
|
||||
Google-InspectionTool |
Google-InspectionTool è il crawler utilizzato dagli strumenti di test della Ricerca, come il Test dei risultati avanzati e il Controllo URL in Search Console. Oltre allo user agent e al token dello user agent, imita Googlebot.
|
||||
GoogleOther |
GoogleOther è il crawler generico che potrebbe essere utilizzato da vari team di prodotto per recuperare contenuti accessibili pubblicamente dai siti. Ad esempio, potrebbe essere utilizzato per scansioni singole per scopi di ricerca interna e sviluppo.
|
||||
GoogleOther-Image |
GoogleOther-Image è la versione di GoogleOther ottimizzata per il recupero degli URL immagine accessibili pubblicamente.
|
||||
GoogleOther-Video |
GoogleOther-Video è la versione di GoogleOther ottimizzata per il recupero degli URL dei video accessibili pubblicamente.
|
||||
Google-CloudVertexBot |
Google-CloudVertexBot esegue la scansione dei siti su richiesta dei proprietari al momento della creazione di Vertex AI Agents.
|
||||
Google-Extended |
|
Crawler per casi speciali
I crawler per casi speciali vengono utilizzati da prodotti specifici in cui è presente un accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto. Ad esempio, AdsBot
ignora lo user agent globale del file robots.txt (*
) con l'autorizzazione del publisher dell'annuncio. I crawler per casi speciali potrebbero ignorare le regole del file robots.txt e, di conseguenza, operano da un intervallo di IP diverso rispetto ai crawler comuni. Gli intervalli di IP sono pubblicati nell'oggetto special-crawlers.json.
Crawler per casi speciali | |||||
---|---|---|---|---|---|
APIs-Google |
Utilizzato dalle API di Google per consegnare i messaggi delle notifiche push. Ignora lo user agent globale
(
|
||||
AdsBot Mobile Web |
Controlla la qualità dell'annuncio nella pagina web mobile.
Ignora lo user agent globale (
|
||||
AdsBot |
Controlla la qualità degli annunci nelle pagine web su desktop.
Ignora lo user agent globale (
|
||||
AdSense |
Il crawler AdSense visita il tuo sito per determinarne i contenuti al fine di pubblicarvi annunci pertinenti. Ignora lo user agent globale (
|
||||
Mobile AdSense |
Il crawler Mobile AdSense visita il tuo sito per determinarne i contenuti al fine di pubblicarvi annunci pertinenti. Ignora lo user agent globale (
|
||||
Google-Safety |
Lo user agent Google-Safety gestisce la scansione specifica per abusi, come il rilevamento di malware per i link disponibili pubblicamente nelle proprietà di Google. Questo user-agent ignora le regole del file robots.txt.
|
Fetcher attivati dagli utenti
I fetcher attivati dagli utenti si avviano per eseguire un'azione di recupero specifica del prodotto. Ad esempio, Google Site Verifier agisce su richiesta di un utente, oppure un sito ospitato su Google Cloud (GCP) dispone di una funzionalità che consente agli utenti del sito di recuperare un feed RSS esterno. Poiché il recupero è stato richiesto da un utente, questi fetcher in genere ignorano le regole del file robots.txt. Gli intervalli di IP utilizzati dai fetcher attivati dagli utenti sono pubblicati negli oggetti user-triggered-fetchers.json e user-triggered-fetchers-google.json.
Fetcher attivati dagli utenti | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher viene utilizzato per la scansione di feed RSS o Atom per Google Podcasts, Google News e PubSubHubbub.
|
||||
Centro editori di Google |
Recupera ed elabora i feed che gli editori hanno fornito esplicitamente tramite il Centro editori di Google per essere utilizzati nelle pagine di destinazione di Google News.
|
||||
Google Read Aloud |
Su richiesta dell'utente, Google Read Aloud recupera e legge le pagine web utilizzando la sintesi vocale.
|
||||
Google Site Verifier |
Google Site Verifier recupera su richiesta dell'utente i token di verifica di Search Console.
|
Una nota su Chrome/W.X.Y.Z negli user agent
Dove vedi la stringa Chrome/W.X.Y.Z nelle stringhe dello user agent nella tabella, W.X.Y.Z è in realtà un segnaposto che rappresenta la versione del browser Chrome usata da quello user agent: ad esempio 41.0.2272.96
. Il numero di versione aumenterà nel tempo fino a corrispondere all'ultima versione di release di Chromium utilizzata da Googlebot.
Se cerchi nei log oppure applichi filtri alle richieste sul tuo server per individuare uno user agent con questo pattern, utilizza i caratteri jolly per il numero della versione, anziché indicare un numero di versione specifico.
User agent nel file robots.txt
Quando vengono riconosciuti diversi user agent nel file robots.txt, Google segue quello più specifico. Se vuoi consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se vuoi impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user agent Googlebot. Ad esempio, se vuoi che vengano visualizzate tutte le tue pagine nei risultati della Ricerca Google e che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. Analogamente, se vuoi impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user agent Googlebot
; in questo modo impedirai l'accesso anche a tutti gli altri user agent di Google.
Tuttavia, se preferisci, puoi avere un controllo più granulare. Ad esempio, per visualizzare tutte le tue pagine nella Ricerca Google, evitando però che le immagini presenti nella tua directory personale vengano sottoposte a scansione, puoi utilizzare il file robots.txt per impedire allo user agent Googlebot-Image
di eseguire la scansione dei file presenti nella tua directory personale (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Per fare un altro esempio, supponiamo che tu voglia mostrare annunci in tutte le tue pagine, ma preferisca che queste pagine non vengano visualizzate nella Ricerca Google. In questo caso, devi bloccare Googlebot, ma consentire lo user agent Mediapartners-Google
, nel seguente modo:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Controllare la velocità di scansione
Ciascun crawler di Google accede ai siti per uno scopo specifico e a frequenze diverse. Google utilizza algoritmi per determinare la frequenza di scansione ottimale per ogni sito. Se un crawler di Google esegue troppo spesso la scansione del tuo sito, puoi ridurre la frequenza di scansione.
Crawler di Google ritirati
I seguenti crawler di Google non sono più in uso e vengono indicati qui solo come riferimento storico.
Crawler di Google ritirati | |||||
---|---|---|---|---|---|
Duplex web |
Supportava il servizio Duplex web.
|
||||
Web Light |
Verificava la presenza dell'intestazione
|
||||
AdsBot Mobile Web |
Controlla la qualità dell'annuncio nella pagina web su iPhone.
Ignora lo user agent globale (
|
||||
Mobile Apps Android |
Controlla la qualità degli annunci nelle pagine su app per Android.
Rispetta le regole dei robot
|
||||
Google Favicon |
|