Verificare Googlebot e altri crawler di Google

Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot.

I crawler di Google si dividono in tre categorie:

Tipo	Descrizione	Maschera DNS invertita	Intervalli di IP
Crawler comuni	I crawler comuni utilizzati per i prodotti Google (ad esempio Googlebot). Rispettano sempre le regole del file robots.txt per le scansioni automatiche.	`crawl-*---.googlebot.com` o `geo-crawl----*.geo.googlebot.com`	googlebot.json
Crawler per casi speciali	I crawler che eseguono funzioni specifiche per i prodotti Google, ad esempio AdsBot, in cui è presente una accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto. Questi crawler potrebbero rispettare o meno le regole del file robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Fetcher attivati dagli utenti	Strumenti e funzioni dei prodotti in cui l'utente finale attiva un recupero. Ad esempio, Google Site Verifier agisce su richiesta di un utente. Poiché il recupero è stato richiesto da un utente, questi fetcher ignorano le regole del file robots.txt. I fetcher controllati da Google provengono da IP nell'oggetto `user-triggered-fetchers-google.json` e si risolvono in un nome host `google.com`. Gli IP nell'oggetto `user-triggered-fetchers.json` si risolvono nei nomi host `gae.googleusercontent.com`. Questi IP possono essere utilizzati, ad esempio, quando un sito ospitato su Google Cloud (GCP) deve recuperare feed RSS esterni su richiesta di un utente.	`*---.gae.googleusercontent.com` o `google-proxy----*.google.com`	user-triggered-fetchers.json e user-triggered-fetchers-google.json

Esistono due metodi per verificare i crawler di Google:

Manualmente: per le ricerche singole, usa gli strumenti a riga di comando. Questo metodo è sufficiente per la maggior parte dei casi d'uso.
Automaticamente: per le ricerche su larga scala, usa una soluzione automatica per confrontare l'indirizzo IP di un crawler con l'elenco degli indirizzi IP di Googlebot pubblicati.

Utilizzare strumenti a riga di comando

Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando host.
Verifica che il nome di dominio appartenga a googlebot.com, google.com o googleusercontent.com.
Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando host.
Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.

Esempio 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Esempio 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Esempio 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utilizzare soluzioni automatiche

In alternativa, puoi identificare Googlebot in base all'indirizzo IP confrontando l'indirizzo IP del crawler con gli elenchi di intervalli di indirizzi IP dei crawler e dei fetcher di Google:

Per gli altri indirizzi IP Google a cui è possibile accedere al tuo sito (ad esempio Apps Script), confronta l'indirizzo IP che accede con l'elenco di indirizzi IP di Google. Tieni presente che gli indirizzi IP nei file JSON sono rappresentati nel formato CIDR.