Verificare Googlebot e altri crawler di Google

Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot.

I crawler di Google si suddividono in tre categorie:

Tipo Descrizione Maschera DNS inversa Intervalli di IP
Googlebot Il crawler principale dei prodotti di ricerca di Google; rispetta sempre le regole del file robots.txt. crawl-***-***-***-***.googlebot.com o geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Crawler per casi speciali Crawler che eseguono operazioni specifiche, come AdsBot, che potrebbero rispettare o meno le regole del file robots.txt. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Fetcher attivati dagli utenti Strumenti e funzioni di prodotto in cui l'utente finale attiva un recupero. Ad esempio, Google Site Verifier agisce su richiesta di un utente. Poiché il recupero è stato richiesto da un utente, questi fetcher ignorano le regole del file robots.txt. ***-***-***-***.gae.googleusercontent.com user-triggered-fetchers.json

Esistono due metodi per verificare i crawler di Google:

  • Manualmente: per le ricerche singole, usa gli strumenti a riga di comando. Questo metodo è sufficiente per la maggior parte dei casi d'uso.
  • Automaticamente: per le ricerche su larga scala, usa una soluzione automatica per confrontare l'indirizzo IP di un crawler con l'elenco degli indirizzi IP di Googlebot pubblicati.

Utilizzare strumenti a riga di comando

  1. Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando host.
  2. Verifica che il nome di dominio appartenga a googlebot.com, google.com o googleusercontent.com.
  3. Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando host.
  4. Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.

Esempio 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Esempio 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Esempio 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utilizzare soluzioni automatiche

In alternativa, puoi identificare Googlebot in base all'indirizzo IP confrontando l'indirizzo IP del crawler con gli elenchi di intervalli di indirizzi IP dei crawler e dei fetcher di Google:

Per gli altri indirizzi IP Google a cui è possibile accedere al tuo sito (ad esempio Apps Script), confronta l'indirizzo IP che accede con l'elenco di indirizzi IP di Google. Tieni presente che gli indirizzi IP nei file JSON sono rappresentati nel formato CIDR.