Verificare Googlebot e altri crawler di Google
Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot.
I crawler di Google rientrano in tre categorie:
Tipo | Descrizione | Maschera DNS invertita | Intervalli di IP |
---|---|---|---|
Googlebot | Il crawler principale dei prodotti di ricerca di Google; rispetta sempre le regole del file robots.txt. |
crawl-***-***-***-***.googlebot.com o
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Crawler per casi speciali | Crawler che eseguono operazioni specifiche, come AdsBot, che potrebbero rispettare o meno le regole del file robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Fetcher attivati dagli utenti |
Strumenti e funzioni del prodotto in cui l'utente finale attiva un recupero. Ad esempio, Google Site Verifier agisce su richiesta di un utente. Poiché il recupero è stato richiesto da un utente, questi fetcher ignorano le regole del file robots.txt. I crawler controllati da Google hanno origine dagli IP nell'oggetto user-triggered-fetchers-google.json e si risolvono in un nome host
google.com . Gli IP nell'oggetto user-triggered-fetchers.json
si risolvono nei nomi host gae.googleusercontent.com . Questi IP possono essere utilizzati, ad esempio, quando un sito ospitato su Google Cloud (GCP) deve recuperare feed RSS esterni su richiesta di un utente.
|
***-***-***-***.gae.googleusercontent.com o
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json e user-triggered-fetchers-google.json |
Esistono due metodi per verificare i crawler di Google:
- Manualmente: per le ricerche singole, usa gli strumenti a riga di comando. Questo metodo è sufficiente per la maggior parte dei casi d'uso.
- Automaticamente: per le ricerche su larga scala, usa una soluzione automatica per confrontare l'indirizzo IP di un crawler con l'elenco degli indirizzi IP di Googlebot pubblicati.
Utilizzare strumenti a riga di comando
-
Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando
host
. -
Verifica che il nome di dominio appartenga a
googlebot.com
,google.com
ogoogleusercontent.com
. -
Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando
host
. - Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.
Esempio 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Esempio 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Esempio 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Utilizzare soluzioni automatiche
In alternativa, puoi identificare Googlebot in base all'indirizzo IP confrontando l'indirizzo IP del crawler con gli elenchi di intervalli di indirizzi IP dei crawler e dei fetcher di Google:
Per gli altri indirizzi IP Google a cui è possibile accedere al tuo sito (ad esempio Apps Script), confronta l'indirizzo IP che accede con l'elenco di indirizzi IP di Google. Tieni presente che gli indirizzi IP nei file JSON sono rappresentati nel formato CIDR.