Verificare Googlebot e altri crawler di Google
Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot.
I crawler di Google rientrano in tre categorie:
Tipo | Descrizione | Maschera DNS inversa | Intervalli di IP |
---|---|---|---|
Crawler comuni | I crawler comuni utilizzati per i prodotti Google (ad esempio Googlebot). Rispettano sempre le regole del file robots.txt per le scansioni automatiche. |
crawl-***-***-***-***.googlebot.com o
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Crawler per casi speciali | Crawler che eseguono funzioni specifiche per i prodotti Google (come AdsBot) in cui è presente un accordo sul processo di scansione tra il sito sottoposto a scansione e il prodotto. Questi crawler potrebbero rispettare o meno le regole del file robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Fetcher attivati dagli utenti |
Strumenti e funzioni dei prodotti in cui l'utente finale attiva un recupero. Ad esempio,
Google Site Verifier
agisce su richiesta di un utente. Poiché il recupero è stato richiesto da un utente, questi fetcher ignorano le regole del file robots.txt. I fetcher controllati da Google provengono da IP nell'oggetto user-triggered-fetchers-google.json e si risolvono in un
nome host google.com . Gli IP nell'oggetto user-triggered-fetchers.json
si risolvono nei nomi host gae.googleusercontent.com . Questi IP possono essere utilizzati, ad esempio, quando un sito ospitato su Google Cloud (GCP) deve recuperare feed RSS esterni su richiesta di un utente.
|
***-***-***-***.gae.googleusercontent.com o
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json e user-triggered-fetchers-google.json |
Esistono due metodi per verificare i crawler di Google:
- Manualmente: per le ricerche singole, usa gli strumenti a riga di comando. Questo metodo è sufficiente per la maggior parte dei casi d'uso.
- Automaticamente: per le ricerche su larga scala, usa una soluzione automatica per confrontare l'indirizzo IP di un crawler con l'elenco degli indirizzi IP di Googlebot pubblicati.
Utilizzare strumenti a riga di comando
-
Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando
host
. -
Verifica che il nome di dominio appartenga a
googlebot.com
,google.com
ogoogleusercontent.com
. -
Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando
host
. - Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.
Esempio 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Esempio 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Esempio 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Utilizzare soluzioni automatiche
In alternativa, puoi identificare Googlebot in base all'indirizzo IP confrontando l'indirizzo IP del crawler con gli elenchi di intervalli di indirizzi IP dei crawler e dei fetcher di Google:
- Crawler comuni come Googlebot
- Crawler speciali come AdsBot
- Recuperi attivati dall'utente (utenti)
- Recuperi attivati dall'utente (Google)
Per gli altri indirizzi IP Google a cui è possibile accedere al tuo sito (ad esempio Apps Script), confronta l'indirizzo IP che accede con l'elenco di indirizzi IP di Google. Tieni presente che gli indirizzi IP nei file JSON sono rappresentati nel formato CIDR.