Verificare Googlebot e altri crawler di Google

Puoi verificare se un web crawler che accede al tuo server è davvero un crawler di Google, ad esempio Googlebot. Ciò risulta utile se temi che spammer o altri utenti malintenzionati accedano al tuo sito facendosi passare per Googlebot. Google non pubblica un elenco di indirizzi IP pubblicamente accessibile che i proprietari dei siti web possono aggiungere alla lista consentita. Infatti, gli intervalli di indirizzi IP possono cambiare, causando problemi ai proprietari dei siti web che ne hanno eseguito l'hard-coding. Perciò è necessario effettuare una ricerca DNS come descritto di seguito.

Verificare che Googlebot (o un altro crawler di Google) sia il crawler in uso

Utilizzare strumenti a riga di comando

  1. Esegui una ricerca DNS inversa in base agli indirizzi IP che accedono al tuo sito e che sono elencati nei tuoi log, utilizzando il comando host.
  2. Verifica che il nome di dominio appartenga a googlebot.com o google.com.
  3. Esegui una ricerca DNS anticipata in base al nome di dominio ottenuto al passaggio 1 utilizzando il comando host. Verifica che l'indirizzo IP che accede al tuo sito corrisponda a quello indicato nei log.

Esempio 1:

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Esempio 2:

> host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utilizzare soluzioni automatiche

Google non fornisce librerie software che consentono di identificare i suoi crawler. Puoi utilizzare una libreria open source per verificare Googlebot.