Weryfikowanie Googlebota i innych robotów Google
Możesz sprawdzić, czy robot uzyskujący dostęp do Twojego serwera to naprawdę robot Google (taki jak Googlebot). Procedura ta jest przydatna wtedy, gdy obawiasz się, że z Twojej witryny mogą korzystać spamerzy lub inni oszuści podający się za Googlebota.
Roboty Google dzielą się na 3 kategorie:
| Typ | Opis | Odwrotne maskowanie DNS | Zakresy adresów IP | 
|---|---|---|---|
| Popularne roboty | Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania. | crawl-***-***-***-***.googlebot.comlubgeo-crawl-***-***-***-***.geo.googlebot.com | googlebot.json | 
| Roboty specjalne | Roboty wykonujące określone funkcje w konkretnych usługach Google (np. AdsBot), w przypadku których występuje zgodność indeksowanej witryny i usługi co do procesu indeksowania. Te roboty mogą przestrzegać reguł zawartych w pliku robots.txt (ale nie muszą). | rate-limited-proxy-***-***-***-***.google.com | special-crawlers.json | 
| Moduły pobierania uruchamiane przez użytkownika | Narzędzia i funkcje usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują reguły zawarte w pliku robots.txt. Moduły pobierania kontrolowane przez Google pochodzą z adresów IP w obiekcie user-triggered-fetchers-google.jsoni kierują do nazwy hostagoogle.com. Adresy IP w obiekcieuser-triggered-fetchers.jsonodnoszą się do nazw hostówgae.googleusercontent.com. Te adresy IP są używane na przykład wtedy, gdy witryna uruchomiona w Google Cloud (GCP) ma funkcję, która wymaga pobierania zewnętrznych kanałów RSS na żądanie użytkownika tej witryny. | ***-***-***-***.gae.googleusercontent.comlubgoogle-proxy-***-***-***-***.google.com | user-triggered-fetchers.json i user-triggered-fetchers-google.json | 
Istnieją 2 sposoby weryfikowania robotów Google:
- Ręcznie – w przypadku jednorazowych wyszukiwań użyj narzędzi wiersza poleceń. Ta metoda sprawdza się w większości sytuacji.
- Automatycznie – w przypadku wyszukiwań na dużą skalę użyj automatycznego rozwiązania wyszukującego adres IP robota z listy adresów IP opublikowanych przez Google.
Używanie narzędzi wiersza poleceń
- 
    Uruchom odwrotne wyszukiwanie DNS adresu IP, który jest w Twoich dziennikach oznaczony jako nawiązujący połączenie, przy użyciu polecenia host.
- 
    Sprawdź, czy nazwa domeny to googlebot.com,google.comlubgoogleusercontent.com.
- 
    Przeprowadź zwykłe wyszukiwanie DNS nazwy domeny odczytanej w kroku 1 przy użyciu polecenia host.
- Sprawdź, czy nazwa jest taka sama jak adres, który zgodnie z informacjami w dziennikach nawiązywał połączenie.
Przykład 1:
host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
Przykład 2:
host 35.247.243.240240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Przykład 3:
host 66.249.90.7777.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Korzystanie z rozwiązań automatycznych
Możesz zidentyfikować Googlebota po adresie IP, szukając go na liście zakresów adresów IP robotów i modułów pobierania Google:
- Typowe roboty, np. Googlebot
- Roboty specjalne, np. AdsBot
- Moduły pobierania uruchamiane przez użytkownika (użytkownicy)
- Moduły pobierania uruchamiane przez użytkownika (Google)
W przypadku pozostałych adresów IP Google, z których można uzyskać dostęp do Twojej witryny (na przykład przez skrypty Apps Script), znajdź uzyskujący dostęp adres IP na ogólnej liście adresów IP Google. Uwaga: adresy IP w plikach JSON są przedstawione w formacie CIDR.