Googlebot

Googlebot to ogólna nazwa 2 typów robotów indeksujących używanych przez wyszukiwarkę Google:

Googlebot na smartfony: robot symulujący użytkownika na urządzeniu mobilnym.
Googlebot indeksujący strony na komputer: robot symulujący użytkownika na komputerze.

Możesz zidentyfikować podtyp Googlebota, patrząc na nagłówek żądania HTTP user-agent w żądaniu, jednak oba typy robotów podlegają temu samemu tokenowi produktu (tokenowi klienta użytkownika) w pliku robots.txt, dlatego plik ten nie może przekazywać informacji tylko komórkowemu lub tylko komputerowemu Googlebotowi.

W przypadku większości witryn Google indeksuje przede wszystkim mobilną wersję treści. W związku z tym większość żądań indeksowania będzie realizowana przez robota komórkowego, a mniejszość – przez robota komputerowego.

Jak Googlebot uzyskuje dostęp do Twojej witryny?

W większości przypadków Googlebot nie powinien odwiedzać witryny częściej niż średnio co kilka sekund. Jednak wskutek opóźnień odstępy te mogą się chwilowo nieco zwiększać. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, możesz zmniejszyć szybkość indeksowania.

Podczas indeksowania na potrzeby wyszukiwarki Google Googlebot indeksuje pierwsze 2 MB obsługiwanego typu pliku i pierwsze 64 MB pliku PDF. Z punktu widzenia renderowania każdy zasób wskazany w kodzie HTML (taki jak CSS i JavaScript) jest pobierany oddzielnie, a każde pobieranie zasobu jest objęte tym samym limitem rozmiaru pliku, który dotyczy innych plików (z wyjątkiem plików PDF).
Po osiągnięciu limitu Googlebot zatrzymuje pobieranie i wysyła do indeksowania tylko pobraną część pliku. Limit rozmiaru pliku jest stosowany do danych nieskompresowanych. Inne roboty Google, takie jak Googlebot indeksujący wideo i Googlebot indeksujący obrazy, mogą mieć różne ograniczenia.

W przypadku indeksowania z adresów IP w Stanach Zjednoczonych strefa czasowa Googlebota jest ustawiona na czas pacyficzny.

Inne właściwości techniczne Googlebota zostały opisane w omówieniu robotów Google.

Blokowanie Googlebotowi dostępu do treści witryny

Googlebot znajduje nowe adresy URL do zindeksowania głównie na podstawie linków umieszczonych na wcześniej zindeksowanych stronach. Utrzymanie witryny w tajemnicy przez niepublikowanie do niej żadnych linków jest niemal niemożliwe. Na przykład gdy w Twojej „tajnej” witrynie ktoś kliknie link prowadzący do innej witryny, Twój „tajny” adres URL może pojawić się w tagu z informacjami o stronie odsyłającej i zostać zapisany i opublikowany przez tę witrynę w jej logu stron odsyłających.

Jeśli chcesz uniemożliwić Googlebotowi skanowanie treści w Twojej witrynie, możesz to zrobić na kilka sposobów. Pamiętaj, że istnieje różnica między skanowaniem a indeksowaniem. Zablokowanie Googlebotowi możliwości skanowania strony nie zapobiega wyświetlaniu jej adresu URL w wynikach wyszukiwania:

Zablokować Googlebotowi skanowanie strony? Użyj pliku robots.txt.
Nie chcesz, żeby robot Google zindeksował stronę? Użyj noindex.
W ogóle uniemożliwiać robotom i użytkownikom dostęp do strony? Użyj innej metody, np. ochrony hasłem.

Zablokowanie Googlebota ma wpływ na wyszukiwarkę Google (w tym karty Discover i wszystkie funkcje wyszukiwarki Google), a także inne usługi, takie jak Grafika Google, Google Video i Google News.

Weryfikowanie Googlebota

Zanim zablokujesz Googlebota, pamiętaj, że używany przez Googlebota nagłówek żądania HTTP user-agent jest często fałszowany przez inne roboty. Warto najpierw sprawdzić, czy to rzeczywiście Googlebot wysyła podejrzane żądanie. Aby się o tym przekonać, najlepiej jest przeprowadzić odwrotne wyszukiwanie DNS źródłowego adresu IP żądania lub sprawdzić, czy ten adres mieści się w zakresach adresów IP Googlebota.