Przegląd robotów i modułów pobierania Google (klientów użytkownika)

Google korzysta z robotów i modułów pobierania, aby wykonywać działania w swoich usługach, automatycznie lub na żądanie użytkownika. Robot to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i skanowania witryn. Moduły pobierania działają jak program wget, który zwykle wysyła jedno żądanie w imieniu użytkownika. Klienty Google dzielą się na 3 kategorie:

Popularne roboty	Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania.
Roboty specjalne	Roboty specjalne są podobne do robotów typowych, ale są używane w konkretnych usługach, w przypadku których istnieje umowa między indeksowaną witryną a usługą Google dotycząca procesu indeksowania. Na przykład `AdsBot` ignoruje globalnego klienta użytkownika w pliku robots.txt (`*`) za zgodą wydawcy reklamy.
Moduły pobierania uruchamiane przez użytkownika	Moduły pobierania uruchamiane przez użytkownika są częścią narzędzi i funkcji usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika.

Właściwości techniczne robotów i modułów pobierania Google

Roboty i moduły pobierania Google zostały zaprojektowane do działania jednocześnie na tysiącach komputerów, co poprawia ich wydajność i zapewnia skalowalność w miarę rozwoju sieci. Aby zoptymalizować wykorzystanie przepustowości, rozmieszczamy te klienty w wielu centrach danych na całym świecie, aby były one zlokalizowane w pobliżu witryn, z którymi mogą się łączyć. Z tego względu w dziennikach mogą się pojawić wizyty z kilku adresów IP. Google wysyła dane głównie z adresów IP w Stanach Zjednoczonych. Jeśli Googlebot wykryje, że witryna blokuje żądania pochodzące ze Stanów Zjednoczonych, może spróbować zindeksować ją z adresów IP znajdujących się w innych krajach.

Obsługiwane protokoły przenoszenia

Roboty i moduły pobierania Google obsługują protokoły HTTP/1.1 i HTTP/2. Roboty będą używać wersji protokołu, która zapewnia najlepszą skuteczność indeksowania, i mogą zmieniać protokoły między sesjami indeksowania w zależności od poprzednich statystyk indeksowania. Domyślna wersja protokołu używana przez roboty Google to HTTP/1.1. Indeksowanie przez HTTP/2 może zaoszczędzić zasoby obliczeniowe (np. procesor, pamięć RAM) Twojej witryny i Googlebota, ale nie przynosi korzyści związanych z konkretną usługą Google (np. nie zwiększa rankingu w wyszukiwarce Google). Jeśli chcesz zrezygnować z indeksowania z wykorzystaniem protokołu HTTP/2, poinstruuj serwer hostujący Twoją witrynę, aby przy próbie indeksowania witryny przez HTTP/2 zwracał kod stanu HTTP 421. Jeśli nie jest to możliwe, wyślij wiadomość do zespołu ds. indeksowania (jest to rozwiązanie tymczasowe).

Infrastruktura robotów Google obsługuje też indeksowanie za pomocą protokołów FTP (zgodnie z definicją podaną w specyfikacji RFC959 i jej aktualizacjach) oraz FTPS (zgodnie z definicją podaną w specyfikacji RFC4217 i jej aktualizacjach), ale indeksowanie za pomocą tych protokołów jest rzadkie.

Obsługiwane kodowania treści

Roboty i moduły pobierania Google obsługują te formaty kodowania (kompresji) treści: gzip, deflate i Brotli (br). Kodowania treści obsługiwane przez poszczególne klienty użytkownika Google są deklarowane w nagłówku Accept-Encoding każdego żądania. Na przykład: Accept-Encoding: gzip, deflate, br.

Limity wielkości pliku

Domyślnie roboty indeksujące i pobierające Google indeksują tylko pierwsze 15 MB pliku, a wszelkie treści wykraczające poza ten limit są ignorowane. Poszczególne projekty mogą jednak ustawiać inne limity dla swoich robotów indeksujących i pobierających, a także dla różnych typów plików. Na przykład robot Google, taki jak Googlebot, może mieć mniejszy limit rozmiaru (np. 2 MB) lub określać większy limit rozmiaru pliku w przypadku plików PDF niż w przypadku plików HTML.

Szybkość indeksowania i obciążenie hosta

Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdej wizyty bez nadmiernego obciążania serwera. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, możesz zmniejszyć szybkość indeksowania. Pamiętaj, że wysyłanie nieodpowiednich kodów odpowiedzi HTTP do robotów Google może wpłynąć na sposób wyświetlania Twojej witryny w usługach Google.

Buforowanie HTTP

Infrastruktura Google do indeksowania obsługuje heurystyczne przechowywanie w pamięci podręcznej HTTP zgodnie ze standardem buforowania HTTP, w szczególności za pomocą nagłówka odpowiedzi ETag i żądania If-None-Match oraz nagłówka odpowiedzi Last-Modified i żądania If-Modified-Since.

Uwaga: rozważ ustawienie wartości Etag i Last-Modified niezależnie od preferencji robotów Google. Te nagłówki są też używane przez inne aplikacje, np. systemy CMS.

Jeśli w odpowiedzi HTTP występują oba pola nagłówka odpowiedzi ETag i Last-Modified, roboty Google używają wartości ETag, co jest wymagane przez standard HTTP. W przypadku robotów Google zalecamy używanie nagłówka ETag zamiast Last-Modified, aby wskazać preferencje dotyczące buforowania, ponieważ ETag nie powoduje problemów z formatowaniem daty.

Inne dyrektywy buforowania HTTP nie są obsługiwane.

Poszczególne roboty i moduły pobierania Google mogą korzystać z buforowania lub nie, w zależności od potrzeb usługi, z którą są powiązane. Na przykład Googlebot obsługuje buforowanie podczas ponownego indeksowania adresów URL w wyszukiwarce Google, a Storebot-Google obsługuje buforowanie tylko pod pewnymi warunkami.

Aby wdrożyć buforowanie HTTP w swojej witrynie, skontaktuj się z dostawcą usług hostingowych lub systemu zarządzania treścią.

`ETag` i `If-None-Match`

Infrastruktura indeksowania Google obsługuje ETag i If-None-Match zgodnie ze standardem buforowania HTTP. Dowiedz się więcej o nagłówku odpowiedzi ETag i jego odpowiedniku w nagłówku żądania, If-None-Match.

Nagłówek Last-Modified i If-Modified-Since

Infrastruktura indeksowania Google obsługuje Last-Modified i If-Modified-Since zgodnie ze standardem buforowania HTTP z tymi zastrzeżeniami:

Data w nagłówku Last-Modified musi być sformatowana zgodnie ze standardem HTTP. Aby uniknąć problemów z analizą, zalecamy użycie tego formatu daty: „Dzień tygodnia, DD Mon YYYY HH:MM:SS Strefa czasowa”, np. „Fri, 4 Sep 1998 19:15:56 GMT”.
Chociaż nie jest to wymagane, warto też ustawić pole max-age nagłówka odpowiedzi Cache-Control, aby pomóc robotom w określaniu, kiedy ponownie zindeksować dany adres URL. Ustaw wartość pola max-age na oczekiwaną liczbę sekund, przez które treści mają pozostać niezmienione, np. „Cache-Control: max-age=94043”.

Dowiedz się więcej o nagłówku odpowiedzi Last-Modifiedi jego odpowiedniku w nagłówku żądania, If-Modified-Since.

Weryfikowanie robotów i modułów pobierania Google

Roboty Google identyfikują się na 3 sposoby:

Nagłówek żądania HTTP user-agent.
Źródłowy adres IP żądania.
Odwrotna nazwa hosta DNS źródłowego adresu IP.

Dowiedz się, jak używać tych informacji do weryfikacji robotów i modułów pobierania Google.

Przegląd robotów i modułów pobierania Google (klientów użytkownika)

Właściwości techniczne robotów i modułów pobierania Google

Obsługiwane protokoły przenoszenia

Obsługiwane kodowania treści

Limity wielkości pliku

Szybkość indeksowania i obciążenie hosta

Buforowanie HTTP

ETag i If-None-Match

Nagłówek Last-Modified i If-Modified-Since

Weryfikowanie robotów i modułów pobierania Google

`ETag` i `If-None-Match`