Przegląd robotów i modułów pobierania Google (klientów użytkownika)
Google korzysta z robotów i modułów pobierania, aby wykonywać działania w swoich usługach, automatycznie lub na żądanie użytkownika.
„Robot” to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i skanowania witryn przez podążanie za linkami od strony do strony. Główny robot używany w wyszukiwarce Google nazywa się Googlebot.
Moduły pobierania, takie jak przeglądarka, to narzędzia, które w odpowiedzi na żądanie użytkownika proszą o wyświetlenie pojedynczego adresu URL.
Poniższe tabele zawierają informacje na temat robotów i modułów pobierania Google, które możesz zobaczyć w dziennikach strony odsyłającej, oraz sposobu ich określania w pliku robots.txt. Roboty i moduły pobierania są używane przez różne usługi Google. Listy nie są wyczerpujące. Dotyczą one tylko najczęstszych zgłaszających, którzy mogą być widoczni w plikach dziennika.
-
Token klienta użytkownika jest używany w wierszu
User-agent:
w pliku robots.txt i reprezentuje typ robota podczas pisania reguł indeksowania Twojej witryny. Jak pokazujemy w tabeli, niektóre roboty odpowiadają więcej niż jednemu tokenowi. Wystarczy, że użyjesz tylko jednego pasującego tokena robota, aby reguła została zastosowana. Lista nie jest kompletna, ale obejmuje większość robotów, które możesz zobaczyć w swojej witrynie. - Pełny ciąg znaków klienta użytkownika to pełny opis robota widoczny w żądaniu HTTP i dziennikach witryny.
Popularne roboty
Popularne roboty Google znajdują informacje w celu tworzenia indeksów wyszukiwarki Google, wykonywania innych operacji indeksowania określonych usług oraz przeprowadzania analiz. Zawsze przestrzegają reguł zawartych w pliku robots.txt i zwykle indeksują treści z zakresów adresów IP opublikowanych w obiekcie googlebot.json.
Popularne roboty | |||||
---|---|---|---|---|---|
Googlebot indeksujący strony na smartfony |
|
||||
Komputerowy Googlebot |
|
||||
Googlebot Image |
Służy do indeksowania adresów URL obrazu w Grafice Google i usługach bazujących na obrazach.
|
||||
Googlebot News |
Używa Googlebota do indeksowania artykułów informacyjnych, ale liczy się z historycznym tokenem klienta użytkownika (
|
||||
Googlebot Video |
Służy do indeksowania adresów URL filmów w funkcjach wideo Google i usługach bazujących na filmach.
|
||||
Google StoreBot |
Google StoreBot indeksuje określone typy stron, w tym m.in. strony ze szczegółami produktów, strony koszyka i strony płatności.
|
||||
Narzędzie Google do sprawdzania |
Narzędzie Google do sprawdzania to robot używany przez narzędzia do testowania wyszukiwarki, takie jak test wyników z elementami rozszerzonymi i narzędzie do sprawdzania adresów URL w Search Console. Poza klientem użytkownika i tokenem klienta użytkownika naśladuje on Googlebota.
|
||||
GoogleOther |
GoogleOther to robot ogólny używany przez różne zespoły usług w celu pobierania treści dostępnych publicznie z witryn. Może na przykład służyć do jednorazowego indeksowania treści na potrzeby badań wewnętrznych i rozwoju.
|
||||
GoogleOther-Image |
GoogleOther-Image to wersja robota GoogleOther zoptymalizowana pod kątem pobierania adresów URL dostępnych publicznie obrazów.
|
||||
GoogleOther-Video |
GoogleOther-Video to wersja robota GoogleOther zoptymalizowana pod kątem pobierania adresów URL dostępnych publicznie filmów.
|
||||
Google-CloudVertexBot |
Podczas tworzenia agentów Vertex AI robot Google-CloudVertexBot indeksuje witryny na żądanie właścicieli.
|
||||
Google-Extended |
|
Roboty specjalne
Roboty specjalne są używane w konkretnych usługach, w przypadku których występuje zgodność indeksowanej witryny i usługi co do procesu indeksowania. Na przykład AdsBot
ignoruje globalnego klienta użytkownika w pliku robots.txt (*
) za zgodą wydawcy reklamy. Roboty specjalne mogą ignorować reguły zawarte w pliku robots.txt, dlatego działają w innym zakresie adresów IP niż typowe roboty. Zakresy adresów IP są publikowane w obiekcie special-crawlers.json.
Roboty specjalne | |||||
---|---|---|---|---|---|
APIs-Google |
Używane przez interfejsy API Google do dostarczania komunikatów z powiadomień push. Ignorują globalnego klienta użytkownika (
|
||||
AdsBot Mobile Web |
Sprawdza jakość reklam na stronie internetowej na urządzeniu mobilnym.
Ignoruje globalnego klienta użytkownika (
|
||||
AdsBot |
Sprawdza jakość reklam na stronie internetowej na komputerze.
Ignoruje globalnego klienta użytkownika (
|
||||
AdSense |
Robot indeksujący AdSense analizuje witrynę, aby określić jej zawartość, co jest potrzebne do wyświetlania odpowiednich reklam. Ignoruje globalnego klienta użytkownika (
|
||||
Mobile AdSense |
Robot indeksujący Mobile AdSense analizuje witrynę, aby określić jej zawartość, co jest potrzebne do wyświetlania odpowiednich reklam. Ignoruje globalnego klienta użytkownika (
|
||||
Google-Safety |
Klient użytkownika Google-Safety obsługuje indeksowanie związane z nadużyciami, np. wykrywanie złośliwego oprogramowania pod kątem publicznie opublikowanych linków w usługach Google. Ten klient użytkownika ignoruje reguły w pliku robots.txt.
|
Moduły pobierania uruchamiane przez użytkownika
Moduły pobierania uruchamiane przez użytkownika są inicjowane przez użytkowników w celu wykonania funkcji pobierania związanej z konkretną usługą. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika, a witryna hostowana w Google Cloud (GCP) ma funkcję umożliwiającą użytkownikom witryny pobieranie informacji z zewnętrznego kanału RSS. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują zwykle reguły zawarte w pliku robots.txt. Zakresy adresów IP używane przez moduły pobierania uruchamiane przez użytkownika są publikowane w obiektach user-triggered-fetchers.json i user-triggered-fetchers-google.json.
Moduły pobierania uruchamiane przez użytkownika | |||||
---|---|---|---|---|---|
Feedfetcher |
Moduł pobierania kanałów służy do indeksowania kanałów RSS lub Atom w Podcastach Google, Wiadomościach Google i PubSubHubbub.
|
||||
Centrum wydawców Google |
Pobiera i przetwarza kanały podane przez wydawców w Centrum wydawców Google do wykorzystania na stronach docelowych w Wiadomościach Google.
|
||||
Google Read Aloud |
Na żądanie użytkownika Google Read Aloud pobiera i odczytuje strony internetowe za pomocą zamiany tekstu na mowę.
|
||||
Robot Google do weryfikacji witryn |
Robot Google do weryfikacji witryn pobiera na żądanie użytkowników tokeny weryfikacyjne Search Console.
|
Uwaga dotycząca Chrome/W.X.Y.Z w klientach użytkownika
W każdym miejscu w tabeli, w którym pojawia się ciąg znaków Chrome/W.X.Y.Z, W.X.Y.Z jest w rzeczywistości symbolem zastępczym reprezentującym wersję przeglądarki Chrome używaną przez tego klienta użytkownika, na przykład 41.0.2272.96
. Numer wersji zwiększa się wraz ze zmianami numeru najnowszych wersji Chromium używanych przez Googlebota.
Wyszukując dane w dziennikach lub filtrując serwer pod kątem klienta użytkownika z tym wzorcem, zamiast dokładnego numeru wersji lepiej będzie użyć symboli wieloznacznych.
Klienty użytkownika w pliku robots.txt
Jeśli w pliku robots.txt zostanie rozpoznane kilka klientów użytkownika, Google użyje najmniej ogólnego z nich. Jeśli wszystkie roboty Google mają mieć dostęp do Twoich stron, plik robots.txt nie jest w ogóle potrzebny. Jeśli chcesz zablokować lub dopuścić dostęp wszystkich robotów Google do określonej zawartości, możesz to zrobić, wskazując Googlebot jako klienta użytkownika. Jeśli na przykład chcesz, aby wszystkie Twoje strony były wyświetlane w wyszukiwarce Google i żeby pojawiały się na nich reklamy AdSense, plik robots.txt nie jest potrzebny. Jeśli chcesz całkowicie zablokować dostęp robotów Google do niektórych stron, zablokowanie klienta użytkownika Googlebot
spowoduje również zablokowanie wszystkich innych klientów użytkownika Google.
Jeśli chcesz mieć większą kontrolę, możesz skorzystać z bardziej szczegółowych ustawień. Załóżmy na przykład, że chcesz, żeby wszystkie Twoje strony były wyświetlane w wyszukiwarce Google, ale nie życzysz sobie indeksowania zdjęć znajdujących się w Twoim katalogu prywatnym. W takim przypadku skorzystaj z pliku robots.txt, aby zabronić klientowi użytkownika Googlebot-Image
indeksowania plików w katalogu prywatnym, ale jednocześnie zezwolić Googlebotowi na indeksowanie wszystkich plików:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Oto inny przykład. Załóżmy, że chcesz wyświetlać reklamy na wszystkich swoich stronach, ale nie chcesz, aby te strony pojawiały się w wyszukiwarce Google. W takiej sytuacji zablokuj Googlebota, ale dopuść klienta użytkownika Mediapartners-Google
:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Kontrolowanie szybkości indeksowania
Poszczególne roboty Google uzyskują dostęp do witryn w określonym celu i z różną szybkością. Google używa algorytmów, żeby dla każdej witryny określić optymalną szybkość indeksowania. Jeśli robot Google zbyt często indeksuje Twoją witrynę, możesz zmniejszyć szybkość indeksowania.
Wycofane roboty Google
Poniższe roboty Google nie są już używane. Są one wymienione tutaj tylko jako dane historyczne.
Wycofane roboty Google | |||||
---|---|---|---|---|---|
Google Duplex on the web |
Obsługiwał usługę Duplex on the web.
|
||||
Web Light |
Za każdym razem, gdy użytkownik kliknął Twoją stronę w wyszukiwarce przy odpowiednich warunkach, klient użytkownika Web Light sprawdzał, czy na stronie nie ma nagłówka
|
||||
AdsBot Mobile Web |
Sprawdza jakość reklam na stronie internetowej na iPhonie.
Ignoruje globalnego klienta użytkownika (
|
||||
Mobile Apps Android |
Sprawdza jakość reklam na stronie aplikacji na Androida.
Przestrzega reguł robota
|
||||
Google Favicon |
|