Übersicht über Google-Crawler und -Fetcher (User-Agents)

Google verwendet Crawler und Fetcher, um Aktionen für seine Produkte auszuführen, entweder automatisch oder durch Nutzeranfrage ausgelöst.

„Crawler“ (manchmal auch als „Robots“ oder „Spider“ bezeichnet) ist ein Überbegriff für Programme, die Websites automatisch finden und scannen. Dazu folgen sie Links von einer Webseite zur nächsten. Der Haupt-Crawler von Google, der für die Google Suche verwendet wird, ist der Googlebot.

„Fetcher“ sind, wie ein Browser, Tools, die eine einzelne URL anfordern, wenn ein Nutzer dazu auffordert.

Die folgenden Tabellen zeigen die von verschiedenen Produkten und Diensten verwendeten Google-Crawler und -Fetcher, wie sie in deinen Verweisprotokollen angezeigt werden können und wie sie in der robots.txt-Datei angegeben werden. Die Listen sind nicht vollständig. Sie decken nur die häufigsten Antragsteller ab, die in Protokolldateien angezeigt werden können.

  • Das User-Agent-Token wird in robots.txt in der Zeile User-agent: verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln deiner Website gelten. Wie du in der Tabelle siehst, haben manche Crawler mehrere Tokens. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler-Token übereinstimmen. Diese Liste ist nicht vollständig, umfasst jedoch die meisten Crawler, denen du auf deiner Website begegnen dürftest.
  • Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der HTTP-Anfrage und in deinen Webprotokollen angezeigt.

Gängige Crawler

Die gängigen Crawler von Google werden verwendet, um die Indexe von Google zu erstellen, andere produktspezifische Crawlings durchzuführen und Analysen vorzunehmen. Sie beachten immer die robots.txt-Regeln und crawlen im Allgemeinen die IP-Bereiche, die im googlebot.json-Objekt veröffentlicht werden.

Gängige Crawler

Googlebot (Smartphone)

Token des User-Agents Googlebot
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot (Computer)

Token des User-Agents Googlebot
Vollständige User-Agent-Strings
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Selten:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot-Image

Wird zum Crawlen von Bildbytes für Google Bilder und für Produkte verwendet, die von Bildern abhängen.

Tokens des User-Agents
  • Googlebot-Image
  • Googlebot
Vollständiger User-Agent-String Googlebot-Image/1.0

Googlebot-News

Der Googlebot-News verwendet den Googlebot zum Crawlen von Nachrichtenartikeln, respektiert aber das bisherige User-Agent-Token Googlebot-News.

Tokens des User-Agents
  • Googlebot-News
  • Googlebot
Vollständiger User-Agent-String Der User-Agent Googlebot-News verwendet die verschiedenen User-Agent-Strings vom Googlebot.

Googlebot-Video

Wird beim Crawlen von Videobytes für Google Videos und für Produkte verwendet, die von Videos abhängen.

Tokens des User-Agents
  • Googlebot-Video
  • Googlebot
Vollständiger User-Agent-String Googlebot-Video/1.0

Google StoreBot

Der Google StoreBot crawlt unter anderem Seiten mit Produktdetails und Einkaufswagen sowie Zahlungsseiten.

Token des User-Agents Storebot-Google
Vollständige User-Agent-Strings
  • Computer-Agent:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Mobilgeräte-Agent:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool

Google-InspectionTool ist der Crawler, der von Search-Testtools wie dem Test für Rich-Suchergebnisse und der URL-Prüfung in der Search Console verwendet wird. Abgesehen vom User-Agent und dem User-Agent-Token wird der Googlebot nachgeahmt.

Token des User-Agents
  • Google-InspectionTool
  • Googlebot
Vollständiger User-Agent-String
  • Mobilgeräte
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Computer
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

GoogleOther ist der allgemeine Crawler, der von verschiedenen Produktteams zum Abrufen von öffentlich zugänglichen Inhalten von Websites verwendet werden kann. Er kann beispielsweise für einmaliges Crawling für die interne Forschung und Entwicklung verwendet werden.

Token des User-Agents GoogleOther
Vollständiger User-Agent-String GoogleOther

Google-Extended

Google-Extended ist ein eigenständiges Produkt-Token, mit dem Web-Publisher steuern können, ob ihre Websites zur Verbesserung der Gemini-Apps und Vertex AI APIs für Generative AI beitragen, einschließlich zukünftiger Modelle, die für diese Produkte genutzt werden. Google-Extended hat keinen Einfluss auf die Aufnahme oder das Ranking einer Website in der Google Suche.

Token des User-Agents Google-Extended
Vollständiger User-Agent-String Google-Extended hat keinen separaten User-Agent-String für HTTP-Anfragen. Das Crawling erfolgt mit vorhandenen User-Agent-Strings von Google. Das robots.txt-User-Agent-Token wird zur Kontrolle verwendet.

Sonderfall-Crawler

Die Sonderfall-Crawler werden von bestimmten Produkten verwendet, wenn es eine Vereinbarung zwischen der gecrawlten Website und dem Produkt über den Crawling-Prozess gibt. Beispielsweise ignoriert AdsBot den globalen robots.txt-User-Agent (*) mit der Berechtigung des Anzeigen-Publishers. Die Sonderfall-Crawler können robots.txt-Regeln ignorieren, sodass sie von einem anderen IP-Bereich als die gängigen Crawlern arbeiten. Die IP-Bereiche werden im Objekt special-crawlers.json veröffentlicht.

Sonderfall-Crawler

APIs-Google

Wird von Google APIs verwendet, um Push-Benachrichtigungen zu senden. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents APIs-Google
Vollständiger User-Agent-String APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Prüft die Anzeigenqualität auf Webseiten, die für Android-Geräte optimiert sind. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents AdsBot-Google-Mobile
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Prüft die Anzeigenqualität auf Webseiten, die für iPhones optimiert sind. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents AdsBot-Google-Mobile
Vollständiger User-Agent-String Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Prüft die Anzeigenqualität auf Webseiten, die für Computer optimiert sind. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents AdsBot-Google
Vollständiger User-Agent-String AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Mit dem AdSense-Crawler wird der Content Ihrer Website ermittelt, sodass relevante Anzeigen ausgeliefert werden können. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents Mediapartners-Google
Vollständiger User-Agent-String Mediapartners-Google

Mobile AdSense

Der Mobile AdSense-Crawler greift zum Ermitteln des Contents auf deine Website zu, damit relevante Anzeigen ausgeliefert werden können. Ignoriert den globalen User-Agent (*) in robots.txt.

Token des User-Agents Mediapartners-Google
Vollständiger User-Agent-String (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google+ Online-Sicherheit

Der Google-Sicherheits-User-Agent kümmert sich um missbrauchsspezifisches Crawling, z. B. die Erkennung von Malware für öffentlich gepostete Links in Google-Produkten. Dieser User-Agent ignoriert robots.txt-Regeln.

Vollständiger User-Agent-String Google-Safety

Vom Nutzer ausgelöste Fetcher

Vom Nutzer ausgelöste Fetcher werden von Nutzern ausgelöst, um eine produktspezifische Funktion auszuführen. Google Site Verifier reagiert beispielsweise auf die Anfrage eines Nutzers. Da der Abruf von einem Nutzer angefordert wurde, ignorieren diese Fetcher meist robots.txt-Regeln. Die IP-Bereiche, die von Fetchern verwendet werden, die vom Nutzer ausgelöst wurden, werden im Objekt user-triggered-fetchers.json veröffentlicht.

Vom Nutzer ausgelöste Fetcher

Feedfetcher

Der Feedfetcher wird zum Crawlen von RSS- oder Atom-Feeds für Google Podcasts, Google News und PubSubHubbub verwendet.

Token des User-Agents FeedFetcher-Google
Vollständiger User-Agent-String FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Publisher Center

Ruft Feeds ab, die Publisher explizit über das Google Publisher Center bereitgestellt haben, und verarbeitet sie für die Verwendung auf Google News-Landingpages.

Vollständiger User-Agent-String GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud

Auf Anfrage des Nutzers ruft Google Read Aloud Webseiten ab und liest sie über die Sprachausgabe vor.

Vollständige User-Agent-Strings

Aktuelle Agents:

  • Computer-Agent:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Mobilgeräte-Agent:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Ehemaliger Agent (eingestellt):

google-speakr

Google Site Verifier

Google Site Verifier ruft Search Console-Bestätigungstokens ab, wenn der Nutzer dies anfordert.

Vollständiger User-Agent-String Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Hinweis zu Chrome/W.X.Y.Z in User-Agents

Überall, wo in den User-Agent-Strings in der Tabelle der String Chrome/W.X.Y.Z erscheint, ist W.X.Y.Z ein Platzhalter für die vom jeweiligen User-Agent verwendete Version des Chrome-Browsers, z. B. 41.0.2272.96. Diese Versionsnummer wird im Laufe der Zeit hochgezählt, weil sie jeweils der neuesten vom Googlebot verwendeten Chromium-Release-Version entspricht.

Wenn du in deinen Protokollen oder auf deinem Server nach einem User-Agent mit diesem Muster suchst, solltest du für die Versionsnummer am besten einen Platzhalter verwenden.

User-Agents in robots.txt

Wenn mehrere User-Agents in der robots.txt-Datei erkannt werden, folgt Google dem spezifischsten. Sollen deine Seiten von allen Crawlern von Google gecrawlt werden, benötigst du keine robots.txt-Datei. Wenn du einen Teil deiner Inhalte für alle Google-Crawler sperren oder zulassen möchtest, gib den Googlebot als User-Agent an. Beispiel: Wenn alle deine Seiten in der Google Suche erscheinen und AdSense-Anzeigen auf deinen Seiten präsentiert werden sollen, brauchst du keine robots.txt-Datei. Falls du einige Seiten komplett für Google sperren möchtest, kannst du einfach den User-Agent Googlebot blockieren. Dadurch werden nämlich auch alle anderen User-Agents von Google blockiert.

Natürlich kannst du auch spezifischere Einstellungen vornehmen. Angenommen, du möchtest, dass alle deine Seiten in der Google Suche erscheinen, Bilder in deinem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall kannst du über die robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image die Dateien in deinem persönlichen Verzeichnis crawlt. Der Googlebot hat aber weiter Zugriff auf alle Dateien. Das sieht dann so aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Ein weiteres Beispiel: Angenommen, du möchtest, dass auf allen deinen Seiten Werbung erscheint, die entsprechenden Seiten sollen aber nicht in der Google Suche erscheinen. In diesem Fall blockierst du den Googlebot, lässt aber den User-Agent Mediapartners-Google zu. Das sieht dann so aus:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Crawling-Geschwindigkeit steuern

Jeder Google-Crawler greift zu einem bestimmten Zweck und mit unterschiedlicher Häufigkeit auf Websites zu. Google verwendet Algorithmen, um die optimale Crawling-Frequenz für einzelne Websites zu ermitteln. Wenn ein Google-Crawler deine Website zu oft crawlt, kannst du die Crawling-Frequenz verringern.

Eingestellte Google-Crawler

Die folgenden Google-Crawler werden nicht mehr verwendet und sind hier nur zu Referenzzwecken aufgeführt.

Eingestellte Google-Crawler

Google Duplex im Web

Hat den Dienst „Duplex im Web“ unterstützt.

Token des User-Agents DuplexWeb-Google
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Es wurde immer dann geprüft, ob der Header no-transform vorhanden ist, wenn ein Nutzer unter entsprechenden Bedingungen in der Suche auf deine Seite geklickt hat. Der Web Light-User-Agent wurde nur für Suchanfragen eines menschlichen Besuchers verwendet und hat daher robots.txt-Regeln ignoriert, mit denen sonst automatisierte Crawling-Anfragen blockiert werden.

Token des User-Agents googleweblight
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Mobile Apps Android

Prüft die Anzeigenqualität auf Seiten, die für Android-Apps optimiert sind. Beachtet die AdsBot-Google-Robots-Regeln, ignoriert aber den globalen User-Agent (*) in der robots.txt-Datei.

Token des User-Agents AdsBot-Google-Mobile-Apps
Vollständiger User-Agent-String AdsBot-Google-Mobile-Apps

Google Favicon

Token des User-Agents
  • Googlebot-Image
  • Googlebot
Vollständiger User-Agent-String Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon