Google-Crawler (User-Agents)

„Crawler“ ist ein Oberbegriff für Programme wie „Robot“ oder „Spider“. Diese durchsuchen Websites automatisch, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die folgende Tabelle enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen vorkommen können, und dazu, wie diese in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Regeln für X-Robots-Tag angegeben werden.

In der folgenden Tabelle sind Crawler aufgeführt, die von verschiedenen Produkten und Diensten bei Google verwendet werden:

  • Das User-Agent-Token wird in robots.txt in der Zeile User-agent: verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln deiner Website gelten. Wie du in der Tabelle siehst, haben einige Crawler mehr als ein Token. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler übereinstimmen. Diese Liste ist nicht vollständig, umfasst jedoch die meisten Crawler, die du auf deiner Website sehen kannst.
  • Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der Anfrage und in deinen Webprotokollen angezeigt.
Crawler User-Agent-Token (Produkt-Token) Vollständiger User-Agent-String
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Prüft die Anzeigenqualität auf Webseiten, die für Android-Geräte optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Prüft die Anzeigenqualität auf Webseiten, die für iPhones optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Prüft die Anzeigenqualität auf Webseiten, die für Computer optimiert sind)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot-Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot-News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot-Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Computer)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    oder (selten verwendet):
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Verschiedene Mobilgerätetypen) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Prüft die Anzeigenqualität auf Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

 Ignoriert die Regeln von robots.txt. Informationen zu den Gründen

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

 Ignoriert die Regeln von robots.txt. Informationen zu den Gründen

Aktuelle Agents:

  • Desktop-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)
  • Mobilgeräte-Agent: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)

Ehemaliger Agent (eingestellt): google-speakr

Duplex im Web

DuplexWeb-Google

Ignoriert möglicherweise den Platzhalter *. Informationen zu den Gründen

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(Ruft Favicons für verschiedene Dienste ab)

Google Favicon

 Bei Nutzeranfragen werden robots.txt-Regeln ignoriert

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

Ignoriert die Regeln von robots.txt. Informationen zu den Gründen

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Desktop-Agent: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Mobilgeräte-Agent: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

User-Agents in robots.txt

Werden mehrere User-Agents in der robots.txt-Datei erkannt, folgt Google dem spezifischsten. Wenn du deine Seiten von allen Crawlern von Google crawlen lassen möchtest, benötigst du keine robots.txt-Datei. Wenn du einen Teil deiner Inhalte für alle Google-Crawler sperren oder zulassen möchtest, gib den Googlebot als User-Agent an. Beispiel: Wenn alle deine Seiten in der Google Suche und in AdSense-Anzeigen auf deinen Seiten erscheinen sollen, benötigst du keine robots.txt-Datei. Und wenn du einige Seiten ganz für Google sperren möchtest, werden durch das Blockieren des User-Agents Googlebot auch alle anderen User-Agents von Google blockiert.

Du kannst dies jedoch auch noch etwas detaillierter angeben. Möglicherweise möchtest du zum Beispiel, dass alle deine Seiten in der Google Suche angezeigt, Bilder in deinem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall kannst du mit der robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image die Dateien in deinem persönlichen Verzeichnis crawlt, während der Googlebot zum Crawlen aller Dateien berechtigt ist. Dies sieht dann folgendermaßen aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Ein weiteres Beispiel: Angenommen, du möchtest Werbung auf allen deinen Seiten einblenden. Diese Seiten sollen jedoch nicht in der Google Suche erscheinen. In diesem Fall blockierst du den Googlebot, lässt aber den User-Agent Mediapartners-Google zu. Dies sieht dann so aus:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-Agents in Robots-Meta-Tags

Manche Seiten verwenden mehrere Robots-Meta-Tags, um Anweisungen für verschiedene Crawler anzugeben. Beispiel:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

In diesem Fall verwendet Google die Summe der negativen Anweisungen und der Googlebot folgt sowohl der Regel noindex als auch der Regel nofollow. Genauere Informationen zum Steuern des Crawlings und der Indexierung deiner Website durch Google