Liste der gesonderten Crawler von Google

Die gesonderten Crawler werden von bestimmten Google-Produkten verwendet, wenn es eine Vereinbarung zwischen der gecrawlten Website und dem Produkt über den Crawling-Prozess gibt. Beispielsweise ignoriert AdsBot den globalen robots.txt-User-Agent (*) mit der Berechtigung des Anzeigen-Publishers. Die allgemeine technische Eigenschaften der Google-Crawler gelten auch für gesonderte Crawler.

Die Sonderfall-Crawler können robots.txt-Regeln ignorieren, sodass sie von einem anderen IP-Bereich als die gängigen Crawlern arbeiten. Die IP-Bereiche werden im Objekt special-crawlers.json veröffentlicht. Die umgekehrte DNS-Maske der gesonderten Crawler stimmt mit rate-limited-proxy-***-***-***-***.google.com überein.

Die folgende Liste enthält die gesonderten Crawler, ihre User-Agent-Strings, wie sie in den HTTP-Anfragen erscheinen, ihre User-Agent-Tokens für die Zeile User-agent: in robots.txt und die Produkte, die von den Crawling-Einstellungen für den Crawler betroffen sind. Die Liste ist nicht vollständig. Sie umfasst nur die Anfragesteller, die mit höherer Wahrscheinlichkeit in Protokolldateien vorkommen und zu denen wir Fragen erhalten haben.

APIs-Google

User-Agent in HTTP-Anfragen

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

robots.txt

User-Agent-Token in robots.txt

APIs-Google

Der globale User-Agent (*) wird ignoriert.

Beispiel für eine robots.txt-Gruppe

user-agent: APIs-Google
allow: /archive/1Q84
disallow: /archive/

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent APIs-Google gerichtet sind, wirken sich auf die Zustellung von Push-Benachrichtigungen durch Google APIs aus.

AdsBot Mobile Web

User-Agent in HTTP-Anfragen

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

robots.txt

User-Agent-Token in robots.txt

AdsBot-Google-Mobile

Der globale User-Agent (*) wird ignoriert.

Beispiel für eine robots.txt-Gruppe

user-agent: AdsBot-Google-Mobile
allow: /archive/1Q84
disallow: /archive/

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent AdsBot-Google-Mobile gerichtet sind, wirken sich darauf aus, ob in Google Ads die Anzeigenqualität auf Webseiten überprüft werden kann.

AdsBot

User-Agent in HTTP-Anfragen

AdsBot-Google (+http://www.google.com/adsbot.html)

robots.txt

User-Agent-Token in robots.txt

AdsBot-Google

Der globale User-Agent (*) wird ignoriert.

Beispiel für eine robots.txt-Gruppe

user-agent: AdsBot-Google
allow: /archive/1Q84
disallow: /archive/

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent AdsBot-Google gerichtet sind, wirken sich auf die Möglichkeit von Google Ads aus, die Anzeigenqualität auf Webseiten zu prüfen.

AdSense

User-Agent in HTTP-Anfragen

Computer-Agent:	Mediapartners-Google
Mobilgeräte-Agent:	(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

robots.txt

User-Agent-Token in robots.txt	`Mediapartners-Google` Der globale User-Agent (`*`) wird ignoriert.
Beispiel für eine robots.txt-Gruppe	user-agent: Mediapartners-Google allow: /archive/1Q84 disallow: /archive/

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent Mediapartners-Google gerichtet sind, wirken sich auf Google AdSense aus. Der AdSense-Crawler greift auf teilnehmende Websites zu, um auf ihnen relevante Anzeigen zu präsentieren.

Google-Sicherheit

User-Agent in HTTP-Anfragen	Google-Safety
robots.txt	Der Google-Sicherheit-User-Agent ignoriert robots.txt-Regeln.
Betroffene Produkte:	Der Google-Sicherheit-User-Agent kümmert sich um missbrauchsspezifisches Crawling, z. B. die Erkennung von Malware für öffentlich gepostete Links in Google-Produkten. Daher ist er von den Crawling-Einstellungen nicht betroffen.

Eingestellte gesonderte Crawler

Die folgenden gesonderten Crawler werden nicht mehr verwendet und sind hier nur zu Referenzzwecken aufgeführt.

AdsBot Mobile Web

User-Agent in HTTP-Anfragen

Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

robots.txt

User-Agent-Token in robots.txt

AdsBot-Google-Mobile

Der globale User-Agent (*) wird ignoriert.

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent AdsBot-Google-Mobile gerichtet sind, haben die Möglichkeit beeinträchtigt, in Google Ads die Anzeigenqualität auf Webseiten auf iPhones zu prüfen.

Google Duplex im Web

User-Agent in HTTP-Anfragen

Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

robots.txt

User-Agent-Token in robots.txt

DuplexWeb-Google

Duplex im Web kann den Platzhalter * ignorieren.

Betroffene Produkte: Hat den Dienst „Duplex im Web“ unterstützt.

Google Favicon

User-Agent in HTTP-Anfragen

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

robots.txt

User-Agent-Token in robots.txt

Googlebot-Image

Googlebot

Mobile Apps Android

User-Agent in HTTP-Anfragen

AdsBot-Google-Mobile-Apps

robots.txt

User-Agent-Token in robots.txt

AdsBot-Google-Mobile-Apps

Der AdsBot-Google-Mobile-Apps-User-Agent befolgte die AdsBot-Google-Robots-Regeln, ignorierte aber den globalen User-Agent (*).

Betroffene Produkte: Crawling-Einstellungen, die an den User-Agent AdsBot-Google-Mobile-Apps gerichtet sind, wirken sich darauf aus, ob in Google Ads die Anzeigenqualität auf Seiten in Android-Apps geprüft werden kann.

Web Light

User-Agent in HTTP-Anfragen

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

robots.txt

User-Agent-Token in robots.txt

googleweblight

Der googleweblight-User-Agent wurde nur für Suchanfragen eines menschlichen Besuchers verwendet und hat daher robots.txt-Regeln ignoriert, mit denen sonst automatisierte Crawling-Anfragen blockiert werden.

Betroffene Produkte: Der Web Light-User-Agent hat immer dann geprüft, ob der Header no-transform vorhanden ist, wenn ein Nutzer unter entsprechenden Bedingungen in der Suche auf Ihre Seite geklickt hat.