Googlebot

Googlebot ist der allgemeine Name für zwei Arten von Web-Crawlern, die in der Google Suche verwendet werden:

Googlebot für Smartphones: ein mobiler Crawler, der einen Nutzer mit einem Mobilgerät simuliert
Googlebot für Computer: ein Computer-Crawler, der einen Nutzer mit einem Computer simuliert

In der Anfrage im HTTP-user-agent-Anfrage-Headersehen Sie, um welchen Untertyp es sich handelt. Allerdings gilt für beide Crawler-Typen das gleiche Produkt-Token (User-Agent-Token) in der Datei „robots.txt“ und es ist nicht möglich, gezielt den Googlebot für Smartphones oder den Googlebot für Computer auszuwählen.

Bei den meisten Websites indexiert die Google Suche in erster Linie die mobile Version der Inhalte. Somit erfolgt die Mehrheit der Googlebot-Crawling-Anfragen über den mobilen Crawler und nur eine Minderheit über den Computer-Crawler.

So greift der Googlebot auf deine Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf deine Website zu. Aufgrund von Verzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen. Wenn deine Website nicht mit den Crawling-Anfragen von Google mithalten kann, kannst du die Crawling-Frequenz verringern.

Beim Crawling für die Google Suche crawlt der Googlebot die ersten 2 MB eines unterstützten Dateityps und die ersten 64 MB einer PDF-Datei. Aus Rendering-Sicht wird jede im HTML-Code referenzierte Ressource (z. B. CSS und JavaScript) separat abgerufen. Jeder Ressourcenabruf unterliegt derselben Dateigrößenbeschränkung, die für andere Dateien (außer PDF-Dateien) gilt.
Sobald das Limit erreicht ist, beendet der Googlebot den Abruf und sendet nur den bereits heruntergeladenen Teil der Datei für die Indexierung. Die Beschränkung der Dateigröße gilt für die unkomprimierten Daten. Für andere Google-Crawler wie den Googlebot für Videos und den Googlebot für Bilder gelten möglicherweise andere Beschränkungen.

Beim Crawlen von IP-Adressen in den USA ist die Zeitzone des Googlebots Pacific Time.

Weitere technische Eigenschaften des Googlebots werden in der Übersicht der Crawler von Google beschrieben.

Googlebot für das Crawlen deiner Website blockieren

Der Googlebot erkennt neue URLs, die gecrawlt werden sollen, hauptsächlich über Links, die in zuvor gecrawlten Seiten eingebettet sind. Es ist praktisch unmöglich, eine Website geheim zu halten, indem du keine Links zu ihr veröffentlichst. Sobald beispielsweise jemand einem Link von deiner „geheimen“ Website zu einer anderen Website anklickt, kommt deine „geheime“ Website-URL im Verweis-Tag vor und kann von der anderen Website in deren Verweisprotokoll gespeichert und veröffentlicht werden.

Wenn du nicht möchtest, dass der Googlebot Inhalte auf deiner Website crawlt, hast du verschiedene Möglichkeiten. Denke daran, dass es einen Unterschied zwischen Crawling und Indexierung gibt. Wenn du das Crawling einer Seite durch den Googlebot blockierst, wird dadurch nicht verhindert, dass die URL der Seite in den Suchergebnissen erscheint:

Du möchtest verhindern, dass der Googlebot eine Seite crawlt? Verwende eine robots.txt-Datei.
Du möchtest nicht, dass eine Seite von Google indexiert wird? Verwende noindex.
Du möchtest verhindern, dass sowohl Crawler als auch Nutzer auf eine Seite zugreifen können? Verwende eine andere Methode, z. B. den Passwortschutz.

Wenn der Googlebot blockiert wird, wirkt sich das auf die Google Suche (einschließlich Discover und aller Funktionen der Google Suche) sowie auf andere Produkte wie Google Bilder, Google Video und Google News aus.

Googlebot überprüfen

Bevor du dich dazu entscheidest, den Googlebot zu blockieren, solltest du wissen, dass der vom Googlebot verwendete HTTP-user-agent-Anfrage-Header oftmals von anderen Crawlern gefälscht wird. Es ist wichtig, zu prüfen, ob eine problematische Anfrage tatsächlich vom Googlebot stammt. Die beste Möglichkeit, das zu prüfen, besteht darin, einen umgekehrten DNS-Lookup für die Quell-IP der Anfrage zu verwenden oder die Quell-IP mit den IP-Bereichen des Googlebots zu vergleichen.