Googlebot
Googlebot ist der allgemeine Name für die beiden Arten von Web-Crawlern von Google:
- Googlebot für Smartphones: ein mobiler Crawler, der einen Nutzer mit einem Mobilgerät simuliert
- Googlebot für Computer: ein Computer-Crawler, der einen Nutzer mit einem Computer simuliert
In der Anfrage im HTTP-user-agent
-Anfrage-Headersehen Sie, um welchen Untertyp es sich handelt. Allerdings gilt für beide Crawler-Typen das gleiche Produkt-Token (User-Agent-Token) in der Datei „robots.txt“ und es ist nicht möglich, gezielt den Googlebot für Smartphones oder den Googlebot für Computer auszuwählen.
Bei den meisten Websites indexiert Google in erster Linie die mobile Version der Inhalte. Somit erfolgt die Mehrheit der Googlebot-Crawling-Anfragen über den mobilen Crawler und nur eine Minderheit über den Computer-Crawler.
So greift der Googlebot auf deine Website zu
In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf deine Website zu. Aufgrund von Verzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.
Der Googlebot wurde so entwickelt, dass er gleichzeitig über Tausende Computer ausgeführt werden kann, um so analog zum Wachstum des Webs seine Leistung und Abdeckung zu erhöhen. Damit nicht unnötig Bandbreite beansprucht wird, führen wir viele Crawler auf Computern aus, die sich in der Nähe der Websites befinden, die sie crawlen. Aus diesem Grund weisen deine Protokolle eventuell Aufrufe von verschiedenen IP-Adressen mit dem User-Agent „Googlebot“ auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten deiner Website zu crawlen, ohne dass dein Server zu sehr beansprucht wird. Wenn deine Website nicht mit den Crawling-Anfragen von Google mithalten kann, kannst du die Crawling-Frequenz verringern.
Der Googlebot crawlt in erster Linie von IP-Adressen in den USA. Wenn der Googlebot erkennt, dass eine Website Anfragen aus den USA blockiert, kann er versuchen, über IP-Adressen in anderen Ländern zu crawlen. Die Liste der IP-Adressbereiche, die vom Googlebot verwendet werden, ist im JSON-Format verfügbar.
Der Googlebot crawlt über HTTP/1.1 und, sofern von der Website unterstützt, über HTTP/2. Welche Protokollversion zum Crawlen deiner Website verwendet wird, hat keine Auswirkungen auf das Ranking. Durch das Crawlen über HTTP/2 können jedoch Rechenressourcen (wie CPU und RAM) für deine Website und den Googlebot eingespart werden.
Wenn du das Crawling über HTTP/2 deaktivieren möchtest, weise den Server, der deine Website hostet, an, mit einem HTTP-Statuscode 421
zu antworten, wenn der Googlebot versucht, deine Website über HTTP/2 zu crawlen. Falls dies nicht möglich ist, kannst du eine Nachricht an das Googlebot-Team senden. Das ist allerdings nur eine temporäre Lösung.
Der Googlebot kann die ersten 15 MB in einer HTML-Datei oder in einer unterstützten textbasierten Datei crawlen. Jede im HTML-Code referenzierte Ressource wie CSS und JavaScript wird separat abgerufen und jeder Abruf ist an die gleiche Beschränkung der Dateigröße gebunden. Nach den ersten 15 MB der Datei beendet der Googlebot das Crawling und sendet nur die ersten 15 MB der Datei für die Indexierung. Die Beschränkung der Dateigröße gilt für die unkomprimierten Daten. Für andere Google-Crawler wie den Googlebot für Videos und den Googlebot für Bilder gelten möglicherweise andere Beschränkungen.
Beim Crawlen von IP-Adressen in den USA ist die Zeitzone des Googlebots Pacific Time.
Googlebot für das Crawlen deiner Website blockieren
Es ist praktisch unmöglich, eine Website geheim zu halten, indem du keine Links zu ihr veröffentlichst. Sobald beispielsweise jemand einem Link von deiner „geheimen“ Website zu einer anderen Website folgt, kommt deine „geheime“ Website-URL im Verweis-Tag vor und kann von der anderen Website in deren Verweisprotokoll gespeichert und veröffentlicht werden.
Wenn du nicht möchtest, dass der Googlebot Inhalte auf deiner Website crawlt, hast du verschiedene Möglichkeiten. Denke daran, dass es einen Unterschied zwischen Crawling und Indexierung gibt. Wenn du das Crawlen einer Seite durch den Googlebot blockierst, wird dadurch nicht verhindert, dass sie in den Suchergebnissen erscheint:
- Du möchtest verhindern, dass der Googlebot eine Seite crawlt? Verwende eine robots.txt-Datei.
- Du möchtest nicht, dass eine Seite von Google indexiert wird? Verwende
noindex
. - Du möchtest verhindern, dass sowohl Crawler als auch Nutzer auf eine Seite zugreifen können? Verwende eine andere Methode, z. B. den Passwortschutz.
Googlebot überprüfen
Bevor du dich dazu entscheidest, den Googlebot zu blockieren, solltest du wissen, dass der vom Googlebot verwendete HTTP-user-agent
-Anfrage-Header oftmals von anderen Crawlern gefälscht wird. Es ist wichtig, zu prüfen, ob eine problematische Anfrage tatsächlich vom Googlebot stammt. Die beste Möglichkeit, das zu prüfen, besteht darin, einen umgekehrten DNS-Lookup für die Quell-IP der Anfrage zu verwenden oder die Quell-IP mit den IP-Bereichen des Googlebots zu vergleichen.