Handbuch für Websiteinhaber zur Verwaltung des Crawling-Budgets

Übersicht

In diesem Handbuch wird beschrieben, wie du das Crawling sehr großer und häufig aktualisierter Websites durch Google optimieren kannst.

Wenn deine Website nicht viele Seiten hat, die sich schnell ändern, oder falls die Seiten anscheinend noch an dem Tag gecrawlt werden, an dem sie veröffentlicht wurden, brauchst du dieses Handbuch nicht zu lesen. Es sollte ausreichen, wenn du die Sitemap auf dem neuesten Stand hältst und regelmäßig die Indexabdeckung prüfst.

Falls du Inhalte hast, die schon länger verfügbar sind, aber nie indexiert wurden, ist das ein anderes Problem. Verwende dann das URL-Prüftool, um herauszufinden, warum deine Seite nicht indexiert wird.

Für wen ist dieses Handbuch gedacht?

Dies ist ein Handbuch für fortgeschrittene Nutzer, die Folgendes haben:

  • große Websites (über 1 Million Seiten), deren Inhalt sich häufig (einmal pro Woche) ändert oder
  • mittelgroße Websites (mehr als 10.000 Seiten) mit Inhalten, die sich sehr schnell (täglich) ändern.

Die hier angegebenen Seitenzahlen sind nur ungefähre Werte, die dir helfen sollen, deine Website einzuordnen.

Allgemeine Grundlagen des Crawlings

Das Web ist riesig und übersteigt die Möglichkeiten von Google, jede verfügbare URL zu erforschen und zu indexieren. Deshalb hat der Googlebot nur begrenzt Zeit, die jeweilige Website zu crawlen. Die Zeit und die Ressourcen, die Google für das Crawling einer Website aufwendet, werden als das Crawling-Budget bezeichnet. Beachte, dass nicht alles, was auf deiner Website gecrawlt wird, auch notwendigerweise indexiert wird. Jede Seite muss evaluiert, konsolidiert und bewertet werden, um zu entscheiden, ob sie nach dem Crawling indexiert wird.

Das Crawling-Budget wird durch zwei Hauptelemente bestimmt: das Crawling-Kapazitätslimit und den Crawling-Bedarf.

Crawling-Kapazitätslimit

Beim Crawling deiner Website durch den Googlebot sollen alle deine wichtigen Inhalte abgedeckt werden, ohne deine Server zu überlasten. Deshalb berechnet der Googlebot das Crawling-Kapazitätslimit, das angibt, wie viele Verbindungen der Googlebot maximal gleichzeitig für das Crawling einer Website verwenden kann und wie viel Zeit zwischen Abrufen vergeht.

Das Crawling-Kapazitätslimit kann sich aus verschiedenen Gründen erhöhen oder verringern:

  • Crawling-Status: Wenn die Website eine Zeit lang schnell reagiert, wird das Limit erhöht, sodass mehr Verbindungen für das Crawling verwendet werden können. Falls die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich das Limit und der Googlebot crawlt weniger.
  • Durch den Websiteinhaber in der Search Console festgelegtes Limit: Websiteinhaber können die Crawling-Frequenz ihrer Website einschränken. Beachte jedoch, dass sich das Crawling nicht automatisch erhöht, wenn du höhere Limits festlegst.
  • Crawling-Limits von Google: Google hat sehr viele Rechner, aber auch nicht unbegrenzt viele. Auch wir müssen uns gut überlegen, wie wir unsere Ressourcen einsetzen.

Crawling-Bedarf

Google crawlt eine Website in der Regel so lange, wie es aufgrund ihrer Größe, der Aktualisierungshäufigkeit, Seitenqualität und Relevanz im Vergleich zu anderen Websites nötig ist.

Die folgenden Faktoren spielen bei der Bestimmung des Crawling-Bedarfs eine wichtige Rolle:

  • Wahrgenommenes Inventar: Wenn der Googlebot von dir keine weiteren Hinweise erhält, versucht er, alle oder die meisten URLs deiner Website zu crawlen, die ihm bekannt sind. Falls viele dieser URLs Duplikate sind oder aus einem anderen Grund nicht gecrawlt werden sollen (z. B. weil sie entfernt wurden oder unwichtig sind), wird dadurch viel Zeit beim Crawling deiner Website verschwendet. Das ist der Faktor, den du am stärksten beeinflussen kannst.
  • Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie in unserem Index besonders aktuell sind.
  • Aktualität: Unsere Systeme versuchen, Dokumente oft genug zu crawlen, sodass Änderungen schnell erkannt werden.

Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.

Zusammenfassung

Anhand der Crawling-Kapazität und des Crawling-Bedarfs bestimmt Google das Crawling-Budget, das für die URLs einer Website aufgewendet werden soll, die der Googlebot crawlen kann und möchte. Selbst wenn das Crawling-Kapazitätslimit nicht erreicht wird, crawlt der Googlebot deine Website weniger, falls der Crawling-Bedarf gering ist.

Wenn du ein höheres Crawling-Budget wünschst
Google bestimmt die Menge der Crawling-Ressourcen, die einer konkreten Website gewidmet werden, anhand ihrer Beliebtheit, ihres Werts für die Nutzer, ihrer Einzigartigkeit und der Bereitstellungskapazität. Du kannst dein Crawling-Budget nur erhöhen, indem du die Bereitstellungskapazität für das Crawling erhöhst und insbesondere die Nützlichkeit des Inhalts deiner Website für Nutzer mit Suchanfragen steigerst.

Best Practices

Wende diese Best Practices an, um die Crawling-Effizienz zu maximieren:

  • Verwalte dein URL-Inventar. Teile Google über die entsprechenden Tools mit, welche Seiten gecrawlt werden sollen und welche nicht. Wenn Google zu viel Zeit mit dem Crawling von URLs verbringt, die sich nicht für den Index eignen, entscheidet der Googlebot eventuell, dass es sich nicht lohnt, sich auch den Rest deiner Website anzusehen bzw. dafür dein Budget zu erhöhen.
    • Konsolidiere duplizierte Inhalte. Entferne duplizierte Inhalte, um das Crawling auf einzigartige Inhalte statt auf eindeutige URLs zu konzentrieren.
    • Blockiere das Crawling von URLs, die nicht indexiert werden sollen. Einige Seiten sind möglicherweise für die Nutzer wichtig, sollten aber nicht in den Suchergebnissen erscheinen. Das können beispielsweise Seiten mit unendlichem Scrollen sein, auf denen Informationen von verknüpften Seiten dupliziert werden, oder unterschiedlich sortierte Versionen derselben Seite. Wenn du sie nicht wie im ersten Stichpunkt beschrieben konsolidieren kannst, blockiere diese für die Suche unwichtigen Seiten mit robots.txt oder dem URL-Parameter-Tool (bei duplizierten Inhalten, die über bestimmte URL-Parameter erreicht werden). Verwende nicht „noindex“, da Google die entsprechende Seite trotzdem anfordert, aber dann ignoriert, wenn das „noindex“-Tag gefunden wird. Dadurch wird Crawling-Zeit verschwendet. Verwende nicht „robots.txt“, um vorübergehend Crawling-Budget für andere Seiten freizugeben. Verwende „robots.txt“ dazu, Seiten oder Ressourcen zu blockieren, die deiner Meinung nach überhaupt nicht gecrawlt werden sollten. Google widmet dieses freigegebene Crawling-Budget nur dann anderen Seiten, wenn das Bereitstellungslimit deiner Website erreicht war.
    • Gib für endgültig entfernte Seiten 404/410-Fehler zurück. Google vergisst keine URL, wenn sie einmal bekannt ist, aber ein 404-Fehler ist ein starkes Signal dafür, eine URL nicht noch einmal zu crawlen. Blockierte URLs bleiben jedoch noch lange Teil deiner Crawling-Warteschlange und werden wieder gecrawlt, falls die Blockierung aufgehoben wird.
    • Beseitige Soft 404-Fehler. Seiten mit Soft 404-Fehlern werden weiterhin gecrawlt und verschwenden damit dein Crawling-Budget. Prüfe den Bericht zur Indexabdeckung auf Soft 404-Fehler.
    • Halte deine Sitemaps auf dem neuesten Stand. Google liest deine Sitemap regelmäßig. Achte daher darauf, alle Inhalte anzugeben, die Google crawlen soll. Wenn deine Website aktualisierte Inhalte enthält, empfehlen wir, das Tag <lastmod> zu verwenden.
    • Vermeide lange Weiterleitungsketten. Diese wirken sich negativ auf das Crawling aus.
  • Ermögliche ein effizientes Laden deiner Seiten. Wenn Google deine Seiten schneller laden und rendern kann, können wir möglicherweise mehr Inhalte deiner Website lesen.
  • Überwache das Crawling deiner Website. Prüfe, ob es beim Crawling deiner Website Verfügbarkeitsprobleme gab, und suche nach Möglichkeiten, das Crawling effizienter zu gestalten.

Crawling und Indexierung deiner Website im Blick behalten

Das sind die wichtigsten Schritte zum Beobachten des Crawling-Profils deiner Website:

  1. Prüfe, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab.
  2. Prüfe, ob es Seiten gibt, die nicht gecrawlt werden, obwohl sie gecrawlt werden sollten.
  3. Prüfe, ob bestimmte Teile deiner Website schneller gecrawlt werden müssen, als es bisher der Fall ist.
  4. Verbessere die Crawling-Effizienz deiner Website.
  5. Vermeide übermäßiges Crawling.

1. Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab

Wenn du die Verfügbarkeit deiner Website verbesserst, erhöht sich dadurch nicht zwangsläufig dein Crawling-Budget. Google ermittelt die Crawling-Frequenz auch anhand des Crawling-Bedarfs, wie zuvor beschrieben. Bei bestehenden Verfügbarkeitsproblemen kann Google deine Website jedoch nicht so oft wie gewünscht crawlen.

Problemdiagnose:

Prüfe im Bericht „Crawling-Statistiken“ den Crawling-Verlauf des Googlebots für deine Website. Dort siehst du, wann Google auf deiner Website auf Verfügbarkeitsprobleme gestoßen ist. Wenn für deine Website Fehler oder Warnungen in Bezug auf die Verfügbarkeit angezeigt werden, suche in den Grafiken zur Hostverfügbarkeit nach Fällen, in denen die Googlebot-Anfragen die rote Linie für das Limit überstiegen. Klicke auf die Grafik, um zu sehen, welche URLs sich nicht aufrufen ließen, und versuche, sie Problemen auf deiner Website zuzuordnen.

Problembehebung:

  • Informiere dich in der Dokumentation zum Bericht „Crawling-Statistiken“, wie du Verfügbarkeitsprobleme erkennen und beheben kannst.
  • Blockiere das Crawling für Seiten, die nicht gecrawlt werden sollen. Siehe Abschnitt zum Verwalten des Inventars.
  • Beschleunige das Laden und Rendern von Seiten. Siehe Abschnitt zur Verbesserung der Crawling-Effizienz deiner Website.
  • Erhöhe deine Serverkapazität. Wenn beim Crawling deiner Website durch Google anscheinend regelmäßig das Limit der Bereitstellungskapazität erreicht wird und du wichtige URLs hast, die nicht so oft gecrawlt oder aktualisiert werden, wie sie sollten, kannst du mehr Bereitstellungsressourcen zur Verfügung stellen, sodass Google mehr Seiten deiner Website anfordern kann. Überprüfe im Crawling-Statistik-Bericht, ob die Crawling-Frequenz von Google häufig die festgelegte Crawling-Frequenz überschreitet. Wenn ja, solltest du für einen Monat die Bereitstellungsressourcen erhöhen und dann prüfen, ob im selben Zeitraum die Crawling-Anfragen zugenommen haben.

2. Prüfen, ob bestimmte Teile deiner Website nicht gecrawlt werden, obwohl sie gecrawlt werden sollten

Google verbringt so viel Zeit auf deiner Website wie nötig ist, um alle für Nutzer wertvollen Inhalte zu indexieren. Wenn der Googlebot wichtige Inhalte nicht crawlt, liegt das daran, dass er nicht von ihnen weiß, dass sie für Google blockiert sind, dass mangelnde Verfügbarkeit der Website den Zugriff durch Google beschränkt oder dass Google versucht, deine Website nicht zu überlasten.

Denke an den Unterschied zwischen Crawling und Indexierung. Auf dieser Seite wird beschrieben, wie du Google helfen kannst, deine Website effizient zu crawlen. Es geht nicht darum, ob die gefundenen Seiten dem Index hinzugefügt werden.

Problemdiagnose:

Der Crawling-Verlauf deiner Website in der Search Console kann nicht nach URL oder Pfad gefiltert werden. Du kannst aber in den Website-Protokollen nachsehen, ob bestimmte URLs vom Googlebot gecrawlt wurden. Ob die gecrawlten URLs auch indexiert wurden, ist dabei eine ganz andere Frage.

Denke daran, dass es bei den meisten Websites einige Tage dauert, bis neue Seiten bemerkt werden. Erwarte nicht, dass neue URLs deiner Website noch am selben Tag gecrawlt werden. Eine Ausnahme sind zeitkritische Fälle wie Nachrichtenwebsites.

Problembehebung:

Wenn du deiner Website Seiten hinzufügst und sie nicht innerhalb eines angemessenen Zeitraums gecrawlt werden, wurden sie entweder von Google nicht bemerkt, die Inhalte sind blockiert, die maximale Bereitstellungskapazität deiner Website wurde erreicht oder dein Crawling-Budget ist ausgeschöpft.

  1. Informiere Google über deine neuen Seiten. Füge dazu deinen Sitemaps neue URLs hinzu.
  2. Achte darauf, dass durch die robots.txt-Regeln nicht versehentlich Seiten blockiert werden.
  3. Wenn alle deine nicht gecrawlten Seiten URL-Parameter haben, wurden deine Seiten möglicherweise aufgrund der Einstellungen im URL-Parameter-Tool ausgeschlossen. Leider gibt es keine Möglichkeit, das zu prüfen, weshalb wir davon abraten, dieses Tool zu verwenden.
  4. Überprüfe die Crawling-Prioritäten. Überlege dir gut, wie du dein Crawling-Budget nutzt. Verwalte dein Inventar und verbessere die Crawling-Effizienz deiner Website.
  5. Prüfe, ob die Bereitstellungskapazität ausreicht. Der Googlebot verringert das Crawling, wenn er feststellt, dass dein Server Schwierigkeiten dabei hat, auf Crawling-Anfragen zu antworten.

Beachte, dass selbst gecrawlte Seiten möglicherweise nicht in den Suchergebnissen erscheinen, falls sie für die Nutzer nicht wertvoll genug sind oder die Nutzernachfrage einfach zu gering ist.

3. Prüfen, ob aktualisierte Inhalte schnell genug gecrawlt werden

Wenn wir neue oder aktualisierte Seiten deiner Website nicht crawlen, liegt das möglicherweise daran, dass wir die Seiten bzw. ihre Aktualisierung nicht bemerkt haben. Im Folgenden wird beschrieben, wie du uns über Seitenaktualisierungen informieren kannst.

Google bemüht sich, Seiten möglichst zeitnah zu prüfen und zu indexieren. Bei den meisten Websites dauert das mindestens drei Tage. Erwarte nicht, dass Google Seiten noch am Tag der Veröffentlichung bzw. Aktualisierung indexiert, es sei denn, es geht um eine Nachrichtenwebsite oder andere wertvolle, besonders zeitkritische Inhalte.

Problemdiagnose:

Sieh in deinen Website-Protokollen nach, wann bestimmte URLs vom Googlebot gecrawlt wurden.

Wenn du das Indexierungsdatum feststellen möchtest, verwenden dazu das URL-Prüftool oder suche mit Google nach den von dir aktualisierten URLs.

Problembehebung:

Gehe so vor:

  • Verwende eine News-Sitemap, falls deine Website Nachrichten enthält. Gib Google Bescheid, wenn deine Sitemap veröffentlicht oder geändert wurde.
  • Verwende in Sitemaps das <lastmod>-Tag, um anzugeben, dass eine indexierte URL aktualisiert wurde.
  • Verwende eine einfache URL-Struktur, damit Google deine Seiten leichter finden kann.
  • Stelle standardmäßige, für Crawler zugängliche <a>-Links zur Verfügung, damit Google deine Seiten leichter findet.

Zu vermeiden:

  • Reiche nicht dieselbe, unveränderte Sitemap mehrmals pro Tag ein.
  • Erwarte nicht, dass der Googlebot alles in einer Sitemap crawlt oder dass das Crawling sofort erfolgt. Sitemaps sind für den Googlebot sehr nützlich, stellen für ihn aber nur Vorschläge dar.
  • Füge deinen Sitemaps keine URLs hinzu, die nicht in der Suche erscheinen sollen. Andernfalls wird dein Crawling-Budget für Seiten verschwendet, die nicht indexiert werden sollten.

4. Crawling-Effizienz deiner Website verbessern

Laden von Seiten beschleunigen

Das Crawling durch Google wird durch Bandbreite, Zeit und die Verfügbarkeit von Googlebot-Instanzen begrenzt. Wenn dein Server schneller auf Anfragen antwortet, können wir möglicherweise mehr Seiten deiner Website crawlen. Allerdings möchte Google nur hochwertige Inhalte crawlen. Wenn du also Seiten mit geringer Qualität schneller machst, ist das für den Googlebot kein Anlass, einen größeren Teil deiner Website zu crawlen. Falls wir jedoch denken, dass wir hochwertige Inhalte deiner Website noch nicht crawlen, erhöhen wir wahrscheinlich dein Budget.

So kannst du deine Seiten und Ressourcen für das Crawling optimieren:

  • Verhindere mithilfe der robots.txt-Datei, dass der Googlebot umfangreiche, aber unwichtige Ressourcen lädt. Achte darauf, nur nicht unbedingt erforderliche Ressourcen zu blockieren, d. h. Ressourcen, die für das Verständnis der Seite nicht wichtig sind (z. B. dekorative Bilder).
  • Sorge dafür, dass sich deine Seiten schnell laden lassen.
  • Vermeide lange Weiterleitungsketten, da sie das Crawling beeinträchtigen.
  • Sowohl die Zeit für die Beantwortung von Serveranfragen als auch die für das Rendern von Seiten benötigte Zeit ist wichtig, einschließlich der Lade- und Ausführungszeit für eingebettete Ressourcen wie Bilder und Skripts. Achte auf große oder langsame Ressourcen, die für die Indexierung erforderlich sind.

URLs verbergen, die nicht in den Suchergebnissen erscheinen sollen

Das Verschwenden von Serverressourcen für nicht erforderliche Seiten kann Google davon abhalten, Seiten zu crawlen, die für dich wichtig sind. Es dauert dann möglicherweise deutlich länger, bis Google hochwertige neue oder aktualisierte Inhalte auf einer Website bemerkt.

Falls du bereits gecrawlte Seiten blockierst oder verbirgst, damit sie nicht nochmals gecrawlt werden, wird dein Crawling-Budget nur dann einem anderen Teil deiner Website gewidmet, wenn Google bereits die Bereitstellungslimits deiner Website erreicht hatte.

Falls du auf deiner Website viele URLs verfügbar machst, die nicht von der Suche gecrawlt werden sollen, können dadurch das Crawling und die Indexierung einer Website beeinträchtigt werden. In der Regel fallen diese URLs in die folgenden Kategorien:

  • Attributbasierte Navigation und Sitzungskennungen: (Die attributbasierte Navigation ist in der Regel mit duplizierten Inhalten der Website verbunden. Durch Sitzungskennungen und andere URL-Parameter, mit denen eine Seite lediglich sortiert oder gefiltert wird, werden keine neuen Inhalte bereitgestellt.) Verwende die robots.txt-Datei, um Seiten mit attributbasierter Navigation zu blockieren. Wenn du feststellst, dass Google auf deiner Website viele quasi doppelte URLs crawlt, die sich nur durch ihre Parameter unterscheiden, solltest du parametrierte duplizierte Inhalte blockieren.
  • Duplizierte Inhalte: Hilf Google, duplizierte Inhalte zu erkennen, damit unnötiges Crawling vermieden werden kann.
  • Seiten mit Soft 404-Fehlern: Gib einen 404-Code zurück, wenn eine Seite nicht mehr existiert.
  • Gehackte Seiten: Sieh dir den Bericht „Sicherheitsprobleme“ an und korrigiere oder entferne darin aufgeführte gehackte Seiten.
  • Unbegrenzte Bereiche und Proxys: Blockiere sie mithilfe der robots.txt-Datei für das Crawling.
  • Niedrige Qualität und Spaminhalte: Diese Dinge sollten selbstverständlich vermieden werden.
  • Einkaufswagenseiten, Seiten mit unendlichem Scrollen sowie Seiten, auf denen eine Aktion ausgeführt wird (z. B. Anmeldung oder Start des Kaufvorgangs).

Gehe so vor:

  • Verwende die robots.txt-Datei, wenn du denkst, dass eine Ressource oder Seite gar nicht gecrawlt werden sollte.
  • Falls eine Ressource auf mehreren Seiten verwendet wird, z. B. ein Bild oder eine JavaScript-Datei, verweise auf jeder Seite mit derselben URL darauf, damit Google die Ressource im Cache speichern und wiederverwenden kann, ohne sie mehrmals anfordern zu müssen.

Zu vermeiden:

  • Du solltest nicht ständig Seiten oder Verzeichnisse zur robots.txt-Datei hinzufügen oder daraus entfernen, weil du meinst, dadurch Crawling-Budget für deine Website freizugeben. Verwende die robots.txt-Datei nur für Seiten oder Ressourcen, die langfristig nicht bei Google zu sehen sein sollen.
  • Tausche keine Sitemaps und verwende keine vorübergehenden Mechanismen zum Verbergen, um „Crawling-Budget freizugeben“.

Crawling-Reduzierung in Notfällen

Der Googlebot hat Algorithmen, die verhindern sollen, dass er deine Website mit Crawling-Anfragen überlastet. Wenn du dennoch eine Überlastung feststellst, kannst du verschiedene Maßnahmen ergreifen.

Problemdiagnose:

Überwache deinen Server auf ein Übermaß an Googlebot-Anfragen an deine Website.

Problembehebung:

Für Notfälle empfehlen wir die folgenden Schritte, um ein zu intensives Crawling durch den Googlebot zu verringern:

  1. Wenn dein Server überlastet ist, gib für Googlebot-Anfragen vorübergehend 503/429-HTTP-Ergebniscodes zurück. Der Googlebot versucht etwa zwei Tage lang, diese URLs zu crawlen. Wenn du länger als ein paar Tage Fehlercodes zurückgibst, die eine Nichtverfügbarkeit signalisieren, verringert oder stoppt Google dauerhaft das Crawling von URLs auf deiner Website. Daher solltest du auch die folgenden zusätzlichen Schritte ausführen.
  2. Verringere die Crawling-Frequenz des Googlebots für deine Website. Es kann bis zu zwei Tage dauern, bis die Änderung wirksam wird. Außerdem sind dafür Property-Inhaberberechtigungen in der Search Console erforderlich. Ergreife diese Maßnahme nur, wenn du im Bericht „Crawling-Statistiken“ in der Grafik Hostverfügbarkeit > Hostauslastung langfristig ein wiederholtes Crawling durch Google siehst.
  3. Falls die Crawling-Frequenz sinkt, beende die Rückgabe von 503/429-Ergebniscodes auf Crawling-Anfragen. Wenn der Code 503 länger als zwei Tage zurückgegeben wird, entfernt Google die entsprechenden URLs aus dem Index.
  4. Beobachte das Crawling und deine Hostkapazität im Laufe der Zeit. Wenn es angebracht ist, erhöhe die Crawling-Frequenz wieder oder verwende die Standard-Crawling-Frequenz.
  5. Wenn der problematische Crawler einer der AdsBot-Crawler ist, wird das Problem wahrscheinlich dadurch verursacht, dass du für deine Website Ziele für dynamische Suchanzeigen erstellt hast, die Google zu crawlen versucht. Dieses Crawling wird alle zwei Wochen wiederholt. Falls du nicht die für diese Crawling-Vorgänge nötige Serverkapazität hast, solltest du entweder die Anzeigenziele begrenzen oder die Bereitstellungskapazität erhöhen.

Mythen und Fakten zum Crawling

Durch die Komprimierung von Sitemaps lässt sich das Crawling-Budget erhöhen

  • Das funktioniert nicht. Komprimierte Sitemaps müssen weiterhin vom Server abgerufen werden, sodass Google nicht viel Crawling-Zeit oder Aufwand spart, wenn du komprimierte Sitemaps sendest.

Da Google aktuellere Inhalte bevorzugt, sollten an einer Seite immer wieder kleine Änderungen vorgenommen werden

  • Inhalte werden nach ihrer Qualität und nicht nach dem Alter bewertet. Erstelle und aktualisiere Inhalte, wenn es nötig ist. Es bringt nichts, Seiten durch unbedeutende Änderungen und Aktualisierung des Seitendatums künstlich neuer wirken zu lassen.

Google bevorzugt alte Inhalte gegenüber neuen Inhalten

  • Stimmt nicht: Wenn deine Seite nützlich ist, ist sie das unabhängig von ihrem Alter.

Google bevorzugt „saubere“ URLs und mag keine Suchparameter

Kleine Websites werden nicht so oft gecrawlt wie große

  • Stimmt nicht: Wenn auf einer Website wichtige Inhalte bereitgestellt werden, die sich häufig ändern, wird sie von uns unabhängig von der Größe häufig gecrawlt.

Je näher sich ein Inhalt an der Startseite befindet, als desto wichtiger stuft Google ihn ein

  • Stimmt teilweise: Die Startseite einer Website ist oft die wichtigste Seite. Daher werden Seiten, die direkt mit der Startseite verknüpft sind, eventuell als wichtiger betrachtet und darum häufiger gecrawlt. Das bedeutet jedoch nicht, dass diese Seiten ein höheres Ranking als andere Seiten der Website haben.

Je schneller deine Seiten geladen und gerendert werden, desto mehr Inhalte kann Google crawlen

  • Stimmt in gewisser Weise: Unsere Ressourcen werden durch die verfügbare Zeit und die Anzahl der Crawling-Bots begrenzt. Wenn du uns innerhalb eines begrenzten Zeitraums mehr Seiten zur Verfügung stellst, können wir mehr Seiten crawlen. Es kann jedoch sein, dass wir mehr Zeit für das Crawling einer Website mit wichtigen Informationen aufwenden, selbst wenn die Website langsamer ist. Eine Website schneller zu machen, bringt wahrscheinlich mehr für die Nutzerfreundlichkeit als für die Crawling-Abdeckung. Es ist viel einfacher, Google dabei zu helfen, die richtigen Inhalte zu crawlen, als jedes Mal alle deine Inhalte zu crawlen.
  • Beachte, dass beim Crawling einer Website die Inhalte sowohl abgerufen als auch gerendert werden müssen. Der Zeitaufwand beim Rendern einer Seite spielt genauso eine Rolle wie der Zeitaufwand beim Anfordern der Seite. Wenn sich deine Seiten also schneller rendern lassen, erhöht sich dadurch auch die Crawling-Geschwindigkeit.

Versionsangaben in URLs sind eine gute Möglichkeit, Google zum erneuten Crawling von Seiten zu bewegen

  • Stimmt teilweise: Wenn du für eine Seite eine URL mit einer Versionsangabe verwendest, wird Google die Seite wahrscheinlich eher crawlen. Oft ist das aber unnötig und führt zur Verschwendung von Crawling-Ressourcen, falls die Seite nicht tatsächlich geändert wurde. Im Allgemeinen ist eine Sitemap mit einem <lastmod>-Wert die beste Methode, um Google auf aktualisierte Inhalte hinzuweisen. Falls du URLs mit Versionsangaben verwendest, um auf neue Inhalte hinzuweisen, solltest du die URL nur ändern, wenn sich der Seiteninhalt in relevanter Weise geändert hat.

Die Websitegeschwindigkeit und Fehler wirken sich auf das Crawling-Budget aus

  • Stimmt: Eine schnellere Website ist nutzerfreundlicher und ermöglicht gleichzeitig eine höhere Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-HTTP-Ergebniscodes (Serverfehler) oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
  • Wir empfehlen, den Bericht „Crawling-Statistiken“ in der Search Console zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.

Das Crawling spielt eine Rolle für das Ranking

  • Stimmt nicht: Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt viele Indikatoren für das Ranking von Ergebnissen. Das Crawling ist zwar erforderlich, damit eine Seite in den Suchergebnissen erscheint, spielt aber keine Rolle für das Ranking.

Alternative URLs und eingebettete Inhalte nehmen Crawling-Budget in Anspruch

  • Stimmt: Im Allgemeinen wird für jede URL, die der Googlebot crawlt, ein Teil des Crawling-Budgets der Website in Anspruch genommen. Alternative URLs, wie URLs von AMP-Seiten oder hreflang-Versionen, sowie eingebettete Inhalte wie CSS und JavaScript, einschließlich XHR-Abrufen, müssen gecrawlt werden und verbrauchen einen Teil des Crawling-Budgets einer Website.

Der Googlebot kann mit der „crawl-delay“-Anweisung gesteuert werden

  • Stimmt nicht: Die zum Standard gehörende „crawl-delay“-Anweisung in der robots.txt-Datei wird vom Googlebot nicht verarbeitet.

Die „nofollow“-Anweisung wirkt sich auf das Crawling-Budget aus

  • Stimmt teilweise: Jede gecrawlte URL wirkt sich auf das Crawling-Budget aus. Selbst wenn eine URL im Code deiner Seite mit „nofollow“ gekennzeichnet ist, kann sie gecrawlt werden, falls eine andere Seite deiner Website oder eine beliebige Seite im Web die URL nicht mit „nofollow“ gekennzeichnet hat.