Crawling-Budget optimieren

In diesem Handbuch wird beschrieben, wie du das Crawling sehr großer und häufig aktualisierter Websites durch Google optimieren kannst.

Wenn deine Website nicht viele Seiten hat, die sich schnell ändern, oder falls die Seiten anscheinend noch an dem Tag gecrawlt werden, an dem sie veröffentlicht wurden, brauchst du dieses Handbuch nicht zu lesen. Für die Google Suche reicht es aus, wenn du die Sitemap auf dem neuesten Stand hältst und regelmäßig die Indexabdeckung prüfst.

Für wen ist dieses Handbuch gedacht?

Die Empfehlungen in diesem Leitfaden gehören zwar auch im Allgemeinen zu den Best Practices, aber er ist in erster Linie für die folgenden Arten von Websites gedacht:

  • große Websites (über 1 Million einzelne Seiten), deren Inhalt sich häufig (einmal pro Woche) ändert oder
  • mittelgroße Websites (mehr als 10.000 einzelne Seiten) mit Inhalten, die sich sehr schnell (täglich) ändern.
  • Websites, bei denen ein Großteil ihrer gesamten URLs von der Search Console als Gefunden – zurzeit nicht indexiert klassifiziert wurde

Allgemeine Grundlagen des Crawlings

Das Web ist riesig und übersteigt die Möglichkeiten von Google, jede verfügbare URL zu ermitteln und zu indexieren. Deshalb haben die Google-Crawler nur begrenzt Zeit, eine bestimmte Website zu crawlen, wobei eine Website durch den Hostnamen definiert wird. Beispiel: https://www.example.com/ und https://code.example.com/ sind zwei verschiedene Hostnamen und haben daher separate Crawling-Budgets. Die Zeit und die Ressourcen, die Google für das Crawling einer Website aufwendet, werden als das Crawling-Budget bezeichnet. Es wird durch zwei Hauptelemente bestimmt: das Crawling-Kapazitätslimit und den Crawling-Bedarf.

Crawling-Kapazitätslimit

Google möchte deine Website crawlen, ohne deine Server zu überlasten. Deshalb berechnen die Crawler von Google ein Crawling-Kapazitätslimit. Das ist die maximale Anzahl gleichzeitiger paralleler Verbindungen, die Google zum Crawlen einer Website verwenden kann, sowie die Zeitverzögerung zwischen den Abrufvorgängen. So wird sichergestellt, dass alle wichtigen Inhalte abgedeckt werden, ohne dass deine Server überlastet werden.

Das Crawling-Kapazitätslimit kann sich aus verschiedenen Gründen erhöhen oder verringern:

  • Crawling-Status: Wenn die Website eine Zeit lang schnell reagiert, wird das Limit erhöht, sodass mehr Verbindungen für das Crawling verwendet werden können. Falls die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich die Begrenzung und Google crawlt weniger.
  • Crawling-Limits von Google: Google hat sehr viele Rechner, aber auch nicht unbegrenzt viele. Auch wir müssen uns gut überlegen, wie wir unsere Ressourcen einsetzen.

Crawling-Bedarf

Jeder Crawler hat seine eigenen Anforderungen an das Crawling des Webs. AdsBot hat beispielsweise in der Regel eine höhere Nachfrage, wenn auf einer Website dynamische Anzeigenziele verwendet werden. Bei Google Shopping ist die Nachfrage nach Produkten, die du in deinen Händlerfeeds hast, höher. Die Nachfrage des Googlebot variiert je nach Größe, Aktualisierungshäufigkeit, Seitenqualität und Relevanz einer Website im Vergleich zu anderen Websites.

Im Allgemeinen spielen die folgenden Faktoren bei der Bestimmung des Crawling-Bedarfs eine wichtige Rolle:

  • Wahrgenommenes Inventar: Wenn Google von dir keine weiteren Hinweise erhält, wird versucht, alle oder die meisten URLs deiner Website zu crawlen, die Google bekannt sind. Falls viele dieser URLs Duplikate sind oder aus einem anderen Grund nicht gecrawlt werden sollen (z. B. weil sie entfernt wurden oder unwichtig sind), wird dadurch viel Zeit beim Crawling deiner Website verschwendet. Das ist der Faktor, den du am stärksten beeinflussen kannst.
  • Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie in unseren Systemen immer aktuell sind.
  • Aktualität: Unsere Systeme versuchen, Dokumente oft genug zu crawlen, sodass Änderungen schnell erkannt werden.

Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu verarbeitet werden muss.

Zusammenfassung

Anhand der Crawling-Kapazität und des Crawling-Bedarfs bestimmt Google das Crawling-Budget, das für die URLs einer Website aufgewendet werden soll, die Google crawlen kann und möchte. Selbst wenn das Crawling-Kapazitätslimit nicht erreicht wird, crawlt Google deine Website weniger, falls der Crawling-Bedarf gering ist.

Best Practices

Wende diese Best Practices an, um die Crawling-Effizienz zu maximieren:

  • Verwalte dein URL-Inventar. Teile Google über die entsprechenden Tools mit, welche Seiten gecrawlt werden sollen und welche nicht. Wenn Google zu viel Zeit mit dem Crawling von URLs verbringt, die sich nicht für den Index eignen, entscheiden die Google-Crawler eventuell, dass es sich nicht lohnt, sich auch den Rest deiner Website anzusehen bzw. dafür dein Budget zu erhöhen.
    • Konsolidiere duplizierte Inhalte. Entferne duplizierte Inhalte, um das Crawling auf einzigartige Inhalte statt auf eindeutige URLs zu konzentrieren.
    • Blockiere das Crawling von URLs mithilfe von robots.txt. Einige Seiten sind möglicherweise für die Nutzer wichtig, sollten aber nicht unbedingt auf Google-Plattformen erscheinen oder von den Google-Systemen neu verarbeitet werden. Das können beispielsweise Seiten mit unendlichem Scrollen sein, auf denen Informationen von verknüpften Seiten dupliziert werden, oder unterschiedlich sortierte Versionen derselben Seite. Wenn du sie nicht wie im ersten Stichpunkt beschrieben konsolidieren kannst, blockiere diese unwichtigen Seiten mit der Datei robots.txt. Durch das Blockieren von URLs mit einer robots.txt-Datei wird verhindert, dass Google sie crawlt. Außerdem verringert sich erheblich die Wahrscheinlichkeit, dass die URLs von anderen Google-Systemen verarbeitet werden (z. B. durch Indexierung in der Google Suche).
    • Gib den Statuscode 404 oder 410 für dauerhaft entfernte Seiten zurück. Google vergisst keine URL, wenn sie einmal bekannt ist, aber ein 404-Statuscode ist ein starkes Signal dafür, eine URL nicht noch einmal zu crawlen. Blockierte URLs bleiben jedoch noch lange Teil deiner Crawling-Warteschlange und werden wieder gecrawlt, falls die Blockierung aufgehoben wird.
    • Beseitige soft 404-Fehler. Seiten mit soft 404-Fehlern werden weiterhin gecrawlt und verschwenden damit dein Crawling-Budget. Prüfe den Bericht zur Indexabdeckung auf soft 404-Fehler.
    • Halte deine Sitemaps auf dem neuesten Stand. Google liest deine Sitemap regelmäßig. Achte daher darauf, alle Inhalte anzugeben, die Google crawlen soll. Wenn deine Website aktualisierte Inhalte enthält, empfehlen wir, das Tag <lastmod> zu verwenden.
    • Vermeide lange Weiterleitungsketten. Diese wirken sich negativ auf das Crawling aus.
  • Ermögliche ein effizientes Laden deiner Seiten. Wenn Google deine Seiten schneller laden und rendern kann, können wir möglicherweise mehr Inhalte deiner Website lesen.
  • Behebe Probleme mit dem Crawling-Budget. Prüfe, ob es beim Crawling deiner Website Verfügbarkeitsprobleme gab, und suche nach Möglichkeiten, das Crawling effizienter zu gestalten.

Wie erhalte ich ein höheres Crawling-Budget?

Es gibt zwei Möglichkeiten, das Crawling-Budget zu erhöhen:

  • Mehr Serverressourcen hinzufügen: Wenn deine Website aufgrund der Serverkapazität auf deiner Seite nicht gecrawlt werden kann (z. B. wenn du im URL-Prüftool die Meldung Hostlast überschritten erhältst), füge mehr Serverressourcen hinzu, sofern dies für dein Unternehmen sinnvoll ist.
  • Qualität deiner Inhalte für das Google-Produkt optimieren, auf das du abzielst: Google bestimmt die Crawling-Ressourcen, die jeder Website zugewiesen werden, indem Elemente berücksichtigt werden, die für das jeweilige Google-Produkt relevant sind. Für die Google Suche gehören dazu beispielsweise Beliebtheit, allgemeiner Nutzerwert, Einzigartigkeit der Inhalte und Bereitstellungskapazität.