Fehler beim Crawlen durch die Google Suche beheben

So behebst du Probleme mit dem Crawling deiner Website durch die Google Suche:

  1. Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab
  2. Prüfen, ob es Seiten gibt, die nicht gecrawlt werden, obwohl sie gecrawlt werden sollten
  3. Prüfen, ob bestimmte Teile deiner Website schneller gecrawlt werden müssen, als es bisher der Fall ist
  4. Crawling-Effizienz deiner Website verbessern
  5. Übermäßiges Crawling vermeiden

Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab

Wenn du die Verfügbarkeit deiner Website verbesserst, erhöht sich dadurch nicht zwangsläufig dein Crawling-Budget. Google ermittelt die Crawling-Frequenz anhand des Crawling-Bedarfs, wie zuvor beschrieben. Bei bestehenden Verfügbarkeitsproblemen kann Google deine Website jedoch nicht so oft wie gewünscht crawlen.

Problemdiagnose:

Prüfe im Bericht „Crawling-Statistik“ den Crawling-Verlauf des Googlebots für deine Website. Dort siehst du, wann Google auf deiner Website auf Verfügbarkeitsprobleme gestoßen ist. Wenn für deine Website Fehler oder Warnungen in Bezug auf die Verfügbarkeit angezeigt werden, suche in den Grafiken zur Hostverfügbarkeit nach Fällen, in denen die Googlebot-Anfragen die rote Linie für das Limit überstiegen. Klicke auf die Grafik, um zu sehen, welche URLs sich nicht aufrufen ließen, und versuche, sie Problemen auf deiner Website zuzuordnen.

Außerdem kannst du mit dem URL-Prüftool einige URLs auf deiner Website testen. Wenn das Tool die Warnung Hostlast überschritten zurückgibt, kann der Googlebot nicht so viele URLs deiner Website crawlen, wie er gefunden hat.

Problembehebung:

  • Informiere dich in der Dokumentation zum Bericht „Crawling-Statistik“, wie du Verfügbarkeitsprobleme erkennen und beheben kannst.
  • Blockiere das Crawling für Seiten, die nicht gecrawlt werden sollen. Siehe Abschnitt zum Verwalten des Inventars.
  • Beschleunige das Laden und Rendern von Seiten. Siehe Abschnitt zur Verbesserung der Crawling-Effizienz deiner Website.
  • Erhöhe deine Serverkapazität. Wenn beim Crawling deiner Website durch Google anscheinend regelmäßig das Limit der Bereitstellungskapazität erreicht wird und du wichtige URLs hast, die nicht so oft gecrawlt oder aktualisiert werden, wie sie sollten, kannst du mehr Bereitstellungsressourcen zur Verfügung stellen, sodass Google mehr Seiten deiner Website anfordern kann. Überprüfe im Crawling-Statistik-Bericht, ob die Crawling-Frequenz von Google häufig die festgelegte Crawling-Frequenz überschreitet. Wenn ja, solltest du für einen Monat die Bereitstellungsressourcen erhöhen und dann prüfen, ob die Crawling-Anfragen in diesem Zeitraum zugenommen haben.

Prüfen, ob bestimmte Teile deiner Website nicht gecrawlt werden, obwohl sie gecrawlt werden sollten

Google verbringt so viel Zeit auf deiner Website, wie nötig ist, um alle für Nutzer wertvollen Inhalte zu indexieren. Wenn der Googlebot wichtige Inhalte nicht crawlt, liegt das daran, dass er nicht von ihnen weiß, dass sie für Google blockiert sind, dass mangelnde Verfügbarkeit der Website den Zugriff durch Google beschränkt oder dass Google versucht, deine Website nicht zu überlasten.

Problemdiagnose:

Der Crawling-Verlauf deiner Website in der Search Console kann nicht nach URL oder Pfad gefiltert werden. Du kannst aber in deinen Website-Protokollen nachsehen, ob bestimmte URLs vom Googlebot gecrawlt wurden. Ob die gecrawlten URLs auch indexiert wurden, ist dabei eine ganz andere Frage.

Denke daran, dass es bei den meisten Websites einige Tage dauert, bis neue Seiten bemerkt werden. Erwarte nicht, dass neue URLs deiner Website noch am selben Tag gecrawlt werden. Eine Ausnahme sind zeitkritische Fälle wie Nachrichtenwebsites.

Problembehebung:

Wenn du deiner Website Seiten hinzufügst und sie nicht innerhalb eines angemessenen Zeitraums gecrawlt werden, ist vermutlich einer der folgenden Fälle eingetreten: Sie wurden von Google nicht bemerkt, die Inhalte sind blockiert, die maximale Bereitstellungskapazität deiner Website wurde erreicht oder dein Crawling-Budget ausgeschöpft.

  1. Informiere Google über deine neuen Seiten. Füge dazu deinen Sitemaps neue URLs hinzu.
  2. Achte darauf, dass durch die robots.txt-Regeln nicht versehentlich Seiten blockiert werden.
  3. Prüfe die Crawling-Prioritäten. Überlege dir gut, wie du dein Crawling-Budget nutzt. Verwalte dein Inventar und verbessere die Crawling-Effizienz deiner Website.
  4. Prüfe, ob die Bereitstellungskapazität ausreicht. Der Googlebot verringert das Crawling, wenn er feststellt, dass deine Server Schwierigkeiten dabei haben, auf Crawling-Anfragen zu antworten.

Beachte, dass auch gecrawlte Seiten nicht zwingend in den Suchergebnissen erscheinen, wenn sie für die Nutzer nicht wertvoll genug sind oder die Nutzernachfrage zu gering ist.

Prüfen, ob aktualisierte Inhalte schnell genug gecrawlt werden

Wenn wir neue oder aktualisierte Seiten deiner Website nicht crawlen, liegt das möglicherweise daran, dass wir die Seiten bzw. ihre Aktualisierung nicht bemerkt haben. Im Folgenden wird beschrieben, wie du uns über Seitenaktualisierungen informieren kannst.

Google bemüht sich, Seiten möglichst zeitnah zu prüfen und zu indexieren. Bei den meisten Websites dauert es jedoch mindestens drei Tage. Erwarte nicht, dass Google Seiten noch am Tag der Veröffentlichung bzw. Aktualisierung indexiert, es sei denn, es geht um eine Nachrichtenwebsite oder andere wertvolle, besonders zeitkritische Inhalte.

Problemdiagnose:

Sieh in deinen Website-Protokollen nach, wann bestimmte URLs vom Googlebot gecrawlt wurden.

Wenn du das Indexierungsdatum feststellen möchtest, verwende dazu das URL-Prüftool oder suche nach den von dir aktualisierten URLs.

Problembehebung:

Das solltest du tun:

  • Verwende eine News-Sitemap, falls deine Website Nachrichten enthält.
  • Verwende in Sitemaps das <lastmod>-Tag, um anzugeben, dass eine indexierte URL aktualisiert wurde.
  • Verwende eine crawlbare URL-Struktur, damit Google deine Seiten leichter finden kann.
  • Stelle standardmäßige, für Crawler zugängliche <a>-Links zur Verfügung, damit Google deine Seiten leichter findet.
  • Wenn deine Website separaten HTML-Code für die mobile und die Desktopversion verwendet, solltest du in der mobilen Version dieselben Links wie in der Desktopversion angeben. Wenn es nicht möglich ist, in der mobilen Version dieselben Links anzugeben, müssen sie in einer sitemap-Datei enthalten sein. Google indexiert nur die mobile Version von Seiten. Wenn du die dort angezeigten Links einschränkst, kann die Entdeckung neuer Seiten verlangsamt werden.

Das solltest du vermeiden:

  • Reiche nicht dieselbe unveränderte Sitemap mehrmals pro Tag ein.
  • Erwarte nicht, dass der Googlebot alles in einer Sitemap crawlt oder dass das Crawling sofort erfolgt. Sitemaps sind für den Googlebot sehr nützlich, stellen für ihn aber nur Vorschläge dar.
  • Füge deinen Sitemaps keine URLs hinzu, die nicht in den Suchergebnissen erscheinen sollen. Andernfalls wird dein Crawling-Budget für Seiten verschwendet, die nicht indexiert werden sollten.

Crawling-Effizienz deiner Website verbessern

Laden von Seiten beschleunigen

Das Crawling durch Google wird durch Bandbreite, Zeit und die Verfügbarkeit von Googlebot-Instanzen begrenzt. Wenn dein Server schneller auf Anfragen antwortet, können wir möglicherweise mehr Seiten deiner Website crawlen. Allerdings möchte Google nur hochwertige Inhalte crawlen. Wenn du also Seiten mit geringer Qualität schneller machst, ist das für den Googlebot kein Anlass, einen größeren Teil deiner Website zu crawlen. Falls wir jedoch denken, dass wir hochwertige Inhalte deiner Website noch nicht crawlen, erhöhen wir wahrscheinlich dein Budget.

So kannst du deine Seiten und Ressourcen für das Crawling optimieren:

  • Verhindere mithilfe der robots.txt-Datei, dass der Googlebot umfangreiche, aber unwichtige Ressourcen lädt. Achte darauf, nur nicht unbedingt erforderliche Ressourcen zu blockieren, d. h. Ressourcen, die für das Verständnis der Seite nicht wichtig sind (z. B. dekorative Bilder).
  • Sorge dafür, dass sich deine Seiten schnell laden lassen.
  • Vermeide lange Weiterleitungsketten, da sie das Crawling beeinträchtigen.
  • Sowohl die Zeit für die Beantwortung von Serveranfragen als auch die für das Rendern von Seiten benötigte Zeit ist wichtig, einschließlich der Lade- und Ausführungszeit für eingebettete Ressourcen wie Bilder und Skripts. Achte auf große oder langsame Ressourcen, die für die Indexierung gebraucht werden.

Inhaltsänderungen mit HTTP-Statuscodes kommunizieren

Google unterstützt beim Crawling grundsätzlich die HTTP-Anfrageheader If-Modified-Since und If-None-Match. Die Google-Crawler senden die Header nicht bei allen Crawling-Versuchen. Ob sie gesendet werden, hängt vom Anwendungsfall der Anfrage ab. (Bei AdsBot beispielsweise ist die Wahrscheinlichkeit, dass die HTTP-Anfrageheader If-Modified-Since und If-None-Match gesendet werden, höher.) Wenn unsere Crawler den Header If-Modified-Since senden, ist der Wert des Headers das Datum und die Uhrzeit des letzten Crawlings der Inhalte. Basierend auf diesem Wert kann der Server dann den HTTP-Statuscode 304 (Not Modified) ohne Antworttext zurückgeben. In diesem Fall verwendet Google die zuletzt gecrawlte Version der Inhalte. Wenn die Inhalte nach dem vom Crawler im Header If-Modified-Since angegebenen Datum veröffentlicht wurden, kann der Server den HTTP-Statuscode 200 (OK) mit Antworttext zurückgeben.

Unabhängig von den Anfrageheadern kannst du bei jeder Googlebot-Anfrage den HTTP-Statuscode 304 (Not Modified) ohne Antworttext senden, wenn sich die Inhalte nicht geändert haben, seitdem der Googlebot die URL das letzte Mal besucht hat. Das spart Zeit und Ressourcen bei der Serververarbeitung und kann somit indirekt die Crawling-Effizienz verbessern.

URLs verbergen, die nicht in den Suchergebnissen erscheinen sollen

Das Verschwenden von Serverressourcen für nicht erforderlichen Seiten kann Google davon abhalten, Seiten zu crawlen, die für dich wichtig sind. Es dauert dann möglicherweise deutlich länger, bis Google hochwertige, neue oder aktualisierte Inhalte auf einer Website bemerkt.

Falls du auf deiner Website viele URLs verfügbar machst, die nicht von der Suche gecrawlt werden sollen, können dadurch das Crawling und die Indexierung einer Website beeinträchtigt werden. In der Regel fallen diese URLs in die folgenden Kategorien:

Das solltest du tun:

  • Verwende die robots.txt-Datei, wenn eine Ressource oder Seite überhaupt nicht von Google gecrawlt werden sollte.
  • Falls eine Ressource auf mehreren Seiten verwendet wird, z. B. ein Bild oder eine JavaScript-Datei, verweise auf jeder Seite mit derselben URL darauf, damit Google die Ressource im Cache speichern und wiederverwenden kann, ohne sie mehrmals anfordern zu müssen.

Das solltest du vermeiden:

  • Seiten oder Verzeichnisse sollten nicht fortlaufend der robots.txt-Datei hinzugefügt oder daraus entfernt werden, um Crawling-Budget anderen Teilen deiner Website zuzuweisen. Verwende die robots.txt-Datei nur für Seiten oder Ressourcen, die langfristig nicht bei Google erscheinen sollen.
  • Tausche keine Sitemaps und verwende keine vorübergehenden Mechanismen zum Verbergen, um Crawling-Budget neu zuzuweisen.

soft 404 Fehler

Ein soft 404-Fehler ist eine URL, die eine Seite mit dem Hinweis, dass die Seite nicht existiert, sowie einen 200 (success)-Statuscode zurückgibt. In einigen Fällen wird eine Seite ohne Hauptinhalt oder eine leere Seite angezeigt.

Solche Seiten können aus verschiedenen Gründen vom Webserver oder Content-Management-System deiner Website oder vom Browser des Nutzers generiert werden. Beispiel:

  • Eine fehlende SSI-Datei (Server Side Includes)
  • Eine unterbrochene Verbindung zur Datenbank
  • Eine leere interne Suchergebnisseite
  • Eine nicht geladene oder anderweitig fehlende JavaScript-Datei

Es ist schlecht, den Statuscode 200 (success) zurückzugeben und dann auf der Seite eine Fehlermeldung anzuzeigen. Nutzer denken möglicherweise, dass es sich um eine funktionierende Seite handelt, erhalten dann aber einen Fehler. Solche Seiten werden von der Google Suche ausgeschlossen.

Wenn der Inhalt einer Seite darauf hinweist, dass es sich eigentlich um eine Fehlerseite handelt, erkennen dies die Algorithmen von Google und die Search Console zeigt einen soft 404-Fehler im Bericht zur Seitenindexierung der Website an.

soft 404-Fehler beheben

Je nach Status der Seite und dem gewünschten Ergebnis kannst du soft 404-Fehler auf verschiedene Arten beheben:

Versuche herauszufinden, welche Lösung für deine Nutzer am besten geeignet ist.

Die Seite und der Inhalt sind nicht mehr verfügbar

Wenn du die Seite entfernt hast und keine Ersatzseite mit ähnlichem Inhalt in deiner Website vorhanden ist, gib den Antwort-(Status-)Code 404 (not found) oder 410 (gone) für die Seite zurück. Diese Statuscodes zeigen den Suchmaschinen an, dass die Seite nicht existiert und du nicht möchtest, dass die Seite von Suchmaschinen indexiert wird.

Wenn du Zugriff auf die Konfigurationsdateien deines Servers hast, kannst du diese Fehlerseiten für deine Nutzer sinnvoll anpassen. Eine gut angepasste 404-Seite hilft Nutzern, die gesuchten Informationen zu finden, und bietet weitere hilfreiche Informationen, über die Nutzer dazu animiert werden, sich mehr mit deiner Website zu befassen. Im Folgenden findest du einige Tipps für die Erstellung einer hilfreichen angepassten 404-Seite:

  • Teile Besuchern klar und verständlich mit, dass die gewünschte Seite nicht gefunden wurde. Verwende freundliche und einladende Formulierungen.
  • Achte darauf, dass deine 404-Seite dasselbe Design (einschließlich Bedienung) wie der Rest deiner Website hat.
  • Füge Links zu deinen meistgelesenen Artikeln oder Beiträgen sowie einen Link zur Startseite der Website hinzu.
  • Ziehe in Erwägung, Nutzern die Möglichkeit zu geben, einen fehlerhaften Link zu melden.

Benutzerdefinierte 404-Seiten werden ausschließlich für Nutzer erstellt. Aus Sicht der Suchmaschine sind diese Seiten sinnlos. Deshalb muss der Server den HTTP-Statuscode 404 zurückgeben, um zu verhindern, dass die Seiten indexiert werden.

Die Seite oder der Inhalt befindet sich jetzt an einem anderen Ort

Ist deine Seite umgezogen oder gibt es einen eindeutigen Ersatz dafür in deiner Website, dann gib 301 (permanent redirect) zurück, um die Nutzer weiterzuleiten. Dies unterbricht das Surfen nicht und ist außerdem eine gute Möglichkeit, Suchmaschinen über die neue Position der Seite zu informieren. Verwende das URL-Prüftool, um herauszufinden, ob deine URL den richtigen Code zurückgibt.

Seite und Inhalt sind noch vorhanden

Wenn eine ansonsten fehlerfreie Seite mit einem soft 404-Fehler gekennzeichnet wird, konnte sie wahrscheinlich für den Googlebot nicht richtig geladen werden, ihr fehlten wichtige Ressourcen oder es wurde beim Rendern eine deutlich erkennbare Fehlermeldung angezeigt. Verwende das URL-Prüftool, um den gerenderten Inhalt und den zurückgegebenen HTTP-Code zu untersuchen. Wenn die gerenderte Seite leer oder nahezu leer ist oder der Inhalt eine Fehlermeldung enthält, verweist deine Seite unter Umständen auf viele Ressourcen wie Bilder, Scripts und andere nicht textbasierte Elemente, die nicht geladen werden können. Dies kann als soft 404-Fehler interpretiert werden. Gründe, warum Ressourcen nicht geladen werden, können beispielsweise durch robots.txt blockierte Ressourcen, zu viele Ressourcen auf einer Seite, verschiedene Serverfehler oder langsam ladende sowie sehr große Ressourcen sein.

Umgang mit übermäßigem Crawlen deiner Website (Notfälle)

Der Googlebot hat Algorithmen, die verhindern sollen, dass er deine Website mit Crawling-Anfragen überlastet. Wenn du dennoch eine Überlastung feststellst, kannst du verschiedene Maßnahmen ergreifen.

Problemdiagnose:

Überwache deinen Server auf ein Übermaß an Googlebot-Anfragen an deine Website.

Problembehebung:

Für Notfälle empfehlen wir die folgenden Schritte, um ein zu intensives Crawling durch den Googlebot zu verringern:

  1. Wenn dein Server überlastet ist, gib für Googlebot-Anfragen vorübergehend 503- oder 429-HTTP-Antwortcodes zurück. Der Googlebot versucht etwa zwei Tage lang, diese URLs zu crawlen. Wenn du länger als ein paar Tage Fehlercodes zurückgibst, die eine Nichtverfügbarkeit signalisieren, verringert oder stoppt Google dauerhaft das Crawling von URLs auf deiner Website. Führe daher die als nächstes genannten zusätzlichen Schritte aus.
  2. Falls die Crawling-Frequenz sinkt, beende die Rückgabe von 503- oder 429-HTTP-Antwortcodes auf Crawling-Anfragen. Wenn der Code 503 oder 429 länger als zwei Tage zurückgegeben wird, entfernt Google die entsprechenden URLs aus dem Index.
  3. Beobachten Sie das Crawling und Ihre Hostkapazität im Laufe der Zeit.
  4. Wenn der problematische Crawler einer der AdsBot-Crawler ist, wird das Problem wahrscheinlich dadurch verursacht, dass Sie für Ihre Website Ziele für dynamische Suchanzeigen erstellt haben, die Google zu crawlen versucht. Dieses Crawling wird alle drei Wochen wiederholt. Falls Sie nicht die für diese Crawling-Vorgänge nötige Serverkapazität haben, begrenzen Sie entweder die Anzeigenziele oder erhöhen Sie die Bereitstellungskapazität.