FAQs zu Robots

Allgemeine Fragen zu Robots

Benötigt meine Website eine robots.txt-Datei?

Nein. Wenn der Googlebot eine Website besucht, versucht er zuerst, eine Erlaubnis zum Crawlen zu bekommen. Dazu ruft er nach Möglichkeit die robots.txt-Datei ab. Aber auch Websites ohne robots.txt-Datei, robots-meta-Tags oder X-Robots-Tag-HTTP-Header werden im Allgemeinen ganz normal gecrawlt und indexiert.

Mit welcher Methode sollte ich Crawler blockieren?

Das ist unterschiedlich. Für jede der folgenden Methoden gibt es gute Gründe:

  • robots.txt: Verwende diese Methode, falls das Crawlen deiner Inhalte auf deinem Server Probleme verursacht. Beispielsweise ist es sinnvoll, das Crawlen der Skripts von unendlichen Kalendern zu unterbinden. Verwende die robots.txt-Datei nicht, um private Inhalte zu blockieren (nutze stattdessen serverseitige Authentifizierung) oder um die Kanonisierung festzulegen. Wenn du erreichen möchtest, dass eine URL nicht indexiert wird, verwende stattdessen das robots-meta-Tag oder den X-Robots-Tag-HTTP-Header.
  • robots-meta-Tag: Diese Methode empfiehlt sich, wenn du beeinflussen möchtest, wie eine einzelne HTML-Seite in den Suchergebnissen angezeigt wird, oder wenn du sicher sein willst, dass sie nicht angezeigt wird.
  • X-Robots-Tag-HTTP-Header: Diese Methode ist geeignet, wenn du beeinflussen möchtest, wie Inhalte in den Suchergebnissen angezeigt werden, oder wenn du sicher sein willst, dass sie nicht angezeigt werden.

Kann ich mit der robots.txt-Datei, dem robots-meta-Tag oder dem X-Robots-Tag-HTTP-Header die Website einer anderen Person aus den Suchergebnissen entfernen?

Nein. Diese Methoden sind nur für Websites geeignet, auf denen du selbst den Code ändern oder Dateien hinzufügen kannst. Weitere Informationen zum Entfernen von Inhalten aus Google

Wie kann ich das Crawlen meiner Website durch Google verlangsamen?

Du kannst die allgemeine Einstellung für die Crawling-Frequenz in deinem Google Search Console-Konto anpassen.

Fragen zur robots.txt-Datei

Ich verwende dieselbe robots.txt-Datei für mehrere Websites. Kann ich eine vollständige URL statt eines relativen Pfads verwenden?

Nein. Die Regeln in der robots.txt-Datei (mit Ausnahme von sitemap:) gelten nur für relative Pfade.

Kann ich die robots.txt-Datei in einem Unterverzeichnis ablegen?

Nein. Die Datei muss im obersten Verzeichnis der Website gespeichert werden.

Ich möchte einen privaten Ordner sperren. Kann ich andere daran hindern, meine robots.txt-Datei zu lesen?

Nein, die robots.txt-Datei kann von verschiedenen Nutzern gelesen werden. Falls Ordner oder Dateinamen von Inhalten nicht für die Öffentlichkeit vorgesehen sind, dürfen sie nicht in der robots.txt-Datei aufgeführt sein. Wir raten davon ab, unterschiedliche robots.txt-Dateien je nach User-Agent oder anderen Attributen bereitzustellen.

Muss ich in der robots.txt-Datei eine allow-Regel verwenden, um das Crawling zu erlauben?

Nein, du musst keine allow-Regel hinzufügen. Wenn nichts angegeben wird (d. h. „implizit“), sind alle URLs für das Crawling zugelassen. Die allow-Regel wird nur dazu verwendet, eventuelle disallow-Regeln in derselben robots.txt-Datei zu überschreiben.

Was geschieht, wenn meine robots.txt-Datei einen Fehler enthält oder ich eine nicht unterstützte Regel verwende?

Web-Crawler sind in der Regel sehr flexibel und werden normalerweise nicht durch geringfügige Fehler in der robots.txt-Datei außer Gefecht gesetzt. Im Allgemeinen kann nichts Schlimmeres passieren, als dass fehlerhafte oder nicht unterstützte Regeln ignoriert werden. Bedenke, dass Google bei der Interpretation einer robots.txt-Datei keine Gedanken lesen kann, sondern dass der Googlebot sich darauf beschränken muss, die abgerufene robots.txt-Datei auszuwerten. Sollten dir Probleme in deiner robots.txt-Datei bekannt sein, sind diese normalerweise einfach zu beheben.

Mit welchem Programm sollte ich die robots.txt-Datei erstellen?

Du kannst jedes Programm verwenden, mit dem du eine gültige Textdatei erstellen kannst. Gängige Programme zur Erstellung von robots.txt-Dateien sind beispielsweise Editor, TextEdit, vi oder Emacs. Hier findest du weitere Informationen zum Erstellen von robots.txt-Dateien. Nachdem du die Datei erstellt hast, validiere sie mit dem robots.txt-Tester.

Wenn ich das Crawling einer Seite durch Google mithilfe einer disallow-Regel in robots.txt verhindere, verschwindet die Seite dann aus den Suchergebnissen?

Durch das Sperren einer Seite für das Crawlen durch Google wird die Seite wahrscheinlich aus dem Google-Index entfernt.

Die Regel disallow in der robots.txt-Datei garantiert jedoch nicht, dass eine Seite nicht in den Ergebnissen erscheint. Google kann aufgrund von externen Informationen wie z. B. eingehenden Links trotzdem zu dem Schluss kommen, dass die Seite relevant ist, und die URL in den Suchergebnissen anzeigen. Falls du eine Seite explizit für die Indexierung sperren möchtest, verwende stattdessen das robots-meta-Tag noindex oder einen X-Robots-Tag-HTTP-Header dieses Typs. Sperre die Seite in diesem Fall nicht mit „disallow“ in der robots.txt-Datei, da die Seite gecrawlt werden muss, damit das Tag gelesen und befolgt werden kann. Hier erfährst du, wie du festlegst, was du mit Google teilst.

Wie lange dauert es, bis sich Änderungen an meiner robots.txt-Datei auf meine Suchergebnisse auswirken?

Erst einmal muss der Cache der robots.txt-Datei aktualisiert werden. Die Inhalte werden in der Regel maximal einen Tag lang im Cache gespeichert. Du kannst diesen Prozess beschleunigen, indem du die aktualisierte robots.txt-Datei bei Google einreichst. Das Crawling und die Indexierung sind komplizierte Prozesse, die bei bestimmten URLs manchmal recht lange dauern können. Daher können wir nicht genau angeben, in welchem zeitlichen Abstand nach der Erkennung eine Änderung wirksam wird. Beachte außerdem, dass eine URL auch dann in den Suchergebnissen angezeigt werden kann, wenn wir sie nicht crawlen können, weil deine robots.txt-Datei dies nicht zulässt. Wenn du das Entfernen der Seiten, die du für Google blockiert hast, beschleunigen möchtest, reiche einen Antrag auf Entfernung ein.

Wie kann ich das Crawling meiner Website vorübergehend komplett aussetzen?

Du kannst das Crawling vorübergehend komplett aussetzen, wenn du für URLs, auch für die robots.txt-Datei, den HTTP-Statuscode 503 (service unavailable) zurückgeben lässt. Es wird dann in regelmäßigen Abständen versucht, die robots.txt-Datei abzurufen, bis der Zugriff wieder möglich ist. Wir raten davon ab, das Crawling über deine robots.txt-Datei zu verhindern.

Mein Server unterscheidet nicht zwischen Groß- und Kleinschreibung. Wie kann ich das Crawlen einiger Ordner komplett verhindern?

Die Regeln in der robots.txt-Datei unterscheiden zwischen Groß- und Kleinschreibung. In diesem Fall solltest du mithilfe von Kanonisierungsmethoden dafür sorgen, dass nicht mehr als eine Version der URL indexiert wird. Dadurch kommst du in deiner robots.txt-Datei mit weniger Zeilen aus und sie ist für dich einfacher zu pflegen. Falls das nicht möglich ist, empfehlen wir, häufige Varianten des Ordnernamens aufzuführen oder ihn so weit wie möglich zu kürzen. Gib nur die ersten paar Zeichen statt des vollständigen Namens an. Statt alle groß- oder kleingeschriebenen Varianten von /MyPrivateFolder anzugeben, könntest du beispielsweise nur die Varianten von /MyP angeben, sofern du sicher bist, dass es keine anderen crawlbaren URLs gibt, die mit diesen Buchstaben beginnen. Wahlweise kannst du auch ein robots-meta-Tag oder einen X-Robots-Tag-HTTP-Header verwenden, solange das Crawling selbst problemlos möglich ist.

Meine Website gibt für alle URLs, auch für die robots.txt-Datei, 403 Forbidden zurück. Warum wird die Website dennoch gecrawlt?

Der 403 Forbidden-HTTP-Statuscode und andere 4xx-HTTP-Statuscodes werden so interpretiert, dass keine robots.txt-Datei existiert. Daher gehen die Crawler generell davon aus, dass alle URLs der Website gecrawlt werden können. Damit das Crawlen einer Website unterbunden werden kann, muss die robots.txt-Datei mit einem 200 OK-HTTP-Statuscode zurückgegeben werden und eine entsprechende disallow-Regel enthalten.

Fragen zu robots-meta-Tags

Kann das robots-meta-Tag die robots.txt-Datei ersetzen?

Nein. Die robots.txt-Datei legt fest, auf welche Seiten zugegriffen wird. Das robots-meta-Tag steuert, ob eine Seite indexiert wird. Die Seite muss jedoch erst gecrawlt werden, damit dieses Tag erkannt wird. Sollte das Crawlen einer Seite problematisch sein, z. B. weil die Seite eine starke Auslastung des Servers bewirkt, verwende die robots.txt-Datei. Falls es nur darum geht, ob eine Seite in den Suchergebnissen angezeigt werden soll, kannst du das robots-meta-Tag verwenden.

Kann mit dem robots-meta-Tag verhindert werden, dass ein Teil einer Seite indexiert wird?

Nein. Das robots-meta-Tag ist eine Einstellung auf Seitenebene.

Kann ich das robots-meta-Tag außerhalb eines <head>-Abschnitts verwenden?

Nein. Das robots-meta-Tag muss sich im <head>-Abschnitt einer Seite befinden.

Wird das Crawling durch das robots-meta-Tag unzulässig?

Nein. Auch wenn im robots-meta-Tag aktuell noindex angegeben ist, müssen wir die URL gelegentlich noch einmal crawlen, um zu prüfen, ob das meta-Tag zwischenzeitlich geändert wurde.

Was ist der Unterschied zwischen dem robots-meta-Tag nofollow und dem Linkattribut rel="nofollow"?

Das robots-meta-Tag nofollow gilt für alle Links auf einer Seite. Das Linkattribut rel="nofollow" gilt hingegen nur für bestimmte Links auf einer Seite. Weitere Informationen zum Linkattribut rel="nofollow" findest du in unserer Dokumentation zu von Nutzern erstelltem Spam und zu rel="nofollow".

Fragen zu X-Robots-Tag in HTTP-Headern

Wie kann ich das X-Robots-Tag für eine URL prüfen?

Eine einfache Möglichkeit zum Prüfen der Server-Header ist die Verwendung des URL-Prüftools in der Google Search Console. Um die Antwortheader einer beliebigen URL zu prüfen, suche nach „server header checker“ (Server-Header-Prüftool).