Duplicate Content zusammenführen

Freitag, 16. Oktober 2009

Duplicate Content auf der eigenen Website in den Griff zu kriegen kann eine ganz schöne Herausforderung sein. Websites wachsen; Funktionen werden hinzugefügt, verändert oder wieder entfernt - Inhalte kommen und gehen. Im Laufe der Zeit sammelt sich auf vielen Websites überflüssiger Müll in Form verschiedener URLs, die alle den gleichen Content liefern. Prinzipiell stellt Duplicate Content an sich kein Problem für eure Website dar, er kann jedoch dazu führen, dass es Suchmaschinen schwerer haben, den Content zu crawlen und zu indexieren. Außerdem kann es passieren, dass PageRank und ähnliche auf eingehenden Links basierende Informationen durch Seiten, die wir noch nicht als Duplikate identifiziert haben, verwässert werden, so dass eure bevorzugte Version einer Seite womöglich in der Google-Suche schlechter rankt.

Wie ihr mit Duplicate Content auf eurer Site umgehen könnt
  1. Erkennt den Duplicate Content auf eurer Site
    Der erste und gleichzeitig wichtigste Schritt ist, den Duplicate Content auf eurer Site zu erkennen. Eine einfache Methode dafür ist z. B. einen eindeutigen Textabschnitt von einer Seite zu nehmen und dann danach zu suchen (indem ihr die Suchergebnisse mittels des site:-Operators auf eure eigene Website beschränkt). Wenn ihr dabei mehrere Ergebnisse für den gleichen Content erhaltet, ist dies ein Zeichen von Duplizierung, die ihr euch dann näher anschauen könnt.

  2. Bestimmt eure bevorzugten URLs
    Noch bevor ihr an die Beseitigung der Duplicate Content-Probleme geht, solltet ihr die Struktur eurer bevorzugten URLs bestimmen. Welche URL würdet ihr für einen bestimmten Teil eures Contents bevorzugen?

  3. Bleibt innerhalb eurer Site einheitlich
    Sobald ihr die bevorzugten URLs bestimmt habt, solltet ihr sicherstellen, dass ihr diese Versionen an allen denkbaren Stellen eurer Site verwendet (auch in eurer Sitemap-Datei ).

  4. Verwendet 301-Weiterleitungen, wo es nötig und möglich ist
    Leitet, falls möglich, duplizierte URLs mithilfe einer 301-Statusmeldung auf eure bevorzugten URLs weiter. Dies hilft Usern und Suchmaschinen dabei, eure bevorzugten URLs zu finden, falls sie auf den duplizierten URLs gelandet sind. Wenn eure Site über mehrere Domain-Namen erreichbar ist, wählt einen davon aus und verweist von den anderen mit einer passenden 301-Weiterleitung darauf - dabei solltet ihr direkt zur spezifischen Seite weiterleiten und nicht bloß auf die Root der Domain. Wenn ihr den Host-Namen sowohl mit www als auch ohne www unterstützt, wählt eine Version aus, gebt dies in den Einstellungen zur bevorzugten Domain in den Webmaster-Tools an und setzt eine entsprechende Weiterleitung.

  5. Verwendet das Link-Element rel="canonical "
    Wo 301-Weiterleitungen nicht möglich sind, kann uns das Link-Element rel="canonical" ein besseres Verständnis eurer Site und eurer bevorzugten URLs bieten. Die Verwendung dieses Link-Elements wird auch von den meisten anderen Suchmaschinen wie etwa Ask.com , Bing und Yahoo! unterstützt.

  6. Verwendet das Tool zur Parameterbehandlung in den Webmaster-Tools
    Bei Duplicate Content, der ganz oder zum Teil auf URLs mit Parametern basiert oder von URLs mit Parametern stammt, kann euch dieses Tool dabei helfen, uns über die wichtigen und unwichtigen Parameter eurer URLs aufzuklären. Weitere Informationen über dieses Tool findet ihr in unserem Blogpost dazu .

Und was ist mit der robots.txt-Datei?

Ein Punkt, der in dieser Auflistung fehlt, ist das Blockieren des Crawlings von Duplicate Content mithilfe der robots.txt-Datei. Wir empfehlen mittlerweile, den Zugriff auf Duplicate Content auf eurer Site nicht zu blockieren - egal ob mittels robots.txt oder anderer Methoden. Verwendet stattdessen das rel="canonical" Link-Element , unser Tool zur Parameterbehandlung oder 301-Weiterleitungen. Wenn der Zugang zu Duplicate Content gänzlich blockiert wird, betrachten Suchmaschinen diese URLs als separate, einzigartige Seiten, da sie nicht wissen können, dass es sich hierbei nur um verschiedene URLs für den gleichen Content handelt. Die bessere Methode ist es, diese Seiten crawlen zu lassen, sie aber mithilfe einer unserer empfohlenen Methoden klar als Duplikat zu kennzeichnen. Wenn ihr uns diese URLs crawlen lasst, wird Googlebot lernen, Duplikate direkt an der URL zu erkennen und sollte daraufhin in der Regel ein überflüssiges erneutes Crawling vermeiden. In den Fällen, wo Duplicate Content trotzdem noch dazu führt, dass wir zu viel von eurer Website crawlen, könnt ihr auch die Crawling-Frequenz in den Webmaster-Tools anpassen.

Wir hoffen, dass diese Methoden euch dabei helfen, den Duplicate Content auf eurer Website in den Griff zu kriegen! Weitere Informationen über Duplicate Content im Allgemeinen könnt ihr auch in unserer Hilfe für Webmaster finden. Falls ihr weitere Fragen habt, besucht doch einfach unser Forum für Webmaster .

Reunifying duplicate content on your website (English version)

Post von John Mueller, Webmaster Trends Analyst, Google Zürich (Übersetzung von Sven, Search Quality)