Duplicate Content – Best Practice bei dupliziertem Inhalt

Mittwoch, 14. März 2007

Anfang Dezember letzten Jahres wurden auf der Search Engine Strategies Konferenz im kalten Chicago viele von uns Googlern auf Duplicate Content angesprochen. Da wir uns bewusst sind, dass dies ein facettenreiches und auch ein wenig verwirrendes Thema ist, wollen wir dazu beitragen, einige Unklarh eiten zu beseitigen.

Was ist Duplicate Content?

Als Duplicate Content werden üblicherweise Contentbereich e bezeichnet, die anderem Content - domainintern oder domainübergreifend - entweder genau gleichen oder diesem deutlich ähnlich sind. Meistens ist dies unbeabsichtigt oder zumindest kein böser Wille: Foren, die sowohl reguläre als auch für Handys optimierte Seiten generieren, Artikel in Onlineshops, die unter mehreren URLs gelistet (und – schlimmer noch – verlinkt) werden, usw. In manchen Fäl len wird versucht, Content do mainübergreifend zu duplizieren, um Suchergebnisse zu manipulieren oder um mehr Traffic mittels populärer oder „long-tail“ Suchanfragen zu generieren.

Was ist kein Duplicate Content?

Obwohl wir ein praktisches Übersetzungs-Tool anbieten, sehen unsere Algorithmen es nicht als Duplicate Content an, wenn der gleiche Artikel sowohl auf Englisch als auch auf Spanisch zur Verfügung steht. Ebenso müsst ihr euch keine Sorgen machen, dass gelegentlich auftretende doppelte Snippets (Zitate etc.) als Duplicate Content angesehen werden.

Warum ist Duplicate Content ein Thema für Google?

Unsere User wollen gewöhnlich einen vielfältigen Querschnitt an einzigartigem Content für ihre Suchanfragen erhalten. Sie sind verständlicherweise verärgert, wenn sie im Wesentlichen den gleichen Content innerhalb der Suchergebnisse sehen. Außerdem stört es Webmaster, wenn wir eine komplexe URL (example.com/contentredir?value=shorty-george⟨=en) anstatt der von ihnen bevorzugten schönen URL zeigen (example.com/en/shorty-george.htm).

Was macht Google mit Duplicate Content?

Während des Crawlens und bei der Ausgabe von Suchergebnissen achten wir sehr darauf, Seiten mi t verschiedener Information zu indexieren und anzuzeigen. Wenn es z. B. auf eurer Website sowohl eine reguläre Version als auch eine Druckansicht für Artikel gibt, von denen keine durch robots.txt oder mittels eines noindex-Metatags blockiert wird, dann suchen wir uns aus, welche Version wir listen. In seltenen Fällen steht hinter Duplicate Content die Absicht, unsere Rankings zu manipulieren und unsere User zu täuschen. Falls wir dies feststellen, nehmen wir entsprechende Anpassungen der Indizierung und des Rankings der beteiligten Websites vor. Wir konzentrier en uns jedoch lieber auf das Filtern als auf Anpassungen des Rankings … überwiegend ist also das „Schlimmste“, was Webmastern passieren kann, das Auftauchen der „weniger erwünschten“ Version einer Seite in unserem Index.

Wie können Webmaster Probleme mit Duplicate Content vermeiden?

  • Richtig blockieren: Anstatt unsere Algorithmen bestimmen zu lassen, welches die „beste“ Version eines Dokuments ist, könnt ihr uns bei der Auswahl der von euch bevorzugten Version helfen. Wenn ihr beispielsweise nicht möchtet, dass wir die Druckansichten eurer Artikel indexieren, dann setzt ein Disallow für die entsprechenden Verzeichnisse oder verwendet reguläre Ausdrücke in der robots.txt-Datei.
  • 301 Redirects nutzen: Wenn ihr eine Website umstrukturiert habt, nutzt 301 Redirects ("RedirectPermanent") in eurer .htaccess-Datei, um User, den Googlebot und andere Spider elegant weiterzuleiten.
  • Konsistenz: Bemüht euch darum, bei der internen Verlinkung einheitlich zu bleiben; linkt nicht zu /page/ , /page und /page/index.htm.
  • TLDs nutzen: Wann immer es möglich ist, nutzt Top Level Domains für landesspezifische Inhalte, um uns dabei zu helfen, die passendste Versi on eines Dokuments anzuzeigen. Wir gehen davon aus, dass .de eher auf Content für den deutschen Markt hinweist als z. B. /de oder de.example.com.
  • Beim „syndicaten“ achtgeben: Wenn ihr Content auf anderen Websites mittels Feeds zur Verfügung stellt, dann achtet darauf, dass immer ein Backlink zum Original-Artikel vorhanden ist. Seid euch auch dann bewusst, dass wir stets diejenige (nicht blockierte) Version anzeigen, die wir als am besten geeignet für die jeweilige Suchanfrage unserer User erachten. Dies kann, muss aber nicht mit der von euch bevorzugten Version übereinstimmen.
  • Das „Bevorzugte Domain“-Feature der Webmaster-Tools nutzen: Andere Websites, die euch verlinken, geben vielleicht eure URLs sowohl mit als auch ohne www an. Ihr könnt uns mitteilen, welche Version ihr bevorzugt im Index sehen möchtet.
  • Wiederholung von vorgefertigten Textstücken minimieren: Fügt z. B. anstelle eines langen Copyright-Textes am Ende jeder Seite eine kurze Zusammenfassung ein und linkt dann zu einer Seite, die alle Details enthält.
  • Baustellen vermeiden: User möchten keine „leeren“ Seiten sehen. Vermeidet also Platzhalter, wann immer es möglich ist. Dies heisst, Seiten mit null Rezensionen, nicht vorhandenen Immobilienlistings usw. sollten nicht veröffentlicht (oder zumindest blockiert) werden, so dass User (und Bots) nicht zum x-ten Mal auf Content s toßen wie „hier finden Sie unsere großartige Liste mit tollen Mietgelegenheiten in [Städtename]…“, während tatsächlich keine Einträge vorhanden sind.
  • CMS verstehen: Sorgt dafür, dass ihr damit vertraut seid, wie Content auf eurer Website dargestellt wird, vor allem wenn diese einen Blog, ein Forum oder ähnliche Systeme beinhaltet, die oftmals den gleichen Content in unterschiedlichen Formaten zeigen.
  • Don’t worry be happy: Regt euch nicht zu sehr über Websites auf, die euren Content „scrapen“, d. h. ihn sich widerrechtlich aneignen und neu veröffentlichen. Dies ist zwar ärgerlich, jedoch ist es sehr unwahrscheinlich, dass solche Websites einen negativen Einfluss auf die Präsenz eurer Website in Google haben. Wenn ihr einen besonders frustrierenden Fall entdeckt, reicht bitte einen DMCA Antrag ein, um Besitzanspruch auf den Inhalt geltend zu machen ; wir befassen uns dann mit der Scraper-Site.

Kurz gesagt, durch ein generelles Bewusstsein für den Umgang mit Duplicate Content und ein paar Minuten für durchdachte, präventive Pflege eurer Website helft ihr uns dabei, unseren Usern einzigartigen und relevanten Content zu bieten.


Original