Wir sind jetzt auf LinkedIn: Folgen Sie uns auf LinkedIn, um Neuigkeiten und Ressourcen der Google Suche dazu zu erhalten, wie Sie Ihre Website auffindbar machen können.
Duplicate Content – Best Practice bei dupliziertem Inhalt
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Mittwoch, 14. März 2007
Anfang Dezember letzten Jahres wurden auf der Search Engine Strategies Konferenz im kalten Chicago viele von uns Googlern auf Duplicate Content angesprochen. Da wir uns bewusst sind, dass dies ein facettenreiches und auch ein wenig verwirrendes Thema ist, wollen wir dazu
beitragen, einige Unklarh
eiten zu beseitigen.
Was ist Duplicate Content?
Als Duplicate Content werden üblicherweise
Contentbereich
e bezeichnet, die anderem Content - domainintern oder domainübergreifend - entweder genau gleichen oder diesem deutlich ähnlich sind. Meistens ist dies unbeabsichtigt oder zumindest kein böser Wille: Foren, die sowohl reguläre als auch für Handys optimierte Seiten generieren, Artikel in Onlineshops,
die unter mehreren
URLs gelistet (und – schlimmer noch – verlinkt) werden, usw. In manchen Fäl
len wird versucht, Content do
mainübergreifend zu duplizieren, um Suchergebnisse zu manipulieren oder um mehr Traffic mittels populärer oder „long-tail“ Suchanfragen zu generieren.
Was ist kein Duplicate Content?
Obwohl wir
ein praktisches Übersetzungs-Tool
anbieten, sehen unsere Algorithmen es nicht als Duplicate Content an, wenn der gleiche Artikel sowohl auf Englisch als auch auf Spanisch zur Verfügung steht. Ebenso müsst ihr euch keine Sorgen machen, dass gelegentlich auftretende doppelte Snippets (Zitate etc.) als Duplicate Content angesehen werden.
Warum ist Duplicate Content ein Thema für Google?
Unsere User wollen gewöhnlich einen vielfältigen Querschnitt an einzigartigem Content für ihre Suchanfragen erhalten. Sie sind verständlicherweise verärgert, wenn sie im Wesentlichen den gleichen Content innerhalb der Suchergebnisse sehen. Außerdem stört es Webmaster, wenn wir eine komplexe URL (example.com/contentredir?value=shorty-george⟨=en) anstatt der von ihnen bevorzugten schönen URL zeigen (example.com/en/shorty-george.htm).
Was macht Google mit Duplicate Content?
Während des Crawlens und bei der Ausgabe von Suchergebnissen achten
wir sehr darauf, Seiten mi
t verschiedener Information zu indexieren und anzuzeigen. Wenn es z. B. auf eurer Website sowohl eine reguläre Version als auch eine Druckansicht für Artikel gibt, von denen keine durch robots.txt oder mittels eines noindex-Metatags blockiert wird, dann suchen wir uns aus, welche Version wir listen.
In seltenen Fällen steht hinter Duplicate Content die Absicht, unsere Rankings zu manipulieren und unsere User zu täuschen. Falls wir dies feststellen, nehmen wir entsprechende Anpassungen der Indizierung und des Rankings der beteiligten Websites vor. Wir konzentrier
en uns jedoch lieber auf das Filtern als auf Anpassungen des Rankings … überwiegend ist also das „Schlimmste“, was Webmastern passieren kann, das Auftauchen der „weniger erwünschten“ Version einer Seite in unserem Index.
Wie können Webmaster Probleme mit Duplicate Content vermeiden?
Richtig blockieren:
Anstatt unsere Algorithmen bestimmen zu lassen, welches die „beste“ Version eines Dokuments ist,
könnt
ihr
uns bei der Auswahl der von euch bevorzugten Version helfen. Wenn ihr beispielsweise nicht möchtet, dass wir die Druckansichten eurer Artikel indexieren, dann setzt ein Disallow für die entsprechenden Verzeichnisse oder verwendet reguläre Ausdrücke in der robots.txt-Datei.
301 Redirects nutzen:
Wenn ihr eine Website umstrukturiert habt, nutzt 301 Redirects ("RedirectPermanent") in eurer .htaccess-Datei, um User, den Googlebot und andere Spider elegant weiterzuleiten.
Konsistenz:
Bemüht euch darum, bei der internen Verlinkung einheitlich zu bleiben; linkt nicht zu /page/ , /page und /page/index.htm.
TLDs nutzen:
Wann immer es möglich ist, nutzt Top Level Domains für landesspezifische Inhalte, um uns
dabei zu helfen, die passendste Versi
on eines Dokuments anzuzeigen. Wir gehen davon aus, dass .de
eher auf Content
für den deutschen Markt hinweist als z. B. /de oder de.example.com.
Beim „syndicaten“ achtgeben:
Wenn ihr Content auf anderen Websites mittels Feeds zur Verfügung stellt, dann achtet darauf, dass immer ein Backlink zum Original-Artikel vorhanden ist. Seid euch auch dann bewusst, dass wir stets diejenige (nicht blockierte) Version anzeigen, die wir als am besten geeignet für die jeweilige Suchanfrage unserer User erachten. Dies kann, muss aber nicht mit der von euch bevorzugten Version übereinstimmen.
Das „Bevorzugte Domain“-Feature der Webmaster-Tools nutzen:
Andere Websites, die euch verlinken, geben vielleicht eure URLs sowohl mit als auch ohne www an. Ihr könnt uns mitteilen, welche Version ihr bevorzugt im Index sehen möchtet.
Wiederholung von vorgefertigten Textstücken minimieren:
Fügt z. B. anstelle eines langen Copyright-Textes am Ende jeder Seite eine kurze Zusammenfassung ein und linkt dann zu einer Seite, die alle Details enthält.
Baustellen vermeiden:
User möchten keine „leeren“ Seiten sehen. Vermeidet also Platzhalter, wann immer es möglich ist. Dies heisst, Seiten mit null Rezensionen, nicht vorhandenen Immobilienlistings usw. sollten nicht veröffentlicht (oder zumindest blockiert) werden, so dass User (und Bots) nicht zum x-ten
Mal auf
Content
s
toßen wie „hier finden Sie unsere großartige Liste mit tollen Mietgelegenheiten in [Städtename]…“, während tatsächlich keine Einträge vorhanden sind.
CMS verstehen:
Sorgt dafür, dass ihr damit vertraut seid, wie Content auf eurer Website dargestellt wird, vor allem wenn diese einen Blog, ein Forum oder ähnliche Systeme beinhaltet, die oftmals den gleichen Content in unterschiedlichen Formaten zeigen.
Don’t worry be happy:
Regt euch nicht zu sehr über Websites auf, die euren Content „scrapen“, d. h. ihn sich widerrechtlich aneignen und neu veröffentlichen. Dies ist zwar ärgerlich, jedoch ist es sehr unwahrscheinlich, dass solche Websites einen negativen Einfluss auf die Präsenz
eurer
Website in Google haben. Wenn ihr einen besonders frustrierenden Fall entdeckt, reicht bitte einen
DMCA Antrag
ein, um Besitzanspruch auf den Inhalt geltend zu machen
; wir befassen uns dann mit der Scraper-Site.
Kurz gesagt, durch ein generelles Bewusstsein für den Umgang mit Duplicate Content und ein paar Minuten für durchdachte, präventive Pflege eurer Website helft ihr uns dabei, unseren Usern einzigartigen und relevanten Content zu bieten.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2007-03-01 (UTC)."],[[["\u003cp\u003eGoogle identifies duplicate content as substantially similar content within or across domains, often unintentional but sometimes used for manipulation.\u003c/p\u003e\n"],["\u003cp\u003eGoogle aims to show diverse, unique content in search results and prefers displaying the most user-friendly URL version of a page.\u003c/p\u003e\n"],["\u003cp\u003eWebmasters can address duplicate content by using techniques like 301 redirects, consistent internal linking, and canonicalization through Webmaster Tools.\u003c/p\u003e\n"],["\u003cp\u003eContent syndication should include links back to the original article, and boilerplate repetition should be minimized for a better user experience.\u003c/p\u003e\n"],["\u003cp\u003eGoogle prioritizes filtering duplicate content rather than penalizing websites, focusing on indexing and displaying the most appropriate version for users.\u003c/p\u003e\n"]]],["Duplicate content refers to significantly similar content within or across domains, often unintentional. Google filters search results to show unique content and may adjust rankings for manipulative duplication. Webmasters should proactively address this by blocking unwanted versions via `robots.txt`, using `301` redirects, maintaining consistent internal linking, utilizing top-level domains, syndicating with backlinks, and minimizing repetitive boilerplate content. They are also encouraged to use Webmaster Tools features and understand their CMS to manage this content effectively.\n"],null,["# Deftly dealing with duplicate content\n\nMonday, December 18, 2006\n\n\nAt the recent Search Engine Strategies conference in freezing Chicago, many of us Googlers were\nasked questions about duplicate content. We recognize that there are many nuances and a bit of\nconfusion on the topic, so we'd like to help set the record straight.\n\nWhat is duplicate content?\n--------------------------\n\n\nDuplicate content generally refers to substantive blocks of content within or across domains that\neither completely match other content or are appreciably similar. Most of the time when we see\nthis, it's unintentional or at least not malicious in origin: forums that generate both regular\nand stripped-down mobile-targeted pages, store items shown (and---worse yet---linked) via\nmultiple distinct URLs, and so on. In some cases, content is duplicated across domains in an\nattempt to manipulate search engine rankings or garner more traffic via popular or long-tail\nqueries.\n\nWhat isn't duplicate content?\n-----------------------------\n\n\nThough we do offer\n[a handy translation utility](https://translate.google.com/),\nour algorithms won't view the same article written in English and Spanish as duplicate content.\nSimilarly, you shouldn't worry about occasional snippets (quotes and otherwise) being flagged as\nduplicate content.\n\nWhy does Google care about duplicate content?\n---------------------------------------------\n\n\nOur users typically want to see a diverse cross-section of unique content when they do searches.\nIn contrast, they're understandably annoyed when they see substantially the same content within\na set of search results. Also, webmasters become sad when we show a complex URL\n(`example.com/contentredir?value=shorty-george〈=en`) instead of the pretty URL\nthey prefer (`example.com/en/shorty-george`).\n\nWhat does Google do about it?\n-----------------------------\n\n\nDuring our crawling and when serving search results, we try hard to index and show pages with\ndistinct information. This filtering means, for instance, that if your site has articles in\n\"regular\" and \"printer\" versions and neither set is blocked in robots.txt or via a noindex meta\ntag, we'll choose one version to list. In the rare cases in which we perceive that duplicate\ncontent may be shown with intent to manipulate our rankings and deceive our users, we'll also\nmake appropriate adjustments in the indexing and ranking of the sites involved. However, we\nprefer to focus on filtering rather than ranking adjustments ... so in the vast majority of\ncases, the worst thing that'll befall webmasters is to see the \"less desired\" version of a page\nshown in our index.\n\nHow can Webmasters proactively address duplicate content issues?\n----------------------------------------------------------------\n\n- **Block appropriately:** Rather than letting our algorithms determine the \"best\" version of a document, you may wish to help guide us to your preferred version. For instance, if you don't want us to index the printer versions of your site's articles, disallow those directories or make use of regular expressions in your robots.txt file.\n- **Use `301` redirects:** If you have restructured your site, [use `301` redirects](/search/docs/crawling-indexing/301-redirects) (`RedirectPermanent`) in your `.htaccess` file to smartly redirect users, the Googlebot, and other spiders.\n- **Be consistent:** Endeavor to keep your internal linking consistent; don't link to `/page/` and `/page` and `/page/index.htm`.\n- **Use TLDs:** To help us serve the most appropriate version of a document, use top level domains whenever possible to handle country-specific content. We're more likely to know that `.de` indicates Germany-focused content, for instance, than `/de` or `de.example.com`.\n- **Syndicate carefully:** If you syndicate your content on other sites, make sure they include a link back to the original article on each syndicated article. Even with that, note that we'll always show the (unblocked) version we think is most appropriate for users in each given search, which may or may not be the version you'd prefer.\n- **Use the preferred domain feature of Webmaster Tools:** If other sites link to yours using both the www and non-www version of your URLs, you can let us know which way you prefer your site to be indexed.\n- **Minimize boilerplate repetition:** For instance, instead of including lengthy copyright text on the bottom of every page, include a very brief summary and then link to a page with more details.\n- **Avoid publishing stubs:** Users don't like seeing \"empty\" pages, so avoid placeholders where possible. This means not publishing (or at least blocking) pages with zero reviews, no real estate listings, etc., so users (and bots) aren't subjected to a zillion instances of \"Below you'll find a superb list of all the great rental opportunities in \\[insert cityname\\]...\" with no actual listings.\n- **Understand your CMS:** Make sure you're familiar with how content is displayed on your Web site, particularly if it includes a blog, a forum, or related system that often shows the same content in multiple formats.\n- **Don't worry be happy:** Don't fret too much about sites that scrape (misappropriate and republish) your content. Though annoying, it's highly unlikely that such sites can negatively impact your site's presence in Google. If you do spot a case that's particularly frustrating, you are welcome to file a [DMCA request](https://support.google.com/legal/troubleshooter/1114905) to claim ownership of the content and have us deal with the rogue site.\n\n\nIn short, a general awareness of duplicate content issues and a few minutes of thoughtful\npreventative maintenance should help you to help us provide users with unique and relevant\ncontent."]]