Duplicate Content erklärt: Definition & Lösung für doppelte Inhalte

Du interessierst Dich für Duplicate Content im Kontext SEO? Duplicate Content, oder doppelter Inhalt, ist ein häufiges Problem beim Erstellen von Webseiten. In diesem Artikel werden wir die Definition von Duplicate Content erklären und die verschiedenen Arten von doppeltem Inhalt besprechen, die auftreten können. Außerdem werden wir Lösungen für das Problem besprechen und Tipps geben, wie Sie Duplicate Content auf Ihrer Website vermeiden können.

Was ist Duplicate Content?

Duplicate Content zu deutsch „Doppelter Inhalt“ oder „Duplizierter Content“ sind identische oder sehr ähnliche Inhalte, die über unterschiedlichen URLs auffindbar sind. Man unterscheidet zwischen internen und externen Duplicate Content.

Duplicate Content bezieht sich auf Inhalte, die auf mehreren Seiten innerhalb einer Website oder sogar auf verschiedenen Websites vorkommen. Dies kann sowohl beabsichtigt als auch unbeabsichtigt geschehen und kann negativ auf die Suchmaschinenoptimierung (SEO) einer Website und ihre Sichtbarkeit bei Suchmaschinen wie Google und Bing auswirken.

Der Umgang beziehungsweise die Vermeidung von Duplicate Content ist in der SEO-Theorie eines der Kernthemen. Die wichtigesten Suchmaschinen können Duplicate Content sehr gut erkennen und teilweise herausfiltern. Dennoch erschwert dieser das Crawling und das Scoring der Inhalte.

Die Vermeidung von Duplicate Content ist eine der Hauptaufgaben eines SEOs in der täglichen Arbeit. Bei Texten unterscheidet man zwischen exakt doppelten Inhalten und nahezu doppelten bzw. ähnlichen Inhalten (Near Duplicate Content), Mehr dazu hier

Laut John Mueller von Google sind folgende Fälle typische Arten von duplizierten Inhalten:

Exakt gleicher Inhalt oder große Teile gleichen Inhalts
Inhalte sind über mehrer Domains, Subdomains bzw. URls erreichbar (www / non-www / http / https / index.html / ?utm= …)
verschiedene mobilfreundliche URLs, Druckerfreundliche URLs, CDN–Anbieter …
Tag-Seiten, Pressemitteilungen Syndizierte Inhalte, Identische Seitentitel und Descriptions …

Google sieht folgende Inhalte nicht als Duplicate Content an:

Übersetzungen
Unterschiedliche Seiten mit gleichem Seitentitel und Descriptions
Content in Apps
Regionale Inhalte … manchmal

Mehr dazu im Webmaster Hangout Video von John Mueller am Ende dieses Beitrags.

Was ist Interner Duplicate Content?

Interner Duplicate Content sind sehr ähnliche oder identische Inhalte innerhalb einer Domains. Diese Art des Duplicate Contents wird oft durch die Art und Weise wie Content-Management-Affiliate

Affiliate-Marketing

Systeme Inhalte strukturieren und auf URLs verteilen geschaffen. Also hat einen technischen Hintergrund. Besonders Shopsysteme aber auch Redaktions-CMS sind hier besonders anfällig. Hier einige Beispiele für Duplicate-Content-Quellen:

Tag-Übersichtseiten
Filter-Übersichtsseiten
interne Suchergebnisseiten
Kategorie-Seiten
Produkteinzelseiten, wenn sie unterschiedlichen Kategorien zugeordnet sind
Beiträge, wenn sie unterschiedlichen Kategorien zugeordnet sind
Pagination

Laut Google scheint diese Art von duplizierten Inhalten i.d.R. kein großes Problem zu sein. Die Betonung liegt auf „scheint“. Wir sehen immer wieder, dass es sinnvoll ist Google auch bei der Priorisierung von URLs zu unterstützen und auch interne doppelte Inhalte aktiv zu vermeiden.

Was ist Externer Duplicate Content?

Externer Duplicate Content bedeutet sehr ähnliche oder identische Inhalte auf unterschiedlichen Domains. Diese Art von Duplizierten Inhalten scheint für Google das größere Problem zu sein als interner Duplicate Content. Beispiele dafür sind z.B.

Übernahme von Hersteller-Artikel-Beschreibungen
Content-Diebstahl
Content-Scraping (mehr dazu hier)
Content-Einspielung über RSS-Feeds
Verbreitung von Pressemitteilungen
Nutzung von Inhalten über Affiliate-Seiten

Identische Inhalte auf unterschiedlichen TLDs (Top Level Domains) für z.B. unterschiedliche Länder scheint laut Matt Cutts kein Problem für Google zu sein.

Um Duplicate Content Probleme zu vermeiden, die durch identische Inhalte auf mobilen Landingpages enstehen können, rät Cutts dazu die unterschiedlichen Google Bots „Google Bot mobile“ die mobile Seite auszuliefern und dem Standard Google Bot die normale Seite auszuliefern.

Ein Sonderfall sind Inhalte, wie z.B. Produktinformationen, die per RSS Feed eingespielt werden. Diese Inhalte sind nicht eigene Inhalte und tauchen i.d.R. auf einer Vielzahl anderer Seiten auf. Das reine Scrapen und einspielen von fremden Inhalten bieten dem User keinen Mehrwert.

Wie identifiziert Google doppelte Inhalte?

Google identifziert und filtert doppelte Inhalte technisch gesehen an drei Punkten des Crawling- und Indexierungs-Prozess.

Beim Scheduling
Bei der Indexierung
in den Suchergebnissen

Quelle: Crawling- und Indexierungs-Prozess / Google

Bestraft Google doppelte Inhalte mit Penalties?

In den meisten Fällen bestraft Google doppelte Inhalte nicht mit einem Penalty. Für internen Duplicate Content gibt es keine Penalties. Es gibt einige Fälle bei externen Duplicate Content bei denen Google Penalties ausspricht:

Scraper Sites: Domains die nahezu aus ausnahmslos gescrapten bzw. gekklauten Inhalten bestehen und keine zusätzlichen Mehrwerte bieten.
Spinning Cotent von Inhalten anderer Seiten: Inhalte, die i.d.R. automatisierte umgeschrieben, übersetzt etc. worden sind
Doorway Pages / Brückenseiten: Mehr dazu hier http://googlewebmastercentral.blogspot.de/2015/03/an-update-on-doorway-pages.html

Warum mag Google keinen Duplicate Content?

Google möchte laut eigener Aussage vermeiden duplizierte Inhalte mehrfach zu indexieren und in den Suchergebnissen anzuzeigen:

Google ist sehr darum bemüht, Seiten mit unterschiedlichen Informationen zu indizieren und anzuzeigen.

Dabei wird mit dem Ziel dem User Mehrwert zu bringen argumentiert. Dieser Argumentation folgt Google immer gerne. Aber es gibt noch einige andere Gründe:

URL-Bewertung pro Suchanfrage wird erschwert

Wenn Google mehrere URLs mit identischen Inhalt indexiert macht man es dem Algorithmus nicht unbedingt einfacher die thematische Nähe zum eingegebenen Suchbegriff herzustellen. Sprich es kann insbesondere bei internem Near Duplicate Content passieren, dass Keyword Kannibalisierung stattfindet. Google schreibt zwar:

Falls Ihre Website beispielsweise eine „normale“ und eine Druckversion jedes Artikels enthält und keine dieser Versionen durch ein noindex-Meta-Tag blockiert wird, bedeutet diese Filterung, dass wir eine von ihnen für die Auflistung auswählen.

Dennoch glaube ich, dass wenn man Google nicht eindeutig präsentiert welche der URLs nun die mehrwertigste für eine Suchanfrage ist es zu Problemen bei der eindeutigen Zuordnung kommen kann. Abgesehen davon, dass Google eventuell die für den User schlechtere Seite auswählt, dadurch die User-Signale schlechter sind und dadurch wieder das Ranking leidet.

Auch doppelte Seitentitel oder auch Snippets geben Google keine klaren Signale darüber welche URL denn nun die relevanteste Seite bezogen auf einen bestimmten Suchbegriff ist.

Google muss zeitliche Kapazitäten sparen

Google muss Inhalte auf zigmillionen neue Domains und URLs neu entdecken und regelmäßig crawlen. Dafür stehen nur begrenzt zeitliche Kapazitäten zur Verfügung. Bietet man Google zu viel internen Duplicate Content an kann es passieren, dass Google das Crawling vorzeitig abbricht und eigentlich wichtige URLs nicht indexiert werden.

Google muss Speicherkapazitäten sparen

Obwohl Google über riesige Speicherkapazitäten verfügt sind diese endlich. So hat Google auch aus diesem Grund kein Interesse Speicher durch irrelevante Informationen wie doppelte Inhalte zu belegen.

Weitere Gefahren von Duplicate Content

I.d.R. wird Google keine Website bzw. URL wegen Duplicate Content bestrafen. Allerdings behält sich Google vor Seiten mit Duplicate Content bei Manipulationsverdacht manuell abzustrafen:

In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor. Infolgedessen werden diese Websites unter Umständen in den Suchergebnissen niedriger eingestuft oder sogar aus dem Google-Index entfernt und damit nicht mehr in den Suchergebnissen angezeigt.

Dennoch sollte Duplicate sowohl extern als auch intern vermieden werden.

Google und die Erkennung von Content-Urheberschaften

Das ist eine Problematik, auf die wir im täglichen SEO-Geschäft immer wieder stoßen. Die Grundfrage lautet hierzu „Wie erkennt Google wer der Urheber von Content ist bzw. wie erkennt Google die Kopie(n) davon?“ Das Wahrscheinlichste ist, dass Google denjenigen als Urheber identifiziert, dessen Content als erstes indexiert wird.

Das kann zu Problemen gerade bei z.B. neueren Websites führen, die der Google Bot seltener besucht, weil diese extern noch nicht so gut verlinkt sind.Wenn andere Websites den Content übernehmen und öfter vom Google Bot besucht werden kann der Effekt sein, dass diese Websites als Orginalquelle gesehen werden und man selbst nur als Kopie. Die Folge, man rankt für den eigenen Content hinter der eigentlichen Kopie. Ärgerlich!

Deswegen sollte man vor dem Bereitstellen von Produktinformationen z.B. für Preisvergleichsprotale per Produktfeed darauf achten, dass die eigenen Inhalte bereits indexiert sind.

Zudem sollte man tunlichst zusehen die eigene Reichweite z.B. über Social Media und die eigene externe Verlinkung zu fördern, damit der Google Bot öfter zu Besuch kommt um neue Inhalte zu indexieren. Und das funktioniert wieder über hochwertigen Content und/oder ein eigenes ausgeprägtes Netzwerk.

Lösungen für Duplicate Content-Probleme

Oberste Prämisse sollte sein wie so oft sein eigenen einzigartigen Content zu schaffen, der die Suchintention des Nutzers befriedigt. Woran erkennt Google das? Einzigartigkeit erkennt Google über automatisierten Abgleich des Contents und der identischen Textanteile untereinander. Hier reicht es nicht einzelne Sätze oder Wörter umzustellen. Ob der Content die Suchintention befriedigt erkennt Google an Nutzer-Signalen wie Aufenthaltsdauer oder Absprungrate.

Für Shops ist es daher wichtig Seiten auf für einzelne Produkte zu schaffen, die z.B. eine eigene Meinung oder Erkenntnisse wiedergeben bzw. mehr Informationen beinhalten als andere Produktbeschreibungen.

Pauschal zu sagen, dass kopierter, gescrapter oder eingespielter Content schlecht ist nicht richtig. Man kann durch eine Sammlung an Content aus unterschiedlichen Quellen dem User durchaus einen Mehrwert bieten, indem man diesen schön aufbereitet und mit eigenen Ansichten und Informationen ergänzt. Dabei würde ich auch nicht pauschal sagen, dass man hier auf mindestens x% einzigartigen Inhalt achten sollte. Dabei hilft es immer den Blickwinkel des Users einzunehmen und sich zu fragen ob der angebotene Inhalt hilft bei der Lösung eines Problems oder Beantwortung einer Frage und zwar besser als bereits existierende Seiten.

Auch pauschal zu sagen Tag-Seiten oder interne Suchergebnisseiten sind Duplicate Content ist falsch. Wenn man es schafft diese mit uniquem Content anzureichern, können diese insbesondere sehr gute Rankings erzielen. T3n macht es vor:

Facebook-Special-News-Tipps-Infos-zu-Facebook

Zur Verwendung von Zitaten und eventuell daraus entstehenden DC-Problemen hat Matt Cutts folgendes gesagt:

Doch wie löst man Duplicate-Content-Probleme technischer Natur, die durch das CMS ausgelöst werden. Um diese zu erkennen helfentweilweise kostenlose Crawler wie z.B. der Screaming SEO Frog oder kostenpflichtige Tools wie MOZ, Onpage.org, Sistrix oder Searchmetrics, die eigene Onpage Crawler anbieten. Analysiert man die Ergebnisse muss man Muster aufdecken, warum und wie das CMS DC erzeugt. Als nächstes muss man beurteilen, ob diese Seiten für den Nutzer eine Hilfe sind, also bestehen bleiben müssen oder nicht notwendig sind. Demnach ergeben sich zwei Lösungsansätze.

Nützlich für den User > Canonical Tag

Mit Hilfe des Canonical Tags referenziert manfür Google Inhalte einer URL auf die Haupt- oder Ursprungsseite des Contents, aber die URLs bleiben für den User weiterhin sichtbar und nutzbar. Google indexieer Mehr dazu hier bei Google

Nicht nützlich für den user > 301 Weiterleitung

301 Weiterleitungen sorgen dafür das Nutzer zur eigentlich wichtigen Seite weitergeleitet werden. Dabei bekommt der User den Inhalt der weitergeleiteten URL nicht mehr angezeigt. Dies kann über die htaccess oder Serverseitige Rewrite regeln eingerichtet werden. Mehr dazu bei Google.

Bei beiden Lösungen werden für das Google-Ranking wichtige Signale wie z.B. Page-Rank ohne Verlust weitergegeben.

Eine weitere Möglichkeit Indexierung von URLs mit doppelten Inhalten auszuschließen ist die Nutzung der Funktion Ausschluss von URL-Parametern über die Google Search Console und der Einsatz des Meta Robot Tags noindex.

Ausschließen von Parameter-URLs über die Google Search Console

Über die Google Search Console kann man Google mitteilen welche URLs mit bestimmten Parametern nicht in den Index aufgenommen werden wollen. Insbesondere wenn schon viele unerwünschte URLs im Index sind, sollte man diese Funktion nutzen, aber immer nur in Verbindung mit den bereits beschriebenen Lösungen.

Eine weitere Möglichkeit ist , das Meta Robots Tag „noindex“ zu nutzen, um Google mitzuteilen eine bestimmte URL nicht zu indexieren.

Googles-Tipps für die Vermeidung von doppelten Inhalten

Folgend Tipps und Lösungen stellt John Mueller in dem unten aufgeführten Video vor:

Erstelle thematisch eindeutige Seiten, die für sich alleine stehen
Achte auf Konsistenz auch bei der internen Verlinkung
Nutze noindex für sonst unlösbare Probleme mit doppelten Inhalten
Bestimmte Arten von Duplicate Content sind normal
Nutze nur eine URL pro Inhalt
Vermeide unnötige URL-Variationen
Nutze die Einstellungen in der Search Console (Bevorzugte Domain, URL-Parameter-Handling … )
Nutze Geotargeting und hreflang, wenn angebracht
Syndizieren Sie sorgfältig
Minimieren von wiederkehrenden Textbausteinen
Vermeidung der Indexierung von Platzhalter-Seiten bzw. Seiten ohne Inhalt
Minimieren von ähnlichen Inhalten durch z.B. Zusammenführung auf einer URL

Mehr dazu in der Google Hilfe

Nicht empfehlenswert Lösungen für die Beseitigung von Duplicate Content

Google empfiehlt folgende Lösungen nicht für die Beseitigung von Duplicate Content zu nutzen:

Robots.txt: Google empfiehlt ausdrücklich nicht die Nutzung der robots.txt um doppelte Inhalte auszuschließen, da dadurch Google selbst keine Möglichkeit bekommt sich einen Überblick zu verschaffen.
Schreibe Content nicht einfach nur um, um doppelte Inhalte zu vermeiden. Das ist spammy!
Nutze nicht das URL-Removal-Tool. Das führt nur dazu, dass die URL nicht mehr in den Suchergebnissen auftaucht.

Duplicate Content muss in den Griff bekommen werden

Obwohl Google gerne beteuert, dass Duplicate Content in den meisten Fällen kein Grund für Abstrafung ist, generell zu sagen, dass das Handling von Duplicate Content Problemen ein sehr wichtiger Bestandteil der SEO-Arbeit ist, um es Google einfacher zu machen Inhalte richtig zu bewerten bzw. die gewünschten Signale zu geben. Dann kann es auch nicht zu Missverständnissen zwischen uns und dem Algo kommen und die Harmonie ist gewahrt 🙂

Häufige Fragen zum Thema Duplicate Content

Hier werde ich zu Fragen von Lesern zum Thema Duplicate Content eingehen. Dieser Teil wird stetig aktualisiert.

Ist Duplicate Content wirklich schlecht für SEO?

Doppelte Inhalte verwirren Google und zwingen Suchmaschinen zu entscheiden, welche der identischen oder ähnlichen Inhalte sie in den Suchergebnissen platzieren sollen. Als SEO und Webmaster sollte man deshalb auch bei Inhalten auf Konsistenz achten.

Wie prüft man ob Duplicate Content vorliegt?

Nutze Google zur Suche nach Duplicate Content. Eine schnelle Möglichkeit, um zu überprüfen, ob eine Seite als Duplikat angesehen werden kann, besteht darin, einige Wörter vom Anfang eines Satzes oder einen kompletten Satz zu kopieren und sie dann mit Anführungszeichen in Google einzufügen. Dies ist die von Google empfohlene Methode zur Überprüfung von Duplicate Content.

Wie kann man Duplicate Content verhindern?

In den meisten Fällen ist das rel=canonical-Tag der beste Weg, um Duplicate Content zu verhindern. Wenn es nicht gewünscht ist, dass das Duplikat des Inhalts erhalten bleibt sollte man eine 301-Weiterleitung nutzen.

Weitere Informationsquellen zum Thema Duplicate Content

In dem folgenden Video geht John Mueller von Google in einer Präsentation und auf Fragen von Webmastern auf das Thema doppelte Inhalte ein: