• Tel.: 0511-92399944

Duplicate Content: Definition und Lösungen für doppelte Inhalte

06.Juni 2016 - SEO (Suchmaschinenoptimierung) - Olaf Kopp

Duplicate Content kurz DC zu deutsch Doppelte Inhalte oder Duplizierter Content ist eines der SEO-Hauptprobleme vieler Websites. Im folgenden Beitrag gehe ich auf verschiedene Formen von Duplicate Content, Beispiele und Lösungsansätze für doppelte Inhalte ein.

duplicate-content

Was ist Duplicate Content?

Von Duplicate Content spricht man wenn identische oder sehr ähnliche Inhalte auf unterschiedlichen URLs oder Domains auffindbar sind.

Die Vermeidung von Duplicate Content ist eine der Hauptaufgaben eines SEOs in der täglichen Arbeit.  Bei Texten unterscheidet man zwischen exakt doppelten Inhalten und nahezu doppelten bzw. ähnlichen Inhalten (Near Duplicate Content), Mehr dazu hier

Laut John Mueller von Google sind folgende Fälle typische Arten von duplizierten Inhalten:

  • Exakt gleicher Inhalt oder große Teile gleichen Inhalts
  • Inhalte sind über mehrer Domains, Subdomains bzw. URls erreichbar (www / non-www / http / https / index.html / ?utm= …)
  • verschiedene mobilfreundliche URLs, Druckerfreundliche URLs, CDN–Anbieter …
  • Tage-Seiten, Pressemitteilungen Syndizierte Inhalte, Identische Seitentitel und Descriptions …

Google sieht folgende Inhalte nicht als Duplicate Content an:

  • Übersetzungen
  • Unterschiedliche Seiten mit gleichem Seitentitel und Descriptions
  • Content in Apps
  • Regionale Inhalte … manchmal

Mehr dazu im Webmaster Hangout Video von John Mueller am Ende dieses Beitrags.

Was ist Interner Duplicate Content?

Interner Duplicate Content sind sehr ähnliche oder identische Inhalte innerhalb einer Domains. Diese Art des Duplicate Contents wird oft durch die Art und Weise wie Content-Management-Systeme Inhalte strukturieren und auf URLs verteilen geschaffen. Also hat einen technischen Hintergrund. Besonders Shopsysteme aber auch Redaktions-CMS sind hier besonders anfällig. Hier einige Beispiele für Duplicate-Content-Quellen:

  • Tag-Übersichtseiten
  • Filter-Übersichtsseiten
  • interne Suchergebnisseiten
  • Kategorie-Seiten
  • Produkteinzelseiten, wenn sie unterschiedlichen Kategorien zugeordnet sind
  • Beiträge, wenn sie unterschiedlichen Kategorien zugeordnet sind
  • Pagination (mehr dazu hier oder im folgenden Video)

Laut Google scheint diese Art von duplizierten Inhalten i.d.R. kein großes Problem zu sein. Die Betonung liegt auf „scheint“. Wir sehen immer wieder, dass es sinnvoll ist Google auch bei der Priorisierung von URLs zu unterstützen und auch interne doppelte Inhalte aktiv zu vermeiden.

Was ist Externer Duplicate Content?

Externer Duplicate Content bedeutet sehr ähnliche oder identische Inhalte auf unterschiedlichen Domains. Diese Art von Duplizierten Inhalten scheint für Google das größere Problem zu sein als interner Duplicate Content. Beispiele dafür sind z.B.

  • Übernahme von Hersteller-Artikel-Beschreibungen
  • Content-Diebstahl
  • Content-Scraping (mehr dazu hier)
  • Content-Einspielung über RSS-Feeds
  • Verbreitung von Pressemitteilungen
  • Nutzung von Inhalten über Affiliate-Seiten
Identische Inhalte auf unterschiedlichen TLDs (Top Level Domains) für z.B. unterschiedliche Länder scheint laut Matt Cutts kein Problem für Google zu sein.

Um Duplicate Content Probleme zu vermeiden, die durch identische Inhalte auf mobilen Landingpages enstehen können, rät Cutts dazu die unterschiedlichen Google BotsGoogle Bot mobile“  die mobile Seite auszuliefern und dem Standard Google Bot die normale Seite auszuliefern.

Ein Sonderfall sind Inhalte, wie z.B. Produktinformationen, die per RSS Feed eingespielt werden. Diese Inhalte sind nicht eigene Inhalte und tauchen i.d.R. auf einer Vielzahl anderer Seiten auf. Das reine Scrapen und einspielen von fremden Inhalten bieten dem User keinen Mehrwert.

Wie identifiziert Google doppelte Inhalte?

Google identifziert und filtert doppelte Inhalte technisch gesehen an drei Punkten des Crawling- und Indexierungs-Prozess.

  • Beim Scheduling
  • Bei der Indexierung
  • in den Suchergebnissen
duplicate-content-google

Quelle: Crawling- und Indexierungs-Prozess / Google

Bestraft Google doppelte Inhalte mit Penalties?

In den meisten Fällen bestraft Google doppelte Inhalte nicht mit einem Penalty. Für internen Duplicate Content gibt es keine Penalties. Es gibt einige Fälle bei externen Duplicate Content bei denen Google Penalties ausspricht:

Warum mag Google keinen Duplicate Content?

Google möchte laut eigener Aussage vermeiden duplizierte Inhalte mehrfach zu indexieren und in den Suchergebnissen anzuzeigen:

Google ist sehr darum bemüht, Seiten mit unterschiedlichen Informationen zu indizieren und anzuzeigen.

Dabei wird mit dem Ziel dem User Mehrwert zu bringen argumentiert.  Dieser Argumentation folgt Google immer gerne. Aber es gibt noch einige andere Gründe:

 

URL-Bewertung pro Suchanfrage wird erschwert

UnbenanntWenn Google mehrere URLs mit identischen Inhalt indexiert macht man es dem Algorithmus nicht unbedingt einfacher die thematische Nähe zum eingegebenen Suchbegriff herzustellen. Sprich es kann insbesondere bei internem Near Duplicate Content passieren, dass Keyword Kannibalisierung stattfindet. Google schreibt zwar:

Falls Ihre Website beispielsweise eine „normale“ und eine Druckversion jedes Artikels enthält und keine dieser Versionen durch ein noindex-Meta-Tag blockiert wird, bedeutet diese Filterung, dass wir eine von ihnen für die Auflistung auswählen.

Dennoch glaube ich, dass wenn man Google nicht eindeutig präsentiert welche der URLs nun die mehrwertigste für eine Suchanfrage ist es zu Problemen bei der eindeutigen Zuordnung kommen kann. Abgesehen davon, dass Google eventuell die für den User schlechtere Seite auswählt,  dadurch  die User-Signale schlechter sind und dadurch wieder das Ranking leidet.

Auch doppelte Seitentitel oder auch Snippets geben Google keine klaren Signale darüber welche URL denn nun die relevanteste Seite bezogen auf einen bestimmten Suchbegriff ist.

Google muss zeitliche Kapazitäten sparen

Google muss Inhalte auf zigmillionen neue Domains und URLs neu entdecken und regelmäßig crawlen. Dafür stehen nur begrenzt zeitliche Kapazitäten zur Verfügung. Bietet man Google zu viel internen Duplicate Content an kann es passieren, dass Google das Crawling vorzeitig abbricht und eigentlich wichtige URLs nicht indexiert werden.

Google muss Speicherkapazitäten sparen

Obwohl Google über riesige Speicherkapazitäten verfügt sind diese endlich. So hat Google auch aus diesem Grund kein Interesse Speicher durch irrelevante Informationen wie doppelte Inhalte zu belegen.

 

Weitere Gefahren von Duplicate Content

 

I.d.R. wird Google keine Website bzw. URL wegen Duplicate Content bestrafen. Allerdings behält sich Google vor Seiten mit Duplicate Content bei Manipulationsverdacht manuell abzustrafen:

In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor. Infolgedessen werden diese Websites unter Umständen in den Suchergebnissen niedriger eingestuft oder sogar aus dem Google-Index entfernt und damit nicht mehr in den Suchergebnissen angezeigt.

Dennoch sollte Duplicate sowohl extern als auch intern vermieden werden.

 

Google und die Erkennung von Content-Urheberschaften

 

Das ist eine Problematik, auf die wir im täglichen SEO-Geschäft immer wieder stoßen. Die Grundfrage lautet hierzu „Wie erkennt Google wer der Urheber von Content ist bzw. wie erkennt Google die Kopie(n) davon?“ Das Wahrscheinlichste ist, dass Google denjenigen als Urheber identifiziert, dessen Content als erstes indexiert wird.

Das kann zu Problemen gerade bei z.B. neueren Websites führen, die der Google Bot seltener besucht, weil diese extern noch nicht so gut verlinkt sind.Wenn andere Websites den Content übernehmen und öfter vom Google Bot besucht werden kann der Effekt sein, dass diese Websites als Orginalquelle gesehen werden und man selbst nur als Kopie. Die Folge, man rankt für den eigenen Content hinter der eigentlichen Kopie. Ärgerlich!

Deswegen sollte man vor dem Bereitstellen von Produktinformationen z.B. für Preisvergleichsprotale per Produktfeed darauf achten, dass die eigenen Inhalte bereits indexiert sind.

Zudem sollte man tunlichst zusehen die eigene Reichweite z.B. über Social Media und die eigene externe Verlinkung zu fördern, damit der Google Bot öfter zu Besuch kommt um neue Inhalte zu indexieren. Und das funktioniert wieder über hochwertigen Content und/oder ein eigenes ausgeprägtes Netzwerk.

 

Lösungen für Duplicate Content-Probleme

Oberste Prämisse sollte sein wie so oft sein eigenen einzigartigen Content zu schaffen, der die Suchintention des Nutzers befriedigt. Woran erkennt Google das? Einzigartigkeit erkennt Google über automatisierten Abgleich des Contents und der identischen Textanteile untereinander. Hier reicht es nicht einzelne Sätze oder Wörter umzustellen. Ob der Content die Suchintention befriedigt erkennt Google an Nutzer-Signalen wie Aufenthaltsdauer oder Absprungrate.

Für Shops ist es daher wichtig Seiten auf für einzelne Produkte zu schaffen, die z.B. eine eigene Meinung oder Erkenntnisse wiedergeben bzw. mehr Informationen beinhalten als andere Produktbeschreibungen.

Pauschal zu sagen, dass kopierter, gescrapter oder eingespielter Content schlecht ist nicht richtig. Man kann durch eine Sammlung an Content aus unterschiedlichen Quellen dem User durachaus einen Mehrwert bieten, indem man diesen schön aufbereitet und mit eigenen Ansichten und Informationen ergänzt. Dabei würde ich auch nicht pauschal sagen, dass man hier auf mindestens x% einzigartigen Inhalt achten sollte. Dabei hilft es immer den Blickwinkel des Users einzunehmen und sich zu fragen ob der angebotene Inhalt hilft bei der Lösung eines Problems oder Beantwortung einer Frage und zwar besser als bereits existierende Seiten.

Auch pauschal zu sagen Tag-Seiten oder interne Suchergebnisseiten sind Duplicate Content ist falsch. Wenn man es schafft diese mit uniquem Content anzureichern, können diese insbesondere sehr gute Rankings erzielen. T3n macht es vor:

Facebook Special News Tipps Infos zu Facebook

 

Zur Verwendung von Zitaten und eventuell daraus entstehenden DC-Problemen hat Matt Cutts folgendes gesagt:

Doch wie löst man Duplicate-Content-Probleme technischer Natur, die durch das CMS ausgelöst werden. Um diese zu erkennen helfentweilweise  kostenlose Crawler wie z.B. der Screaming SEO Frog oder kostenpflichtige Tools wie MOZ, Onpage.org, Sistrix oder Searchmetrics, die eigene Onpage Crawler anbieten. Analysiert man die Ergebnisse muss man Muster aufdecken, warum und wie das CMS DC erzeugt. Als nächstes muss man beurteilen, ob diese Seiten für den Nutzer eine Hilfe sind, also bestehen bleiben müssen oder nicht notwendig sind. Demnach ergeben sich zwei Lösungsansätze.

 

Nützlich für den User > Canonical Tag

Mit Hilfe des Canonical Tags referenziert manfür  Google Inhalte einer URL auf die Haupt- oder Ursprungsseite des Contents, aber die URLs bleiben für den User weiterhin sichtbar und nutzbar. Google indexieer Mehr dazu hier bei Google

Nicht nützlich für den user > 301 Weiterleitung

301 Weiterleitungen sorgen dafür das Nutzer zur eigentlich wichtigen Seite weitergeleitet werden. Dabei bekommt der User den Inhalt der weitergeleiteten URL nicht mehr angezeigt. Dies kann über die htaccess oder Serverseitige Rewrite regeln eingerichtet werden. Mehr dazu bei Google.

 

Bei beiden Lösungen werden für das Google-Ranking wichtige Signale wie z.B. Page-Rank ohne Verlust weitergegeben.

Eine weitere Möglichkeit Indexierung von URLs mit doppelten Inhalten auszuschließen ist die Nutzung der Funktion Ausschluss von URL-Parametern über die Google Search Console und der Einsatz des Meta Robot Tags noindex.

WMT

Ausschließen von Parameter-URLs über die Google Search Console

Über die Google Search Console kann man Google mitteilen welche URLs mit bestimmten Parametern nicht in den Index aufgenommen werden wollen. Insbesondere wenn schon viele unerwünschte URLs im Index sind, sollte man diese Funktion nutzen, aber immer nur in Verbindung mit den bereits beschriebenen Lösungen.

Eine weitere Möglichkeit ist , das Meta Robots Tag „noindex“ zu nutzen, um Google mitzuteilen eine bestimmte URL nicht zu indexieren.

Googles-Tipps für die Vermeidung von doppelten Inhalten

Folgend Tipps und Lösungen stellt John Mueller in dem unten aufgeführten Video vor:

  • Erstelle thematisch eindeutige Seiten, die für sich alleine stehen
  • Achte auf Konsistenz auch bei der internen Verlinkung
  • Nutze noindex für sonst unlösbare Probleme mit doppelten Inhalten
  • Bestimmte Arten von Duplicate Content sind normal
  • Nutze nur eine URL pro Inhalt
  • Vermeide unnötige URL-Variationen
  • Nutze die Einstellungen in der Search Console (Bevorzugte Domain, URL-Parameter-Handling … )
  • Nutze Geotargeting und hreflang, wenn angebracht
  • Syndizieren Sie sorgfältig
  • Minimieren von wiederkehrenden Textbausteinen
  • Vermeidung der Indexierung von Platzhalter-Seiten bzw. Seiten ohne Inhalt
  • Minimieren von ähnlichen Inhalten durch z.B. Zusammenführung auf einer URL

Mehr dazu in der Google Hilfe

 

Nicht empfehlenswert Lösungen für die Beseitigung von Duplicate Content

Google empfiehlt folgende Lösungen nicht für die Beseitigung von Duplicate Content zu nutzen:

  • Robots.txt: Google empfiehlt ausdrücklich nicht die Nutzung der robots.txt um doppelte Inhalte auszuschließen, da dadurch Google selbst keine Möglichkeit bekommt sich einen Überblick zu verschaffen.
  • Schreibe Content nicht einfach nur um, um doppelte Inhalte zu vermeiden. Das ist spammy!
  • Nutze nicht das URL-Removal-Tool. Das führt nur dazu, dass die URL nicht mehr in den Suchergebnissen auftaucht.

 

Duplicate Content muss in den Griff bekommen werden

Obwohl Google gerne beteuert, dass Duplicate Content in den meisten Fällen kein Grund für Abstrafung ist, generell zu sagen, dass das Handling von Duplicate Content Problemen ein sehr wichtiger Bestandteil der SEO-Arbeit ist, um es Google einfacher zu machen Inhalte richtig zu bewerten bzw. die gewünschten Signale zu geben. Dann kann es auch nicht zu Missverständnissen zwischen uns und dem Algo kommen und die Harmonie ist gewahrt 🙂

 

Please leave this field empty.

 

Weitere Informationsquellen zum Thema Duplicate Content

In dem folgenden Video geht John Mueller von Google in einer Präsentation und auf Fragen von Webmastern auf das Thema doppelte Inhalte ein:

Duplicate Content bei Google vermeiden

4 Free Duplicate Content Checker Tools

Duplicate Content nur ein SEO-Gespenst?

Duplicate Content: Definition und Lösungen für doppelte Inhalte
4 (80%) 2 votes

Zu Olaf Kopp

Olaf Kopp ist Co-Founder, Gesellschafter und Head of SEO & PPC der Aufgesang Inbound Marketing GmbH. Er blickt auf drei Jahre Erfahrung als Geschäftsführer der Online-Marketing-Unit der Aufgesang Agenturgruppe zurück.Er ist begeisterter Suchmaschinen- und Content-Marketer. Als Blogger schreibt er für diverse Fachmagazine, u.a. t3n, WebsiteBoosting, suchradar, Hubspot … Zudem engagiert sich Olaf Kopp als Dozent und Speaker für SEO, Google-Analytics und Content Marketing in Bildungseinrichtungen wie z.B. der Hochschule Hannover, Norddeutschen Akademie und IHK Hannover. Er ist Autor des E-Books “AdWords- Optimierung” und Mitveranstalter des SEAcamps in Jena. Olaf schloss 2006 sein BWL-Studium mit Schwerpunkt Marketing und E-Business als Diplom Kaufmann (FH) ab und beschäftigt sich seit 2005 mit Social Media Marketing, Google AdWords sowie SEO. Seit 2012 stehen digitales Branding, Content- und Inbound-Marketing im Fokus seines Interesses.
Opt In Image
Jetzt in unseren Newsletter eintragen!
SEO-, Content- & Online-Marketing-Thought-Leadership bequem per Mail

Folgendes sind Deine Vorteile:

  • Online-Marketing-Thougt-Leadership von Experten aus dem Hause Aufgesang & ausgewählten Gastautoren
  • Keine aufdringlichen Vertriebs-Mails

3 Antworten zu “Duplicate Content: Definition und Lösungen für doppelte Inhalte”

  1. Markus sagt:

    Hier hat übrigens jemand ein neues Tool vorgestellt, das anscheinend sehr zuverlässig doppelte Inhalte findet. Angeblich mehr als die gängigen Programme.

    https://www.abakus-internet-marketing.de/foren/viewtopic/t-134611.html

  2. […] Nein, werden Sie nicht! Eher das Gegenteil. Gleicher Text ist Duplicate Content (DC im Detail auch hier erklärt) und wird nicht nur von Google nicht honoriert. Aber man findet den Text doch? Eventuell schon […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Rechtliches

Wissenswertes

Kernkompetenzen

Wir betreuen Kunden aus:

Berlin, Hamburg, München, Aachen, Köln, Frankfurt am Main, Stuttgart, Dortmund, Düsseldorf, Frankfurt, Bremen, Hannover, Leipzig, Dresden, Münster, Nürnberg, Duisburg, Bochum, Wuppertal, Bielefeld, Bonn, Neustadt, Göttingen, Braunschweig, Wolfsburg, Kassel, Duisburg, Paderborn, Karlsruhe, Essen, Hameln, Hildesheim, Kiel, Lüneburg, Ruhrgebiet, Bielefeld, Flensburg, Magdeburg und Mannheim.
×

Folge Jetzt einem der Top-Online-Marketing-Blogs!

Der Aufgesang Blog wurde u.a. vom Search Engine Journal, t3n und onlinemarketing.de zu den besten deutschen Online Marketing Blogs prämiert. Bleib am Puls der Zeit und folge uns bei Twitter, Facebook und Google+ oder trage Dich in unseren Quartals-Newsletter ein.