Es gibt viele Gründe, warum eine Webseite nicht so performt, wie sie sollte. Einer davon kann Duplicate Content sein. Diese doppelten Inhalte führen – anders als viele glauben – nicht zu einer automatischen Abwertung. Das ist für das Verständnis ganz wichtig. Aber: Duplicate Content ist ein Problem, das bei der Suchmaschinenoptimierung unbedingt beseitigt werden sollte. In diesem Artikel verrate ich, warum das so ist.
Der Begriff: Was ist Duplicate Content in der Suchmaschinenoptimierung
Das Wort beschreibt wie in der deutschen Übersetzung: doppelten Inhalt. Besser gesagt: mehrfachen Inhalt. Denn auch eine multiple Wiederholung ist möglich. Damit ist gemeint, dass wesentliche Teile des Hauptinhalts einer Seite auf einer anderen Seite ebenfalls vorkommen. Dabei helfen folgende Aspekte, um das Problem zu verstehen:
- Doppelte Inhalte können auch ähnlich klingende Passagen sein (near Duplicate Content).
- Doppelte Inhalte sind größere Textabschnitte oder identische Inhalte von Einzelseiten – und zwar im Hauptinhalt. Es ist dagegen völlig unerheblich, ob beispielsweise ein Block in der Sidebar oder im Footer sich wiederholt. Wenige Ausnahmen sind selten. Aber: Wann Google oder eine andere Suchmaschine einen ähnlichen oder identischen Teil des Inhalts bereits als mehrfach vorhanden ansieht, ist unklar. Einige Experten sprechen davon, dass eine Quote von etwa zwei Dritteln Übereinstimmung unproblematisch sei. Ich sehe das als zu optimistisch an, um wirklich sicher vor den Folgen sein zu können.
- SEO-Tools sind häufig ungenau und verschiedene Tools bringen unterschiedliche Ergebnisse. Es ist daher bedeutend, mit Sachverstand an die Beurteilung von identischen Passagen zu gehen. Denn es gibt eben keine offizielle und klare Grenze, ab wann ein Inhalt eigenständig genug ist.
- Duplicate Content ist ein Problem auf der eigenen Seite (interner Duplicate Content) oder kann auf externen Seiten existieren, wenn zum Beispiel ein Dritter die eigene Seite kopiert oder eine Pressemitteilung breit gestreut wird (externer Duplicate Content). Beides erfordert eine andere Herangehensweise bei der Problemlösung.
- Duplicate Content auf der eigenen Seite ist meistens technisch bedingt und führt zu identischen Inhalten, die über verschiedene URLs erreicht werden können (zum Beispiel über die URL mit und ohne abschließenden Schrägstrich).
Warum ist Duplicate Content überhaupt ein Problem?
Duplicate Content ist ein mehrschichtiges Phänomen. Für Suchmaschinen ist es äußerst ärgerlich, wenn der Crawler immer wieder neue Seiten findet, die aber keine eigenen Inhalte bieten. Dadurch wird das Crawling der Suchmaschinen stark ausgebremst. Effekt für die Praxis: Die wichtigen Inhalte und neuen Seiten werden verzögert gefunden. Das ist angesicht von vielen Millionen Webseiten allein in Deutschland, die auf Crawling warten, weder im Interesse der Suchmaschinen noch in dem der Webseitenbetreiber. Zugleich hat speziell Google als klarer Marktführer kein Interesse daran, Usern identische Inhalte in der Suche zu zeigen.
Was passiert bei Duplicate Content?
Und genau an dem Punkt wird es für Webseitenbetreiber interessant. Denn das hat Folgen. Ich fasse die wichtigsten fünf Aspekte zusammen.
Folge 1: Die erste Quelle ist das Original
Wenn Google eine fremde Webseite oder eine interne Dopplung zuerst crawlt, hält die Suchmaschine dieses Fundstück für ein Original. Dadurch kann plötzlich die eigentliche Originalseite, von der das Fundstück eine Kopie oder ein Plagiat ist, nicht als solche erkannt werden. Im Gegenteil: Diese Seite wird als Duplicate Content eingestuft und häufig nicht einmal indexiert. Es spielen weitere Faktoren wie die Domain-Authority hinein, aber grundsätzlich kann das zu einem echten Problem für die Originalseite werden.
Folge 2: Es rankt die falsche Seite
Das zweite Problem ist ein unmittelbares Resultat aus dem ersten. Denn die Originalseite rankt nicht. Dafür aber eine ungewünschte Kopie von der eigenen Webseite oder gar eine fremde Seite, die identischen Inhalt hat (zum Beispiel Plagiate). Trotz aller Bemühungen kann ein solches Problem folglich dazu führen, dass ein wichtiger Inhalt der eigenen Webseite nicht in der Suche erscheint und vor allem stattdessen eine falsche Seite mit ähnlichem Inhalt rankt.
Folge 3: interner Keyword-Kannibalismus
Ein weiteres Problem für die eigene Webseite ist der sogenannte Keyword-Kannibalismus. Findet Google zwei Seiten mit nahezu identischem Inhalt auf einer Domain, weiß die Suchmaschine nicht, welche Seite relevant für eine Suchanfrage sein soll. In der Folge wird bestenfalls die falsche, schlimmstenfalls gar keine gut platziert sein.
Folge 4: Inhalte sind nicht hilfreich oder fallen dem Panda zum Opfer
Das nächste Problem von internem Duplicate Content ist, dass der mehrfach vorhandene Inhalt wenig hilfreich ist. Sowohl die Helpful-Cpontent-Updates als auch der Panda-Algorithmus können in diesem Fall zu Rankingnachteilen führen. Während der Panda auf Einzelseiten wirkt, haben Dopplungen durch das Helpful-Content-Update Nachteile für die gesamte Webseite. Rankings können in der Breite zurückgehen.
Achtung: Je mehr Seiten nicht hilfreich sind, desto stärker wird Google zusätzlich das Crawling der Seite bremsen. Dadurch finden neue und relevante Themen nicht so schnell den Weg in den Index. Ich rate daher, neben einer technsichen Analyse auch inhaltlich immer wieder nachzuarbeiten.
Folge 5: Deindexieren von (vermuteten) Plagiaten
Eine weitere Konsequenz ist für ernsthaft betriebene Webseiten eher ein Vorteil. Denn Google deindexiert auch gern mal ganze Projekte, wenn es sich um gespiegelte Seiten oder Webseiten nur aus gescrapten Inhalten handelt. Das betrifft häufig richtig üble Plagiate, die der eigenen Webseite das Leben schwer machen. Aber: Wenn das eigene Projekt sehr schwach und schlecht gemacht ist, kann bei gut gemachten Kopien selten auch das falsche Projekt aus dem Index fliegen … Allerdings muss sich der Verantwortliche dann schon sehr „bemüht“ haben, eine schlechte Seite zu erstellen.
Also: Es ist ein Problem!
Diese vielschichtigen Folgen zeigen meiner Meinung nach deutlich: Duplicate Content ist ein echtes Problem. Allerdings eben nicht durch eine automatische Bestrafung, wie viele glauben. Es gibt keinen sogenannten Penalty! Das hat Google immer wieder klargestellt.
Aber die genannten Folgen sind ernsthaft genug, um doppelten Inhalt als Problem zu erkennen und dagegen vorzugehen. Denn auf Dauer leiden erst das Ranking und dann der Umsatz darunter.
Lösung Schritt 1: Duplicate Content finden
Um das Problem überhaupt beseitigen zu können, muss sich ein Webseitenbetreiber zunächst darüber im Klaren sein, dass es überhaupt existiert. Dabei sind zwei Szenarien zu unterscheiden.
- Externer Duplicate Content lässt sich meistens nur mit Plagiatsschutz-Software aufspüren. Typische Programme sind Copyscape und PlagAware. Selten sind –zumindest nicht ohne Aufwand – passende Treffer über die Google-Suche zu entdecken. Wichtig: Nicht immer handelt es sich um eine ungewünschte Kopie. Mitunter ist eine solche Dopplung sogar gewünscht wie zum Beispiel bei Produktbeschreibungen von Herstellern.
- Interner Duplicate Content lässt sich über SEO-Tools entdecken. Technisch bedingte Dopplungen fallen zum Beispiel beim Scannen mit Tools wie Screaming Frog auf. Eine gute Site-Audit-Software wird ebenfalls auf das Problem hinweisen. Indizien bietet auch die kostenlos nutzbare Google Search Console. Häufen sich dort Indexierungsprobleme, ist das Prüfen der Ursachen sinnvoll – das kann auch Duplicate Content sein.
Lösung Schritt 2: Duplicate Content beseitigen und vermeiden
Nachdem die Quelle ausgemacht ist, folgt das Beseitigen. Auch dabei gibt es wieder zwei grundverschiedene Vorgehensweisen für externe und interne Dopplungen.
Externen Duplicate Content beseitigen
Es gibt viele verschiedene Wege, wie Dopplungen auf Webseiten Dritter entstehen. Neben den bereits erwähnten Pressemitteilungen kann es sich zum Beispiel um breit veröffentlichte Produktdaten eines Herstellers handeln, um eingebundene RSS-Feeds oder um schlecht produzierten Content, der abgeschrieben oder nur moderat umgeschrieben oder gespinnt ist. Auch KI-Texte können bei schlechtem Prompt und schwacher Nachbearbeitung sehr nahe an anderen Texten sein. Ebenfalls gehören Doorway-Seiten dazu. Besonders ärgerlich ist ein Plagiat der ganzen Webseite.
Die Lösung ist, einerseits bereits beim Erstellen des Contents auf große Eigenständigkeit zu achten. Dazu gehören gut formulierte Texte, Mediendateien und Zusatzinhalte. Tauchen Duplikate auf, kann es sinnvoll sein, die eigenen Inhalte deutlich zu überarbeiten. Das schafft genug Eigenständigkeit.
Andererseits lässt sich manche Kopie im Netz nur mit rechtlichen Mitteln oder gar nicht bekämpfen. Das gilt besonders für Plagiate, deren Herkunft unklar ist, weil die Seiten kein Impressum (oder ein gefälschtes) haben. Leider bietet auch Google keine Hilfe dazu an. Ich weiß, es ist hart, aber dagegen lässt sich nur selten etwas unternehmen.
Internen Duplicate Content beseitigen
Deutlich einfacher lassen sich interne Duplikate beseitigen. Dazu muss man jedoch zwischen inhaltlichen und technisch bedingten Dopplungen unterscheiden.
Die inhaltlichen Dopplungen lassen sich in der Regel durch eine Nachbearbeitung beseitigen. Das kann mal die berüchtigte Boiler Plate (sich wiederholender Textblock) sein, aber meistens ist es eine Produktbeschreibung, die sich annähernd identisch auf verschiedenen Seiten befindet oder paginierte Kategorien ohne eigenen Inhalt. Durch mehr und individuellen Content kann sich das Problem in Luft auflösen.
Technisch bedingte Dopplungen vermeiden
Technisch bedingte Duplikate sind viel häufiger und verstecken sich immer wieder sehr gut im System. Durch korrektes Einstellen der technischen Umgebung der Webseite lassen sich viele Probleme bereits im Vorfeld verhindern. Sollten dennoch Dopplungen auftauchen, ist je nach Situation eine andere Vorgehensweise erforderlich.
Typisch sind mehrere URLs für eine Einzelseite (mit und ohne Trailing-Slash, mit und ohne www, mit und ohne https sowie Parameter-URLs). In solchen Fällen schafft ein Canonical-Tag Abhilfe. Ebenfalls gehört ein gutes Redirect-Management (301-Redirect in der .htacces-Datei) zur Optimierung der Webseite, sodass die meisten Dopplungen gar nicht erst entstehen. Auch für eine eine Paginierung empfehle ich einen Canonical auf die erste Seite. Denn dieser Tag zeigt Suchmaschinen die Seite an, die das Original ist. Auf diese Weise rankt nur eine der Seiten und die Duplikate werden vernachlässigt. Wichtig in diesem Fall: Die internen Links sollten stets auf das Original leiten.
Ein besonderes Feld sind mehrsprachige Seiten. Diese erzeugen ebenfalls doppelte Inhalte, wenn sie sich an verschiedene Zielgrippen wie Deutschland, Österreich und Schweiz oder USA, England und Australien richten. In diesem Fall hilft ein korrekt gesetzter hreflang-Tag, Dopplungen zu verhindern.
Gewollte doppelte Inhalte wie Druckversionen oder pdf-Erzeugnisse der Seitenansicht sollten auf noindex gesetzt werden. Sinnvoll kann es sein, diese sogar über die robots.txt-Datei vom Crawling auszuschließen. Das verhindert, dass Suchmaschinen die Seiten überhaupt besuchen.
Ein noindex-Befehl oder eine Disallow-Anweisung in der robots.txt ist auch sinnvoll, um Schlagwortübersichten, Archive oder Suchergebnisse von der Suche auszuschließen. Gleiches gilt für Testumgebungen. Es gibt noch weitere Szenarien, das sind aber aus meiner Sicht die typischen Fälle, bei denen Duplikate entstehen.
Tipp: Inhalt regelmäßig prüfen!
In diesem Text habe ich die verschiedenen Facetten als erste Übersicht beleuchtet, die doppelter Inhalt haben kann. Jedes Problem hat seine eigene Ursache, aber auch immer eine besondere Lösung. Es ist hilfreich, den gesamten Content der eigenen Webseite immer wieder zu analysieren und auf Duplicate Content zu prüfen.
Während externe Duplikate eine Seite allenfalls besser als die eigene ranken lassen, können interne Dopplungen das Gesamtranking einer Seite negativ beeinflussen. Schlimmstenfalls wird sich keine Seite weit vorn platzieren und Crawler besuchen neue Seiten gar nicht mehr. Die Folge ist klar: weniger Traffic, weniger Abschlüsse, weniger Umsätze.
Ich empfehle daher ein regelmäßiges Content-Audit oder fortlaufendes Site-Audit. Durch eine Analyse können Sie solche Probleme schnell ausfindig machen und durch geeignete Gegenmaßnahmen wie eine Content-Optimierung oder technische Einstellungen beheben.