odoxa

29.06.2009
Neue Alpha Version a0.8.0 erschienen.


User


english german

previous back next

Duplicate Content Analyse

Die Analyse Duplicate Content ist standardmäßig aktiviert, da sie ressourcensparend arbeitet und die Performance des Crawl-Vorgangs kaum beeinflusst. Während eines Durchlaufs über eine Website, berechnet die DC-Analyse für jede Unterseite eine Checksumme, die einen Vergleich der Inhalte zweier Seiten ermöglicht. sitemax dc screenshot Seiten mit identischem Inhalt haben die gleiche Checksumme und werden als Duplikate gekennzeichnet. Dabei wird nur der Body des HTML-Dokuments berücksichtigt; Unterschiede im Head der Seite führen nicht zu unterschiedlichen Checksummen. Die Duplicate Content Analyse ermöglicht damit das Aufspüren von Problemen, wie sie durch mangelhaft konfigurierte CMS oder Servereinstellungen auftreten können. Sie ist in erster Linie dafür geeignet Inhalte ausfindig zu machen, die unter mehreren URL erreichbar sind.

Werden zwei oder mehr Seiten mit identischer Checksumme erkannt, werden diese in der Liste farbig in den Spalten Checksum und Duplicates markiert. Die Spalte Duplicates gibt die Anzahl der Seiten an, die die gleiche Checksumme aufweisen wie die der jeweiligen Spalte. Die Gesamtanzahl der Duplikate ist also um eins größer, als die dort angegebene Zahl. Im Detail Dialog, der durch einen Doppelklick in die Zeile aufgerufen werden kann, können weitere Informationen zur DC Analyse abgerufen werden.

Canonical URL

Die DC-Analyse wertet den Canonical URL link-Tag aus und gibt im Fall von fehlerhaft gesetzten Links eine Warnungen aus. Andererseits erkennt SITEmax innerhalb einer Gruppe von Duplikaten einen korrekt gesetzten Canonical Link und zeigt für diese Gruppe keinen Duplicate Content Fehler an. Die genaue Struktur der Vergabe von Canonical URLs innerhalb einer Gruppe von Duplikaten kann im Detaildialog jedes Duplikats eingesehen werden. Dort lassen sich die Verweise auf Canonical URLs in einer Baumansicht analysieren. Die Baumstruktur ist wie folgt aufgebaut:

Die URLs der ersten Ebene stellen alle, innerhalb einer Gruppe von Duplikaten gefundenen Canonical URLs dar. Unterhalb dieser URLs sind die Seiten aufgelistet, die auf die jeweilige kanonische Adresse verweisen. Weist eine Seite keinen Canonical link-Tag auf, ist sie unter no canonical gelistet. Bei korrekter Ausführung ist nur eine existierende, kanonische Adresse vorhanden. In diesem Fall erkennt SITEmax die Gruppe von Duplikaten als fehlerfrei an und markiert die betroffenen Einträge in der Liste nicht.

Was ist Duplicate Content?

Da immer wieder die Frage aufkommt, was Duplicate Content oder kurz DC eigentlich genau ist, und wie gefährlich oder schädlich es für die eigene Website ist, soll hier kurz auf die Problematik aus SEO-technischer Sicht eingegangen werden.

Suchmaschinen möchten ihren Nutzern Suchergebnisse von möglichst hoher Qualität ausliefern. Bei der Aufgabe aus einer Unmenge von Websites, die einen Suchbegriff verwenden oder in sonst einer Beziehung zu ihm stehen, eine Hand voll auszuwählen, die dem Suchmaschinennutzer als erste angezeigt werden, steht Google wie andere Suchmaschinen vor einer Vielzahl von Problemen. Eines ergibt sich aus der Tatsache, dass es immer häufiger vorkommt, dass ein und derselbe Inhalt in exakt der gleichen oder einer sehr ähnlichen Ausführung unter vielen verschiedenen URLs erreichbar ist. Dies können unterschiedliche URLs auf dem gleichen Server oder auch auf vielen anderen Domains sein. In den meisten Fällen hat das nichts mit Böswilligkeit einiger Webmaster zu tun, sondern liegt an (schlecht konfigurierten) Servern & Content Management Systemen oder entsteht durch gängige Praktiken wie Pressemeldungen, Feeds o.ä.

Da eine Suchergebnisseite, die auf der ersten Seite zehn mal den gleichen Inhalt unter verschiedenen Links anbietet als unbrauchbar anzusehen ist, haben Suchmaschinen verschiedene Techniken entwickelt und teilweise patentiert um Duplicate Content zu erkennen und aus den Suchergebnissen herauszufiltern. Dabei wird versucht das hochwertigste Ergebnis herauszusuchen, um dieses in den SERPs anzuzeigen und die restlichen zu unterdrücken. Oftmals reagieren Webmaster oder SEO-Newbies mit panischer Angst, dass eine Website, auf der Duplicate Content erkannt wurde mit einem "Penalty" oder einer "Abstrafung" versehen wird. Da Google nicht daran interessiert ist Webmaster zu bestrafen sondern hochwertige Suchergebnisse zu liefern sind diese Ängste unbegründet und gehören eher in die Kategorie der SEO-Mythen und -Gerüchten.

Probleme von DC

Was aber sind die Probleme bei Auftreten von Duplicate Content für den Websitebetreiber? Dabei muss zunächst zwischen den zwei Formen von DC unterschieden werden, die man oft als "externen DC" und "internen DC" bezeichnet.

Externer DC bezeichnet gleiche Inhalte auf unterschiedlichen Servern und entsteht häufig durch Publizieren von Pressmeldungen o.ä. auf vielen verschiedenen Internetauftritten oder durch unerlaubtes Kopieren von Website Inhalten (Contentklau). Letzteres ist für den Websitebetreiber i.d.R. besonders ärgerlich, da er viel Arbeit oder Geld in seine Inhalte investiert, die die Grundlage seines Geschäfts bilden. Dass ein Unbekannter versucht seine eigenen Umsätze durch den geklauten Content zu steigern, kann oftmals noch hingenommen werden. Besonders schlimm wird es aber, wenn Google sich dazu entscheidet statt dem Original die geklauten Seite anzuzeigen. Denn auf diese Entscheidung hat man keinerlei Einfluss. Weist die eigene Seite eine einigermaßen solide Basis auf, fällt es Google allerdings oft leicht das Original zu erkennen, so dass man sich keine großen Sorgen machen muss. Die Analyse von externem DC gehört nicht zum Funktionsumfang von SITEmax.

Interner DC bezeichnet gleiche oder sehr ähnliche Inhalte auf unterschiedlichen Unterseiten einer Domain. Dies kann z.B. durch vielfaches Verwenden der immer gleichen Produktbeschreibung für ähnliche Produkte entstehen. Dass diese Vorgehensweise nicht förderlich für ein Ranking jedes einzelnen Produkts ist, liegt auf der Hand. Hier kann nur durch Investition in die Generierung von einzigartigen Inhalten (der sog. Unique Content) Abhilfe geschaffen werden. Die Situation ist dem Betreiber der Website i.d.R. bewusst. Das Aufspüren solcher ähnlichen Inhalte gehört nicht zum Funktionsumfang von SITEmax.

Eine andere, noch häufiger auftretende Ursache für internen DC sind "schlecht" konfigurierte Server und Content Management Systeme. Wohl die meisten Server liefern auf Anfragen der Form

die gleiche Ressource aus, nämlich den Inhalt der Datei index.html oder eines entsprechenden Eintrags in einer Datenbank. Das bedeutet, dass dieser Inhalt unter mindestens vier unterschiedlichen URLs erreichbar ist. Für den allgemeinen Gebrauch der Website stellt dies kein schwerwiegendes Problem dar, da es dem Besucher i.d.R. egal ist, ob er die Startseite mit oder ohne www. erreicht, bzw. er diesen Zustand im Normalfall überhaupt nicht registriert. Auch für das Ranking in Suchmaschinen ist die Situation nicht weiter problematisch, da wir wissen, dass Google sich selbständig einer der Adressen als beste heraussucht und die anderen einfach ignoriert. Eine "Abstrafung" der Website, wie sie oft befürchtet wird, wird nicht durchgeführt. Dennoch lohnt es sich aus verschiedenen Gründen im Rahmen der Suchmaschinenoptimierung dafür Sorge zu tragen, dass ein Inhalt unter nur einem einzelnen und eindeutigen URL erreichbar ist. Zum einen wird dadurch die Entscheidung, welche Seite in den SERPs angezeigt wird nicht der Suchmaschine überlassen, sondern durch uns festgelegt. So kann es gar nicht erst zu unerwünschten Ergebnissen kommen. Auch wenn es Google recht gut beherrscht, eine Gruppe von Duplikaten zu erkennen und nur eine davon auszuwählen, kommt es immer noch vereinzelt vor, dass mehrere Einträge zu dem selben Inhalt in den Suchergebnissen auftauchen.

Ein noch schwerwiegenderes Problem stellt jedoch die Tatsache dar, dass es sich im obigen Beispiel tatsächlich um vier verschiedene Seiten handelt, die unabhängig von einander bewertet werden. Anhand dieser Bewertung wird auch festgelegt, welche dieser Seiten in den Suchergebnissen auftaucht und welche ignoriert werden. Dabei wird schnell klar, dass auch die stärkste unter vier Seiten nicht stärker sein kann, als eine für den Inhalt einzigartige.

Es ist bekannt, dass einer der wichtigsten Faktoren bei der Bewertung Popularität ist, die durch die Verlinkung gemessen wird. Können wir bei der internen Verlinkung noch relativ gut steuern (vielen Webmastern gelingt aber auch das nicht) auf welche der vier URLs verlinkt wird, ist es quasi unmöglich alle von extern eingehenden Links auf ein eindeutiges Ziel zu lenken. Selbst wenn intern ausschließlich der URL http://www.domain.tld/ verwendet wird, hat man keinen Einfluss darauf welcher URL von fremden Websites verwendet wird. Das heißt, dass jeder Link, der nicht auf http://www.domain.tld/, sondern bspw. auf http://domain.tld/ zeigt, der eigentlichen gewünschten Zielseite als Popularitätssteigerung verloren geht. Oft kann sogar beobachtet werden, dass verschiedene URL zu dem selben Inhalt einen unterschiedlichen Google Pagerank* aufweisen.

Die genannten Probleme des internen DC können schon mit wenig Aufwand beseitigt werden. Vor allem, wenn man es bereits einmal für eine andere Website durchgeführt hat, ist der Einsatz von mod_rewrite eine einfache, schnelle und wohl die effektivste Lösung. Doppelte URLs werden dabei einfach auf die gewünschte Zielseite weitergeleitet. Dabei ist darauf zu achten, dass unbedingt der HTTP Statuscode 301 - Moved Permanently gesendet wird. Seit einiger Zeit bietet sich neben dem Einsatz von mod_rewrite das Setzen des sog. Canonical link-Tags an. Welche der Methoden vorzuziehen ist, muss von Fall zu Fall nach Aufwand entschieden werden. Hinsichtlich der Wirkung sind sie als gleichwertig anzusehen. Unerwünschte Seiten mittels robots.txt, Webmaster Tools oder ähnlichen Mitteln von der Indizierung auszuschließen, hilft zwar einen eindeutigen URL für einen Inhalt festzulegen, leitet aber falsch gesetzte Links nicht zu dem gewünschten Ziel weiter, weshalb diese Methoden nicht als vollwertige Lösung des Problems angesehen werden können.

Die Duplicate Content Analyse von SITEmax unterstützt den SEO bei der Behandlung der zuletzt genannten Problematik von internem DC. Es werden ausschließlich Seiten mit exakt gleichem Inhalt aufgespürt. Der gesamte head Bereich der Dokumente wird dabei ignoriert, da dieser auch bei gleichem body oft unterschiedliche Werte aufweist. Bei der Konfiguration der Canonical link-Tags ist der Einsatz von SITEmax hilfreich, da eventuelle Fehler angezeigt werden.

previous back next

Impressum - ODOXA Software & Services