odoxa

29.06.2009
Neue Alpha Version a0.8.0 erschienen.


english german

previous back next

Website Graphen

Das Site Analysis-Modul bietet die Möglichkeit, das Ergebnis eines Crawl-Vorgangs als dot-Datei zu speichern. DOT ist eine Beschreibungssprache für Graphen, die von verschiedenen Programmen als Eingabe zum Rendern von Graphen verwendet wird. Somit ist es möglich, die von Sitemax erfasste Struktur einer Website visuell darzustellen.
Als Renderer bietet sich das Graphviz-Softwarepaket an. Graphviz bietet eine Reihe verschiedener Algorithmen (dot, neato, fdp, twopi, circo), die sich mehr oder weniger gut für die Visualisierung von Websitestrukturen eignen. Für kleinere und eher "tiefe" Strukturen ist dot noch sinnvoll, für die meisten realen Strukturen ist aber das Layout des twopi-Algorithmus besser geeignet.

Graphen mit twopi

twopi Graph
Zoom: [PNG] [SVG]

Der Filter twopi zeichnet Graphen in radialer Anordnung. Ein Knoten wird als Zentrum gewählt, um das die restlichen Knoten in konzentrischen Kreisen angeordnet werden. Alle Knoten des gleichen Rangs bzw. Levels liegen dabei auf dem gleichen Kreis.
Um Überschneidungen von Knoten zu verhindern, bieten sich bei Verwendung von twopi zwei Einstellungen an. Mit overlap=false verschiebt ein Algorithmus die Knoten so, dass keine Überschneidungen auftreten. Das radiale Layout wird dadurch teilweise stark verfremdet. Mit der Einstellung overlap=scale sorgt man dafür, dass die radiale Anordnung erhalten bleibt und durch Skalieren Überschneidungen verhindert werden. Bei komplexeren Graphen kann dies zu extremen Skalierungswerten führen. Hier muss von Fall zu Fall und nach Geschmack entschieden werden.
Da Websites i.d.R. eine flache Struktur aufweisen, ist das twopi-Layout für die meisten Seiten am besten geeignet. twopi kann über das Programm twopi.exe wie folgt aufgerufen werden:

twopi -Tsvg max.dot -o twopi_1.svg
twopi -Tps max.dot -o twopi_1.ps
twopi -Tpng max.dot -o twopi_1.png

Graphen mit dot

dot Graph 1
Zoom: [PNG] [SVG]

dot Graph 2
Zoom: [PNG] [SVG]

Der Filter dot zeichnet Graphen in hierarchischer Anordnung. Die Knoten werden dabei so platziert, dass es zu möglichst wenig Überschneidungen kommt. Knoten des gleichen Rangs erscheinen auf einer Ebene. Typische Websites mit flacher Linkstruktur führen damit meist zu sehr breiten Graphen. Für kleine Linkstrukturen bietet dot aber eine übersichtliche Darstellung.
dot kann über das Programm dot.exe wie folgt aufgerufen werden:

dot -Tsvg max.dot -o twopi_1.svg

Tutorial: Mit Sitemax und Graphviz Graphen erzeugen

Diese Anleitung erklärt die Vorgehensweise zum Erstellen eines Graphen der Struktur einer Website. Bevor das Site Analysis-Modul gestartet wird, sollten je nach Projekt einige Einstellungen vorgenommen werden, um ein optimales Ergebnis zu erhalten. Da die vollständige Struktur eines Projekts mit allen Verlinkungen schon bei kleinen Internetauftritten eine beachtliche Komplexität aufweist, müssen bei der Erzeugung eines Graphen in Bezug auf Vollständigkeit i.d.R. einige Abstriche gemacht werden, um ein noch "lesbares" Ergebnis zu erhalten. So sollte die Crawltiefe auf bspw. 3 (bei Verwendung von twopi) beschränkt werden und unwichtige Seiten durch sinnvolles Setzen von Filtern von vornherein ausgeschlossen werden. So empfiehlt es sich z.B. durch inurl-Filter wie showthread, article, sitemap ... zahlreiche Details auszublenden.

I. Projekteinstellungen

Erstellen Sie ein neues Projekt oder laden Sie ein vorhandenes. Wenn Sie eine andere Seite als die Startseite als Ursprung des Graphen wünschen, geben Sie unter dem Reiter Site Analysis 1 den entsprechenden Start-URL an. Wenn Sie eine große Website bearbeiten, setzen Sie auf der selben Seite den Wert für Max Level auf 3. Wechseln Sie zum Reiter Site Analysis 2 und versuchen Sie sinnvolle Einschränkungen für den Crawler vorzunehmen. Besitzt Ihre Seite eine HTML-Sitemap sollte diese (z.B. durch einen inurl-Filter "sitemap") ausgeschlossen werden. Detailseiten wie Forenbeiträge, Blogartikel, Produktdetails etc. erzeugen meist eine sehr hohe Anzahl von Knoten und Links, was die Übersichtlichkeit stark einschränkt, und sollten herausgefiltert werden. Je nach eingesetztem CMS und URL-Aufbau kann dies z.B. durch geeignete inurl-Filter wie showthread, article, productid, show=details o.ä. erreicht werden. Versuchen Sie nach Möglichkeit nur Kategorie- und Übersichtsseiten zuzulassen und Details auszublenden.

II. Export

Starten Sie den Crawlvorgang und warten Sie bis dieser abgeschlossen ist. Überprüfen Sie anschließend das Ergebnis und passen evtl. die Einstellungen an, falls das Ergebnis nicht zufriedenstellend sein sollte.
Klicken Sie auf das Icon dot icon dot-File. Im folgenden können Sie Einstellungen für die verwendeten Parameter im dot-File vornehmen. Für die meisten Graphen sind die Voreinstellungen gut geeignet. Beachten Sie, dass in der Voreinstellung Rückwärts- und Seitwärtslinks deaktiviert sind, um die Übersichtlichkeit zu verbessern. Damit wird nur die reine Vorwärtsnavigation visualisiert. Möchten Sie auch Verweise auf Seiten der selben oder vorigen Ebene darstellen, deaktivieren Sie diese Option (Nur für kleinere Graphen empfehlenswert).
Versuchen Sie zunächst einen Export mit der voreingestellten Option Overlay:scale. Sollte Ihnen das Ergebnis zu groß sein, versuchen Sie es erneut mit Overlay:false.
Bestätigen Sie die Einstellungen und wählen Sie einen Ort, an dem das Ergebnis gespeichert werden soll (Im weiteren wird der Pfad c:\graph\max.dot angenommen). Lassen Sie das Sitemax-Fenster geöffnet und schließen Sie das Projekt nicht, um evtl. andere Einstellungen auszuprobieren ohne die Seite neu crawlen zu müssen. Wer etwas Erfahrung mit DOT hat, kann Anpassungen natürlich auch im gespeicherten dot-File vornehmen.

III. Graphen erzeugen

Starten Sie eine Kommandozeile mit "Start -> Ausführen -> Öffnen:cmd -> OK". Wechseln Sie in das Installationsverzeichnis von Graphviz, durch Eingeben von z.B. "cd c:\programme\graphviz\bin". Rufen Sie anschließen das Programm twopi mit folgenden Argumenten auf:

twopi -Tsvg c:\graph\max.dot -o c:\graph\max.svg

Beachten Sie, dass Pfade in Anführungszeichen gestellt werden sollten, wenn sie Leerzeichen enthalten. Wenn Sie ein anderes Ausgabeformat wünschen ändern sie den Schalter -Tsvg ab (z.B. -Tps, -Tpng usw.). Für eine anschließende Nachbearbeitung ist das Vektorformat svg aber die richtige Wahl. Für die Bearbeitung kann z.B. der Open-Source-Vektoreditor Inkscape verwendet werden. Wenn Sie möchten, können Sie auch die Filter dot und circo ausprobieren. Sie werden mit den gleichen Argumenten aufgerufen. Die Filter neato und fdp sind für Websites ungeeignet, da Sie ungerichtete Graphen berechnen.

Installation und Hinweise zu Graphviz

Laden Sie das aktuelle Installationspaket von der Graphviz-Hompage herunter und führen es aus. Im Installationsverzeichnis befindet sich der Ordner bin, der die benötigten Programme dot.exe, twopi.exe, (circo.exe) enthält. Wer die Bedienung über die Kommandozeile nicht mag, findet in GVedit.exe eine graphische Oberfläche für die Verwendung der verschiedenen Filter. Bei sehr großen Graphen kam es bei unseren Tests allerdings immer wieder zu Problemem, weshalb wir die Bedienung über die Kommandozeile vorziehen. Wenn verschiedene Einstellungen ausprobiert werden, kann es sinnvoll sein, sich für den Aufruf batch-Files zu schreiben.
Das Programm dotty.exe erweitert das Grafikprogramm lefty und ermöglicht grafisches Erzeugen und Bearbeiten von Graphen. Die Bedienung ist allerdings nicht mehr ganz zeitgemäß und etwas umständlich.
Wer sich mit der Erzeugung von Graphen und dem Aufbau der dot-Files detaillierter beschäftigen möchte, findet im Ordner \share\graphviz\doc oder auf der Graphviz-Homepage verschiedene Dokumentationen.

previous back next

Impressum - Datenschutz - ODOXA Software & Services