Das Site Analysis-Modul bietet die Möglichkeit, das Ergebnis eines
Crawl-Vorgangs als dot-Datei zu speichern. DOT ist eine Beschreibungssprache
für Graphen, die von verschiedenen Programmen als Eingabe zum Rendern von Graphen
verwendet wird. Somit ist es möglich, die von Sitemax erfasste Struktur einer Website
visuell darzustellen.
Als Renderer bietet sich das Graphviz-Softwarepaket an. Graphviz bietet eine Reihe
verschiedener Algorithmen (dot, neato, fdp, twopi, circo), die sich mehr oder weniger
gut für die Visualisierung von Websitestrukturen eignen. Für kleinere und eher
"tiefe" Strukturen ist dot noch sinnvoll, für die meisten realen
Strukturen ist aber das Layout des twopi-Algorithmus besser geeignet.
Der Filter twopi zeichnet Graphen in radialer Anordnung.
Ein Knoten wird als Zentrum gewählt, um das die restlichen Knoten in
konzentrischen Kreisen angeordnet werden. Alle Knoten des gleichen Rangs bzw.
Levels liegen dabei auf dem gleichen Kreis.
Um Überschneidungen von Knoten zu verhindern, bieten sich bei Verwendung von
twopi zwei Einstellungen an. Mit overlap=false verschiebt ein
Algorithmus die Knoten so, dass keine Überschneidungen auftreten. Das radiale
Layout wird dadurch teilweise stark verfremdet. Mit der Einstellung
overlap=scale sorgt man dafür, dass die radiale Anordnung erhalten bleibt
und durch Skalieren Überschneidungen verhindert werden. Bei komplexeren Graphen
kann dies zu extremen Skalierungswerten führen. Hier muss von Fall zu Fall und
nach Geschmack entschieden werden.
Da Websites i.d.R. eine flache Struktur aufweisen, ist das
twopi-Layout für die meisten Seiten am besten geeignet. twopi
kann über das Programm twopi.exe wie folgt aufgerufen werden:
twopi -Tsvg max.dot -o twopi_1.svg twopi -Tps max.dot -o twopi_1.ps twopi -Tpng max.dot -o twopi_1.png

Zoom: [PNG] [SVG]

Zoom: [PNG] [SVG]
Der Filter dot zeichnet Graphen in hierarchischer Anordnung. Die
Knoten werden dabei so platziert, dass es zu möglichst wenig Überschneidungen kommt.
Knoten des gleichen Rangs erscheinen auf einer Ebene. Typische Websites mit flacher
Linkstruktur führen damit meist zu sehr breiten Graphen. Für kleine Linkstrukturen bietet
dot aber eine übersichtliche Darstellung.
dot kann über das Programm dot.exe wie folgt aufgerufen werden:
dot -Tsvg max.dot -o twopi_1.svg
Diese Anleitung erklärt die Vorgehensweise zum Erstellen eines Graphen der Struktur einer Website. Bevor das Site Analysis-Modul gestartet wird, sollten je nach Projekt einige Einstellungen vorgenommen werden, um ein optimales Ergebnis zu erhalten. Da die vollständige Struktur eines Projekts mit allen Verlinkungen schon bei kleinen Internetauftritten eine beachtliche Komplexität aufweist, müssen bei der Erzeugung eines Graphen in Bezug auf Vollständigkeit i.d.R. einige Abstriche gemacht werden, um ein noch "lesbares" Ergebnis zu erhalten. So sollte die Crawltiefe auf bspw. 3 (bei Verwendung von twopi) beschränkt werden und unwichtige Seiten durch sinnvolles Setzen von Filtern von vornherein ausgeschlossen werden. So empfiehlt es sich z.B. durch inurl-Filter wie showthread, article, sitemap ... zahlreiche Details auszublenden.
Erstellen Sie ein neues Projekt oder laden Sie ein vorhandenes. Wenn Sie eine andere Seite als die Startseite als Ursprung des Graphen wünschen, geben Sie unter dem Reiter Site Analysis 1 den entsprechenden Start-URL an. Wenn Sie eine große Website bearbeiten, setzen Sie auf der selben Seite den Wert für Max Level auf 3. Wechseln Sie zum Reiter Site Analysis 2 und versuchen Sie sinnvolle Einschränkungen für den Crawler vorzunehmen. Besitzt Ihre Seite eine HTML-Sitemap sollte diese (z.B. durch einen inurl-Filter "sitemap") ausgeschlossen werden. Detailseiten wie Forenbeiträge, Blogartikel, Produktdetails etc. erzeugen meist eine sehr hohe Anzahl von Knoten und Links, was die Übersichtlichkeit stark einschränkt, und sollten herausgefiltert werden. Je nach eingesetztem CMS und URL-Aufbau kann dies z.B. durch geeignete inurl-Filter wie showthread, article, productid, show=details o.ä. erreicht werden. Versuchen Sie nach Möglichkeit nur Kategorie- und Übersichtsseiten zuzulassen und Details auszublenden.
Starten Sie den Crawlvorgang und warten Sie bis dieser abgeschlossen ist. Überprüfen Sie
anschließend das Ergebnis und passen evtl. die Einstellungen an, falls das Ergebnis nicht
zufriedenstellend sein sollte.
Klicken Sie auf das Icon
dot-File.
Im folgenden können Sie Einstellungen für die verwendeten Parameter im
dot-File vornehmen. Für die meisten Graphen sind die Voreinstellungen
gut geeignet. Beachten Sie, dass in der Voreinstellung Rückwärts- und Seitwärtslinks
deaktiviert sind, um die Übersichtlichkeit zu verbessern. Damit wird nur die reine
Vorwärtsnavigation visualisiert. Möchten Sie auch Verweise auf Seiten der selben
oder vorigen Ebene darstellen, deaktivieren Sie diese Option (Nur für kleinere
Graphen empfehlenswert).
Versuchen Sie zunächst einen Export mit der voreingestellten Option
Overlay:scale. Sollte Ihnen das Ergebnis zu groß sein, versuchen Sie es
erneut mit Overlay:false.
Bestätigen Sie die Einstellungen und wählen Sie einen Ort, an dem das Ergebnis
gespeichert werden soll (Im weiteren wird der Pfad c:\graph\max.dot angenommen).
Lassen Sie das Sitemax-Fenster geöffnet und schließen Sie das Projekt nicht, um
evtl. andere Einstellungen auszuprobieren ohne die Seite neu crawlen zu müssen. Wer
etwas Erfahrung mit DOT hat, kann Anpassungen natürlich auch im gespeicherten
dot-File vornehmen.
Starten Sie eine Kommandozeile mit "Start -> Ausführen -> Öffnen:cmd -> OK". Wechseln Sie in das Installationsverzeichnis von Graphviz, durch Eingeben von z.B. "cd c:\programme\graphviz\bin". Rufen Sie anschließen das Programm twopi mit folgenden Argumenten auf:
twopi -Tsvg c:\graph\max.dot -o c:\graph\max.svg
Beachten Sie, dass Pfade in Anführungszeichen gestellt werden sollten, wenn sie Leerzeichen enthalten. Wenn Sie ein anderes Ausgabeformat wünschen ändern sie den Schalter -Tsvg ab (z.B. -Tps, -Tpng usw.). Für eine anschließende Nachbearbeitung ist das Vektorformat svg aber die richtige Wahl. Für die Bearbeitung kann z.B. der Open-Source-Vektoreditor Inkscape verwendet werden. Wenn Sie möchten, können Sie auch die Filter dot und circo ausprobieren. Sie werden mit den gleichen Argumenten aufgerufen. Die Filter neato und fdp sind für Websites ungeeignet, da Sie ungerichtete Graphen berechnen.
Laden Sie das aktuelle Installationspaket von der
Graphviz-Hompage herunter und führen es aus. Im
Installationsverzeichnis befindet sich der Ordner bin, der die benötigten
Programme dot.exe, twopi.exe, (circo.exe) enthält. Wer die Bedienung über die Kommandozeile nicht mag, findet in
GVedit.exe eine graphische Oberfläche für die Verwendung der
verschiedenen Filter.
Bei sehr großen Graphen kam es bei unseren Tests allerdings immer wieder zu Problemem,
weshalb wir die Bedienung über die Kommandozeile vorziehen.
Wenn verschiedene Einstellungen ausprobiert werden, kann es sinnvoll sein,
sich für den Aufruf batch-Files zu schreiben.
Das Programm dotty.exe erweitert das Grafikprogramm lefty und ermöglicht grafisches Erzeugen
und Bearbeiten von Graphen. Die Bedienung ist allerdings nicht mehr ganz zeitgemäß und etwas
umständlich.
Wer sich mit der Erzeugung von Graphen und dem Aufbau der dot-Files
detaillierter beschäftigen möchte, findet im Ordner
\share\graphviz\doc oder auf der Graphviz-Homepage verschiedene Dokumentationen.