Grundlage des Site Analysis Moduls ist ein Crawler, der alle für ihn erreichbaren Seiten der angegebenen Projektdomain, sowie den evtl. aufgeführten zusätzlichen (Sub)domains herunterlädt, um verschiedene Daten zu sammeln und auszuwerten. Wie sich der Crawler verhält, welche Seiten er berücksichtigt und welche nicht und welche Arten von Daten er für die Analysen herunterladen soll, lässt sich in den Einstellungen Site Analysis 1 und Site Analysis 2 festlegen. Der Crawler beginnt an einem unter Site Analysis 1 festgelegten Start-URL. Ist das Eingabefeld frei gelassen ist dies die Startseite der Projektdomain http://projektdomain.tld/. Ist das Häkchen Crawl gesetzt, wird der Inhalt der geladenen Seite nach internen Links durchsucht, die als nächstes, in der Reihenfolge in der sie aufgefunden wurden (first in - first out) besucht werden.
Interne Links sind Verweise auf Unterseiten der Projektdomain, sowie der angegebenen Zusatzdomains.
Verweist ein gefundener URL auf eine Datei mit Dateiendung, so wird dieser
nur weiterverfolgt, wenn die Dateiendung in der Liste unter Site Analysis 2
aufgeführt ist. Bei URLs ohne Dateiendung entscheidet der Crawler anhand des im HTTP Header
angegebenen MIME-Types, ob der Verweis verfolgt wird.
Ist das Häkchen Crawl nicht gesetzt, wird nur die Startseite und die in der
URL list zusätzlich aufgeführten Seiten geladen. Diese Einstellung eignet sich zum
Beispiel zur automatisierten PR-Abfrage [1] mehrerer Seiten.
Unabhängig davon ob sie als intern gekennzeichnet sind oder nicht,
werden die in der URL list angegebenen Seiten immer geladen und für die
gewählten Analysen ausgewertet.
Im Eingabefeld URL list wird ein Pfad zu einer lokal gespeicherten XML-Datei erwartet,
die loc Tags beinhaltet, wie sie in XML-Sitemaps verwendet werden, bspw.:
<loc>http://projektdomain.tld/start.html</loc> <loc>http://sub.projektdomain.tld/</loc> <loc>http://woanders.tld/index.html</loc>
Die XML-Datei benötigt keine weiteren Angaben und kann ohne Deklarationen und anderen Angaben übergeben werden.
Zusätzlich zum normalen Herunterladen bietet die Einstellung Connect only unter Site Analysis 2 die Möglichkeit, Daten zu spezifizieren, zu denen nur eine Verbindung aufgebaut werden soll, ohne den eigentlichen Inhalt herunterzuladen. Die einzige Information, die zu diesen Resourcen verfügbar ist, ist der HTTP Statuscode. Diese Option eignet sich daher zum Überprüfen von Verweisen auf externe Seiten, sowie nicht HTML Inhalte, wie Bilder, Videos oder andere Dokumente. Zusätzlich zu normalen Links zu Bildern können auch Bilder, die über das img Tag eingebunden sind überprüft werden. Dazu muss das Häkchen <img..> aktiviert werden, und die entsprechenden Dateiendungen in der Liste ausfgeführt sein. Neben der Identifizierung über Dateiendungen entscheidet der Crawler bei Resourcen, die im HTTP Header als bspw. image klassifiziert sind selbständig, dass diese nicht heruntergeladen werden, sondern nur auf "Vorhanden sein" überprüft werden.
Der Crawler von SITEmax ermöglicht ein sehr schnelles Herunterladen von vielen Seiten, indem er mehrere Seiten gleichzeitig in sog. Slots bearbeitet. Die Anzahl der zu verwendenen Slots stellt damit die Anzahl der gleichzeitigen Verbindungen zu der jeweiligen Website dar. Je nach Server, Management System und Datenbank kann es bei zu vielen gleichzeitigen Verbindungen zur Überlastung des Servers kommen. In der Regel macht sich dies durch Aufkommen von HTTP Status-Codes wie z.B. "500 Internal Server Error" bemerkbar. In diesem Fall sollte die Anzahl der Download Slots verringert werden. In den meisten Fällen ist der voreingestellte Wert von 30 der beste Kompromiss aus Stabilität und Geschwindigkeit.
Der SITEmax Crawler unterstützt Cookies. Die Unterstützung ist jedoch in der Standardeinstellung
abgeschaltet. Unter Site Analysis 1 befinden sich dazu zwei Einstellmöglichkeiten.
Mit der Einstellung Accept Cookies nimmt der Crawler alle Cookies an und verwendet sie
für alle folgenden Transfers.
Die zusätzliche Option Use cookies.txt ermöglicht es dem Crawler vor dem Start Cookies
zu übergeben, die für alle Anfragen mitgesendet werden. Dazu liegt im Installationverzeichnis von
SITEmax die Datei cookies.txt, die Cookies im Mozilla Cookie Format enthält. Mozilla Broser
speichern ihre Cookies ebenfalls in einer cookies.txt Datei, die im Profilordner des Brosers
abgespeichert wird und ohne Anpassung für SITEmax verwendet werden kann.
(Firefox speichert seit der Version 3 Cookies in einer SQL Datenbank cookies.sqlite, dieses Format
wird nicht unterstützt). Wenn Sie keine vorhandene Cookie Datei zur Vefügun haben, können Sie mit
einem Texteditor in der cookies.txt einzelne Cookies einfügen. Verwenden Sie dazu folgendes Format:
#[Server] [Gültigkeit] [Pfad] [Sichere Verbindung] [Datum] [Name] [Daten] #Beispiel: www.odoxa.com FALSE / FALSE 1252752960 username Knorkator www.odoxa.com FALSE / FALSE 1252752960 password WT6uFG536
Jede Zeile steht für jeweils einen Cookie und ist nur mit einem einfachen Zeilenvorschubszeichen (LF bzw. 0x10 bzw. \n) getrennt. Die einzelnen Daten einer Cookie-Zeile sind durch ein Tabulatorzeichen (0x09 bzw. \t) getrennt.
Mit Hilfe der Einstellung Maximum page level lässt sich festlegen, wie tief sich der Crawler in der Seitenstruktur fortbewegen soll. Die erste Seite, die der Crawler aufruft, besitzt Level 0. Alle Seiten, die auf dieser Startseite verwiesen sind erhalten Level 1 usw.
Das Level einer Seite ist um 1 höher, als das Level der Seite, die und unter allen Seiten die auf sie verweisen das niedriegste Level besitzt.
Das Level erhöht sich allerdings nur durch Verweise in Form von Ankern
(<a href="..."></a>).
Verweise in Form von Weiterleitungen oder Canoncial Links erhöhen das Level nicht.
Der Wert, der in dem Eingabefeld für das maximale Level eingegeben ist sorgt dafür, dass auf
einer Seite mit dem angegebenen Level keine weiteren Links mehr aufgenommen und weiterverfolgt
werden.
Unter Site Analysis 2 stehen zwei Filter zur Verfügung. Der Parameter-Filter
entfernt einzelne Parameter aus URLs bevor diese weiterverwendet werden. Jeder gefundene Verweis
wird auf die dort angegebenen Parameter überprüft und anschließend ohne diese abgespeichert.
Wird bspw. der Filter sid angegeben, so wird in dem Verweis
http://www.projektdomain.tld/index.php?article=15364&sid=456GED6HD45674667&show=1
der Parameter sid=456GED6HD45674667 entfernt und stattdessen der Verweis auf
http://www.projektdomain.tld/index.php?article=15364&show=1
aufgenommen. Durch Angabe von mehreren Filtern lassen sich auch mehrere Parameter aus einem URL
entfernen. Der zusätzliche Filter show würde in dem Beispiel also schließlich zu dem Link auf
http://www.projektdomain.tld/index.php?article=15364
führen. Der Einsatz von Parameterfiltern ist vor allem für das Erstellen von
Sitemaps interessant, in denen einige Parameter oft unerwünscht sind.
Durch das setzen von Filtern kann hier gesteuert werden, welche Parameter von Suchmaschinen aufgenommen
werden sollen bzw. nicht aufgenommen werden sollen.
Mit Hilfe des inurl-Filters können bestimmte URL oder Gruppen von URLs von dem Crawlvorgang ausgeschlossen werden. Alle Verweise, in deren Adresse mindestens einer der angegebenen Filterstrings gefunden wird, werden vom Crawler ignoriert. Wird dem Filter ein NOT vorran gestellt, werden alle Verweise ignoriert die den Filterstring nicht enthalten. Die Filter
inurl-Filter: sitemap NOT blog
führen bspw. dazu, dass folgende URLs herausgefiltert werden:
http://domain.tld/sitemap.html http://domain.tld/blog/sitemap.html http://domain.tld/forum/ http://domain.tld/article/ http://domain.tld/?search=sitemap usw.
Unabhängig von gesetzten Filtern, wird der Start-URL immer geladen. Befindet sich im obigen Beispiel auf der Startseite jedoch kein Verweis, der den Filterstring blog enthält, ist der Crawlvorgang sofort abgeschlossen.
Der Crawlvorgang wird durch einen Klick auf den Button
Go im Site Analysis Fenster gestartet. Mit dem Button
Stop wird der Vorgang abgeschlossen. Wird er danach erneut gestartet, werden alle
bisher gesammelten Daten gelöscht und wieder bei dem Start URL begonnen. Mit dem Button
Pause wird der Vorgang dagegen nur unterbrochen. Durch erneutes Klicken auf Go wird das
Crawlen fortgesetzt.
Das Fenster des Analyse Moduls zeigt eine Listenansicht aller besuchten URLs. Sobald der Crawler eine
Seite vollständig geladen hat, erscheint sie als letzter Eintrag in der Liste.
Jedem Eintrag ist ein farbiges Icon vorran gestellt, das den Status der Seite darstellt. Ist die Seite
nicht erreichbar oder antwortet der Server mit einem HTTP Status aus dem Bereich 4xx oder 5xx, wird sie
mit einem roten Icon gekennzeichnet. Zusätzlich wird der Eintrag in der Spalte für den Status in roter
Schrift dargestellt. Leitet die Seite auf einen anderen URL weiter, so erscheint die Statusspalte, sowie
das Icon gelb. Gleiches gilt bei Auftreten von Duplikaten.
Die Liste ist jederzeit nach einer der angezeigten Spalten durch einen Klick in den
Spaltenkopf sortierbar. Neue Seiten werden jedoch unabhängig von der aktuellen Sortierung immer am Ende der
Liste eingefügt.
Für jede Zeile lässt sich auch während des Crawlens durch einen Doppelklick ein Detaildialog aufrufen. Dieser zeigt alle zur Verfügung stehenden Daten für die jeweilige Seite an. Über einen Link im oberen Teil des Fensters kann die Seite in dem Standardbrowser geöffnet werden. Neben einer Tabelle in der linken oberen Hälfte des Fenster mit allgemeinen Informationen, zeigt der Dialog vier Listen mit Verweisen auf Duplikate, weiterleitende Seiten, linkgebende (Parents) und verlinkte (Children) Seiten. In der Liste Redirects werden URLs gelistet, die auf die im Dialog angezeigte Seite weiterleiten. Ist die angezeigte Seite selber eine weiterleitende, so ist das Ziel der Weiterleitung in der Tabelle als Redirect angegeben. Durch einen Klick auf die angegebene Redirect Adresse kann der Detaildialog der Zielseite der Weiterleitung aufgerufen werden. Ein Doppelklick in die Listen des Dialogs öffnet einen neuen Dialog für die angeklickte Seite. Das Öffnen der Detaildialoge unterbricht das Crawlen nicht. Der Vorgang läuft im Hintergrund weiter.