|
|
1. Logfile-Analyse
Einführung
Ziel einer Logfileanalyse ist die Erfolgskontrolle der Internetpräsenz. Jeder Zugriff auf einen Server wird automatisch in einem Logfile protokolliert. D. h.
der Abruf jeder Grafik, jeder html-Seite, jeder herunterladbaren Datei erzeugt einen Eintrag ins Logfile. Dabei wird pro Eintrag eine ganze Menge Daten
gespeichert. Die Auswertung dieser Daten wird mit entsprechenden Programmmen durchgeführt, um das Surfverhalten der Benutzer zu analysieren.
- Wieviele Besucher kamen in einem bestimmten Zeitraum auf die Webseite
- Wieviele Seiten wurden abgerufen
- Woher kamen die Besucher
- Unter welchen Suchbegriffen haben sie die Präsenz gefunden.
- Welche Seiten wurden gesehen
- Wie lange blieben die Besucher
Grundsätzlich kann man anhand der Logfiles viele dieser Fragen beantworten. Vorraussetzung ist ein Programm, daß die verschiedenen Einträge sauber zuordnen
kann. Wie wir sehen werden, ist das nicht ganz so einfach. Viele Faktoren können ganz erhebliche Fehler verursachen.
Das Allerwichtigste ist die saubere Erkennung und Differenzierung zwischen Besuchern, deren Verhalten man analysieren will und den
verschiedenen automatisierten Abrufen. Mit zunehmender Entwicklung des Internets und der angebotenen Dienste nimmt die Anzahl der unterschiedlichen
automatischen Abrufen drastisch zu.
Folgende Arten von Besuchern kann man differenzieren:
- Menschliche Besucher
Klingt banal, ist es aber nicht. Ein menschlicher Surfer kann auf zwei Arten surfen:
- herkömmlich, d. h. er klickt sich von Seite zu Seite. Diese Art ist gut zu analysieren und die einzig sinnvoll auswertbare Art.
- Er benutzt einen Offlinebrowser (s. u.). Damit lädt er alle oder eine bestimmte Anzahl an Seiten automatsich herunter, um sie
dann offline in Ruhe betrachten zu können.
- Bots/Spider/Agents/Crawler
Sämtliche Suchdienste betreiben sogenannte Robots (Spider/Agents/Bots/Crawler). Das sind Programme, die die Webseiten einer Präsenz
abrufen, um sie im Index der Suchmaschinen zu speichern. Zumindest die Bots der größeren Suchmaschinen (Google, Inktomi, Fast, Altavista)
können auf diese Weise einige tausend Seitenabrufe im Monat erzeugen. Die meisten Programme zur Logfile-Analyse verfügen über eine Datenbank,
in der bekannte Bots gespeichert werden sowie über eine Möglichkeit, neue Bots am Abruf der Robots.txt zu erkennen.
Fehlerquelle: Verschiedene Spider (Adresssammler, html-Checker) rufen die robots.txt nicht ab, und entziehen sich so einer automatischen Erkennung.
- Offline-Browser
Es gibt verschiedene Produkte, mittels derer man die Seiten einer Präsenz inklusive aller verlinkten Grafiken und anderer Dateien herunterladen und
offline verfügbar machen kann. Unter anderem z. B. beim Microsoft Internetexplorer. Wenn man Beim IE eine Seite zu den Favoriten hinzufügt, besteht
die Möglichkeit die Seiten bis zu einer einstellbaren Linktiefe offline verfügbar zu machen.
Screenshot
Der IE lädt dann die Seite inklusive aller Grafiken auf die lokale Festplatte. Des weiteren ruft er automatisch sämtliche verlinkten
Seiten ebenfalls mit sämtlichen Grafiken ab. In den Logfiles macht sich das durch den zusätzlichen Eintrag MSIECrawler in der Browserkennung bemerkbar.
Sämtliche dieser Abrufe (und das können viele sein) stehen damit natürlich in keinem zeitlichen Zusammenhang mit dem Surfverhalten des Besuchers
mehr. Man weiß nicht einmal, ob er sich die Seiten wirklich anschaut. Zusätzlich kann man sogar noch einstellen, ob und wann der IE nachschaut, ob
sich die Seiten verändert haben. Dies erzeugt dann automatisch weitere Abrufe und damit Einträge im Logfile, die automatisch erfolgt sind.
Screenshot
Die Abrufe durch solche Offline-Browser sind für die Analyse des Verhaltens von Besuchern absolut wertlos.
- Online-Tracker
Das sind Programme, bei denen man sich anmelden kann, um eine Statistik vom Abruf seiner Seite erfassen zu lassen.
Meisten erflolgt das durch das Einbinden einer kleinen Grafik, die bei jedem Abruf der Seite ebenfalls abgerufen wird. Diese Grafik liegt auf
dem Host des Online-Trackers, der nun jeden Abruf spürt und daraus Statisiken errechnet. Viele dieser Tracker sind freeware, im Gegenzug muß
ein Link auf die Seite des Anbieters gesetzt werden. Nun ruft der Anbiter die Seite regelmäßig automatisiert auf, um zu kontrollieren ob denn der
Werbelink zu ihm noch besteht. Auch solche Aufrufe möchte man in der Auswertung nicht haben.
- E-Mail-Spammer
solche automatisierten Angriffe zielen meistens entweder auf das script /cgi-bin/formmail.pl oder /cgi-bin/formail.cgi. In den meisten Fällen führt das
lediglich zu einem 404-error, da diese Scripte in den meisten Fällen nicht installiert sind. Irgenwelche Spammer versuchen, die Sicherheitlücke in diesen
Scripten auszunutzen,, um über fremde Server Spam-Mail zu verschicken.
- Würmer
Abrufe in der Art
- /MSOffice/cltreq.asp?UL=1&ACT=4&BUILD=4219&STRMVER=4&CAPREQ=0
- /_vti_bin/owssvr.dll?UL=1&ACT=4&BUILD=4219&STRMVER=4&CAPREQ=0
werden i. A. durch Würmer hervorgerufen. Da dieser Angriff auf Microsoft-Produkte zielt, lassen sich die meisten Server (da Linux) davon nicht
beeindrucken.
Hier geht's chronologisch weiter:
|