1. Logfile-Analyse

Einführung

Ziel einer Logfileanalyse ist die Erfolgskontrolle der Internetpräsenz. Jeder Zugriff auf einen Server wird automatisch in einem Logfile protokolliert. D. h. der Abruf jeder Grafik, jeder html-Seite, jeder herunterladbaren Datei erzeugt einen Eintrag ins Logfile. Dabei wird pro Eintrag eine ganze Menge Daten gespeichert. Die Auswertung dieser Daten wird mit entsprechenden Programmmen durchgeführt, um das Surfverhalten der Benutzer zu analysieren.

  • Wieviele Besucher kamen in einem bestimmten Zeitraum auf die Webseite
  • Wieviele Seiten wurden abgerufen
  • Woher kamen die Besucher
  • Unter welchen Suchbegriffen haben sie die Präsenz gefunden.
  • Welche Seiten wurden gesehen
  • Wie lange blieben die Besucher

Grundsätzlich kann man anhand der Logfiles viele dieser Fragen beantworten. Vorraussetzung ist ein Programm, daß die verschiedenen Einträge sauber zuordnen kann. Wie wir sehen werden, ist das nicht ganz so einfach. Viele Faktoren können ganz erhebliche Fehler verursachen.

Das Allerwichtigste ist die saubere Erkennung und Differenzierung zwischen Besuchern, deren Verhalten man analysieren will und den verschiedenen automatisierten Abrufen. Mit zunehmender Entwicklung des Internets und der angebotenen Dienste nimmt die Anzahl der unterschiedlichen automatischen Abrufen drastisch zu.

Folgende Arten von Besuchern kann man differenzieren:

  • Menschliche Besucher
    Klingt banal, ist es aber nicht. Ein menschlicher Surfer kann auf zwei Arten surfen:
    1. herkömmlich, d. h. er klickt sich von Seite zu Seite. Diese Art ist gut zu analysieren und die einzig sinnvoll auswertbare Art.
    2. Er benutzt einen Offlinebrowser (s. u.). Damit lädt er alle oder eine bestimmte Anzahl an Seiten automatsich herunter, um sie dann offline in Ruhe betrachten zu können.
  • Bots/Spider/Agents/Crawler
    Sämtliche Suchdienste betreiben sogenannte Robots (Spider/Agents/Bots/Crawler). Das sind Programme, die die Webseiten einer Präsenz abrufen, um sie im Index der Suchmaschinen zu speichern. Zumindest die Bots der größeren Suchmaschinen (Google, Inktomi, Fast, Altavista) können auf diese Weise einige tausend Seitenabrufe im Monat erzeugen. Die meisten Programme zur Logfile-Analyse verfügen über eine Datenbank, in der bekannte Bots gespeichert werden sowie über eine Möglichkeit, neue Bots am Abruf der Robots.txt zu erkennen.
    Fehlerquelle: Verschiedene Spider (Adresssammler, html-Checker) rufen die robots.txt nicht ab, und entziehen sich so einer automatischen Erkennung.
  • Offline-Browser
    Es gibt verschiedene Produkte, mittels derer man die Seiten einer Präsenz inklusive aller verlinkten Grafiken und anderer Dateien herunterladen und offline verfügbar machen kann. Unter anderem z. B. beim Microsoft Internetexplorer. Wenn man Beim IE eine Seite zu den Favoriten hinzufügt, besteht die Möglichkeit die Seiten bis zu einer einstellbaren Linktiefe offline verfügbar zu machen.

    Screenshot

    Der IE lädt dann die Seite inklusive aller Grafiken auf die lokale Festplatte. Des weiteren ruft er automatisch sämtliche verlinkten Seiten ebenfalls mit sämtlichen Grafiken ab. In den Logfiles macht sich das durch den zusätzlichen Eintrag MSIECrawler in der Browserkennung bemerkbar.
    Sämtliche dieser Abrufe (und das können viele sein) stehen damit natürlich in keinem zeitlichen Zusammenhang mit dem Surfverhalten des Besuchers mehr. Man weiß nicht einmal, ob er sich die Seiten wirklich anschaut. Zusätzlich kann man sogar noch einstellen, ob und wann der IE nachschaut, ob sich die Seiten verändert haben. Dies erzeugt dann automatisch weitere Abrufe und damit Einträge im Logfile, die automatisch erfolgt sind.

    Screenshot

    Die Abrufe durch solche Offline-Browser sind für die Analyse des Verhaltens von Besuchern absolut wertlos.
  • Online-Tracker
    Das sind Programme, bei denen man sich anmelden kann, um eine Statistik vom Abruf seiner Seite erfassen zu lassen.

    Meisten erflolgt das durch das Einbinden einer kleinen Grafik, die bei jedem Abruf der Seite ebenfalls abgerufen wird. Diese Grafik liegt auf dem Host des Online-Trackers, der nun jeden Abruf spürt und daraus Statisiken errechnet. Viele dieser Tracker sind freeware, im Gegenzug muß ein Link auf die Seite des Anbieters gesetzt werden. Nun ruft der Anbiter die Seite regelmäßig automatisiert auf, um zu kontrollieren ob denn der Werbelink zu ihm noch besteht. Auch solche Aufrufe möchte man in der Auswertung nicht haben.
  • E-Mail-Spammer
    solche automatisierten Angriffe zielen meistens entweder auf das script /cgi-bin/formmail.pl oder /cgi-bin/formail.cgi. In den meisten Fällen führt das lediglich zu einem 404-error, da diese Scripte in den meisten Fällen nicht installiert sind. Irgenwelche Spammer versuchen, die Sicherheitlücke in diesen Scripten auszunutzen,, um über fremde Server Spam-Mail zu verschicken.
  • Würmer
    Abrufe in der Art
    • /MSOffice/cltreq.asp?UL=1&ACT=4&BUILD=4219&STRMVER=4&CAPREQ=0
    • /_vti_bin/owssvr.dll?UL=1&ACT=4&BUILD=4219&STRMVER=4&CAPREQ=0
    werden i. A. durch Würmer hervorgerufen. Da dieser Angriff auf Microsoft-Produkte zielt, lassen sich die meisten Server (da Linux) davon nicht beeindrucken.

Hier geht's chronologisch weiter:

2.) Verlauf