Hallo,
unzwar möchte ich logfiles analysieren die wie im folgenden Format vorliegen:
183.121.143.32 - - [18/Mar/2003:08:05:03 +0200] "GET /images/bild.png HTTP/1.1" 200 805 "http://www.google.org/"
Ich habe also Information über die IP, Uhrzeit, was aufgerufen wurde, woher der Nutzer kommt und noch ein paar weitere Parameter. Darüber hinaus wird jedem Nutzer eine Session-ID vergeben, sodass eine eindeutige Identifikation des Nutzers möglich ist.
Nun habe ich den Datensatz erst einmal aufbereitet und nun soll es an die eigentliche Analyse gehen. Ich habe zwar konkrete Fragestellungen vorliegen:
Wie lauten IP-Adresse und Hostname des Nutzers?
Welchen Browser hat er genutzt?
Auf welcher Seite stand der Link, mit dem der Nutzer auf die Seite gekommen ist?
Welche Suchmaschine und welche Suchwörter hat er genutzt?
Wie lange blieb er auf der Website?
Wie viele Seiten ruft er dabei auf?
Auf welcher Seite hat er die Website verlassen?
Welche Ergänzungsmodule hat er installiert?
Welches Betriebssystem nutzt er?
Welche Internetseiten hat Mitarbeiter Mustermann während der Arbeitszeit besucht? (hier muss in der Regel der Betriebsrat einbezogen werden)
Woher kommt der Nutzer?
Problem ist, dass mir bei diesen Fragestellungen (kopiert aus dem Wikipedia-Artikel: http://de.wikipedia.org/wiki/Logdateianalyse) nur die reine Häufigkeitsauszählung in den Sinn kommt und ich mir sicher bin, dass es noch weitere deutlich interessante Aspekte zu untersuchen gibt die so hoffe ich über eine reine Häufigkeitsauszählung hinaus gehen.
Grüße
Mila