Hallo zusammen,
nachdem ich nun schon mehrere Tage nach der passenden Methode erfolglos recherchiert habe, frage ich mal hier nach.
Fallbeschreibung:
Es gibt mehrere millionen Gruppen. Jede Gruppe umfasst alle "Login"-Ereignisse eines bestimmtes Benutzers. Jeder Login hat eine bestimte IP-Adresse.
Fragestellung: Korrellieren IP-Adressen mit Benutzern?
Mein bester Ansatz bisher: Chi-Quadrat Test
Beispiel:
Nullhypothese: IP Adressen tauchen gleich oft auf und verteilen sich zufällig auf alle Logins.
Bei 1000 Logins insgesamt und dabei 200 verschiedenen IP Adressen entspricht der Erwartungswert jeder IP pro Login: (1000/200) / 1000 = 0,005
Ein Benutzer "haggis" mit 10 Logins verwendet IP_a 4 mal.
=> Freiheitsgrade: 9
=> Chi² = 4*( (1-0,005)² / 0,005 ) + 6*( (0-0,005)² / 0,005 ) = 72,5
=> Signifikanzgrad < 0,001%
Ergebnis: Mit einer Wahrscheinlichkeit unter 0,001% ergibt sich das quantitative Aufkommen von IP_a bei Benutzer "haggis" aus zufälliger Verteilung.
Das würde ich für alle IP Adressen aller Benutzer berechnen und prüfen, ob z.B. mindestens 90% aller Benutzer mindestens 1 Adresse mit einem solch niedrigen Signifikanzgrad verwenden.
Nun habe ich aber irgendwo gelesen, dass sich der Chi² Test nur dann eignet, wenn der Erwartungswert mindestens 5 beträgt, ansonsten wären die Ergebnisse ungenau - stimmt das?
Macht das denn insgesamt Sinn? Oder gibt es bessere Verfahren für einen solchen Fall?