STATISTIK-FORUM.de

haggis · von **haggis** » Mi 17. Aug 2016, 16:45

Hallo zusammen,

nachdem ich nun schon mehrere Tage nach der passenden Methode erfolglos recherchiert habe, frage ich mal hier nach.

Fallbeschreibung:
Es gibt mehrere millionen Gruppen. Jede Gruppe umfasst alle "Login"-Ereignisse eines bestimmtes Benutzers. Jeder Login hat eine bestimte IP-Adresse.

Fragestellung: Korrellieren IP-Adressen mit Benutzern?

Mein bester Ansatz bisher: Chi-Quadrat Test

Beispiel:
Nullhypothese: IP Adressen tauchen gleich oft auf und verteilen sich zufällig auf alle Logins.
Bei 1000 Logins insgesamt und dabei 200 verschiedenen IP Adressen entspricht der Erwartungswert jeder IP pro Login: (1000/200) / 1000 = 0,005
Ein Benutzer "haggis" mit 10 Logins verwendet IP_a 4 mal.
=> Freiheitsgrade: 9
=> Chi² = 4*( (1-0,005)² / 0,005 ) + 6*( (0-0,005)² / 0,005 ) = 72,5
=> Signifikanzgrad < 0,001%

Ergebnis: Mit einer Wahrscheinlichkeit unter 0,001% ergibt sich das quantitative Aufkommen von IP_a bei Benutzer "haggis" aus zufälliger Verteilung.

Das würde ich für alle IP Adressen aller Benutzer berechnen und prüfen, ob z.B. mindestens 90% aller Benutzer mindestens 1 Adresse mit einem solch niedrigen Signifikanzgrad verwenden.
Nun habe ich aber irgendwo gelesen, dass sich der Chi² Test nur dann eignet, wenn der Erwartungswert mindestens 5 beträgt, ansonsten wären die Ergebnisse ungenau - stimmt das?

Macht das denn insgesamt Sinn? Oder gibt es bessere Verfahren für einen solchen Fall?

haggis · von **haggis** » Mi 17. Aug 2016, 23:31

Ha, ich glaube jetzt das passende gefunden zu haben: Cramers V mit den Merkmalen IP und Benutzer. Wird zwar eine ordentliche Matrix mit x Millionen mal y Millionen, aber dafür gibts heutzutage ja große Taschenrechner

STATISTIK-FORUM.de

Statistische Signifikanz einer Variablen über viele Gruppen

Statistische Signifikanz einer Variablen über viele Gruppen

Re: Statistische Signifikanz einer Variablen über viele Grup

Wer ist online?