Statistische Signifikanz einer Variablen über viele Gruppen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Statistische Signifikanz einer Variablen über viele Gruppen

Beitragvon haggis » Mi 17. Aug 2016, 16:45

Hallo zusammen,

nachdem ich nun schon mehrere Tage nach der passenden Methode erfolglos recherchiert habe, frage ich mal hier nach.

Fallbeschreibung:
Es gibt mehrere millionen Gruppen. Jede Gruppe umfasst alle "Login"-Ereignisse eines bestimmtes Benutzers. Jeder Login hat eine bestimte IP-Adresse.

Fragestellung: Korrellieren IP-Adressen mit Benutzern?


Mein bester Ansatz bisher: Chi-Quadrat Test

Beispiel:
Nullhypothese: IP Adressen tauchen gleich oft auf und verteilen sich zufällig auf alle Logins.
Bei 1000 Logins insgesamt und dabei 200 verschiedenen IP Adressen entspricht der Erwartungswert jeder IP pro Login: (1000/200) / 1000 = 0,005
Ein Benutzer "haggis" mit 10 Logins verwendet IP_a 4 mal.
=> Freiheitsgrade: 9
=> Chi² = 4*( (1-0,005)² / 0,005 ) + 6*( (0-0,005)² / 0,005 ) = 72,5
=> Signifikanzgrad < 0,001%

Ergebnis: Mit einer Wahrscheinlichkeit unter 0,001% ergibt sich das quantitative Aufkommen von IP_a bei Benutzer "haggis" aus zufälliger Verteilung.

Das würde ich für alle IP Adressen aller Benutzer berechnen und prüfen, ob z.B. mindestens 90% aller Benutzer mindestens 1 Adresse mit einem solch niedrigen Signifikanzgrad verwenden.
Nun habe ich aber irgendwo gelesen, dass sich der Chi² Test nur dann eignet, wenn der Erwartungswert mindestens 5 beträgt, ansonsten wären die Ergebnisse ungenau - stimmt das?

Macht das denn insgesamt Sinn? Oder gibt es bessere Verfahren für einen solchen Fall?
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistische Signifikanz einer Variablen über viele Grup

Beitragvon haggis » Mi 17. Aug 2016, 23:31

Ha, ich glaube jetzt das passende gefunden zu haben: Cramers V mit den Merkmalen IP und Benutzer. Wird zwar eine ordentliche Matrix mit x Millionen mal y Millionen, aber dafür gibts heutzutage ja große Taschenrechner :)
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 26 Gäste

cron