Logarithmische verteilte Daten vergleichen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Logarithmische verteilte Daten vergleichen

Beitragvon BMo8 » Di 21. Mär 2017, 22:41

Hallo,

ich habe Usage-Daten eines Internet-Services mit 3 unabhängigen Gruppen. Die Gruppen haben unterschiedliche Varianten des Internet-Services genutzt.
Die Daten sind stark logarithmisch verteilt. Insgesamt bilden die Daten recht gut die 1%-Regel ab -> https://de.wikipedia.org/wiki/Ein-Prozent-Regel_(Internet)
Wir haben also in jeder Gruppe ein paar Ausreißer, die ziemlich viel gemacht haben und in jeder Gruppe eine große Masse an Nutzer die wenig oder nix gemacht haben.

Mein Mittelwert ist daher in allen Gruppen bei 2 -> bzw. nahe bei 0 und nicht wirklich aussagekräftig, da ich eine extrem hohe Streuung habe. Mich interessieren vor allem die Unterschiede der Ausreißer in den Gruppen.
Allerdings möchte ich die Daten nicht einfach irgendwo abschneiden.

- Kann mir jemand einen Rat geben, wie ich die Daten transformieren muss, damit ich unterschiede zwischen den Gruppen deskriptiv und mit Tests sinnvoll auswerten und interpretieren kann?

Danke :)
BMo8
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 21. Mär 2017, 22:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Logarithmische verteilte Daten vergleichen

Beitragvon PonderStibbons » Di 21. Mär 2017, 23:28

ich habe Usage-Daten eines Internet-Services mit 3 unabhängigen Gruppen. Die Gruppen haben unterschiedliche Varianten des Internet-Services genutzt.
Die Daten sind stark logarithmisch verteilt.

Was für Daten, was wurde gemessen?
Mein Mittelwert ist daher in allen Gruppen bei 2 -> bzw. nahe bei 0 und nicht wirklich aussagekräftig, da ich eine extrem hohe Streuung habe.

Aussagekräftig in Bezug worauf? Wie lautet das Thema der Studie, die Fragestellung?
Mich interessieren vor allem die Unterschiede der Ausreißer in den Gruppen.

Was meinst Du damit?
- Kann mir jemand einen Rat geben, wie ich die Daten transformieren muss, damit ich unterschiede zwischen den Gruppen deskriptiv und mit Tests sinnvoll auswerten und interpretieren kann?

Sinnvoll in Bezug worauf? Was soll dargestellt werden, welche Fragen sollen beantwortet werden?

NB sollte stets die Stichprobengröße angegeben werden.

Mit freundlichen GRüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Logarithmische verteilte Daten vergleichen

Beitragvon bele » Mi 22. Mär 2017, 12:28

Und was sind logarithmisch verteilte Daten? Log-Normal verteilte Daten? https://de.wikipedia.org/wiki/Logarithm ... verteilung ?
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Logarithmische verteilte Daten vergleichen

Beitragvon BMo8 » Do 23. Mär 2017, 12:15

Hallo,

erst mal Danke für eure Rückmeldung. Tut mir leid, ich versuche es nochmal.

Was für Daten wurden gemessen:
Wir haben 3 Services, die vom Prinzip her gleich sind und sich im Interface unterscheiden.
Es wurden Nutzer eingeladen die Services zu nutzen. Wir haben gemessen wie häufig die Nutzer darauf zugreifen.
Ich habe aktuell Daten von
Gruppe 1 - 106 User
Gruppe 2 - 132 User
Gruppe 3 - 42 User

Wenn ich nun die Zugriffe absteigend sortiere kommt für jede der 3 Gruppen etwa folgende Verteilung raus:
Bild
Es gibt also wenige Nutzer die den Service sehr oft genutzt haben (ca. 1% der user), ein paar die den Service etwas genutzt haben (ca. 10%) und viele die ihn quasi gar nicht genutzt haben (ca. 90%).

Meine Hypothese ist, dass sich die Variation in den Interfaces sich auch die Nutzung auswirkt.
In der Tat sehe ich auch leichte Unterschiede bei den "Power-Usern", die aber in der Gesamtheit der Daten eher als Ausreißer auftreten.

Meine Interpretation ist: Der Service scheint generell nur eine bestimmte Art von Menschen anzusprechen (die 10% und 1%).

Meine Frage an euch ist nun, wie bekomme ich heraus, ob die unterschiede im Interface einen Einfluss auf die Personen hat, die der Service anspricht?
Ich denke, dass Datentransformation -> http://www.statistik-und-beratung.de/20 ... rmationen/ mir hier weiterhelfen kann.
Allerdings habe ich keine Erfahrung damit und suche nach Tips zur weiteren Vorgehensweise. Danke.
BMo8
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 21. Mär 2017, 22:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Logarithmische verteilte Daten vergleichen

Beitragvon PonderStibbons » Do 23. Mär 2017, 14:13

Meine Hypothese ist, dass sich die Variation in den Interfaces sich auch die Nutzung auswirkt.

Das ist vor dem Hintergrund, dass zum Nutzungsverhalten Vorwissen existiert, doch viel zu allgemein,
Was soll es bedeuten - dass der Anteil Nutzer mit Nutzungshäufigkeiten von mehr als 1x unterschiedlich
hoch ist? Dass Mittelwert oder Median der Nutzungshäufigkeiten unterschiedlich ist? Dass der Anteil der
häufigen Nutzer (wie auch immer definiert) unterschiedlich ist? Dass die Häufigkeit der Nutzung bei den
Mehrfachnutzern unterschiedlich ist?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Logarithmische verteilte Daten vergleichen

Beitragvon BMo8 » Do 23. Mär 2017, 14:47

Hallo zusammen,

ich glaube ich bin einen Schritt weiter.
ich habe es noch nicht getestet, aber vom Ansatz her folgen meine Daten einer power-law-distribution -> http://epubs.siam.org/doi/pdf/10.1137/070710111
Das Problem wird aus hier schonmal beschrieben: http://stats.stackexchange.com/question ... buted-data

Hat mit dem Vergleich von Gruppen mit power law distributed data in SPSS schon mal jemand Erfahrung gesammelt?
BMo8
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 21. Mär 2017, 22:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Logarithmische verteilte Daten vergleichen

Beitragvon bele » Do 23. Mär 2017, 18:08

Hallo BMo8,

ich denke, ich würde in einem ersten Schritt die Nutzungshäufigkeiten der drei Interfaces mit einem ganz banalen Rangsummentest (Wilcoxon oder Kruskall-Wallis) miteinander vergleichen. Angesichts brauchbarer Fallzahlen könnte das gut trotz Zero-Inflation funktionieren und dann bliebe Dir der ganze Aufwand mit Transformationen, zero-inflated models oder Herauslöschen aller Null-User erspart.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Logarithmische verteilte Daten vergleichen

Beitragvon BMo8 » Do 23. Mär 2017, 20:37

Hallo Bernhard,

vielen Dank. Ja ich denke auch, dass nicht-parametrische Test wahrscheinlich am besten sind.
Ich habe heute auch ein paar log-log-plots gemacht.
Das funktioniert recht gut, um mögliche Unterschiede zu visualisieren.

Kennt jemand ein wiss. Paper, bei dem etwas ähnliches untersucht wurde und an dem ich mich orientieren könnte?

Viele Grüße
Benedikt
BMo8
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 21. Mär 2017, 22:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste

cron