Hallo zusammen,
dies is mein erster Beitrag, daher hoffe ich, dass ich alles richtig mache!
Im Rahmen meiner Masterarbeit untersuche ich Nutzungsdaten einer Mobile App und unterscheide dabei zwischen Nutzern, die über ein Empfehlungsprogramm (n= 5.000) und Nutzern, die über andere Wege auf die Plattform gekommen sind (n= 115.000). Dabei sehen die durchschnittlichen Monatsausgaben folgendermaßen aus:
Min.: 0.0027, 1st Qu.: 0.7829, Median: 3.0858, Mean: 9.7249, 3rd Qu.: 10.3979, Max.: 375.5484
Ich habe mir nun schon einige Paper zur Ausreißerbehandlung durchgelesen, allerdings besteht mein Set demnach fast nur aus Ausreißern. Ich habe auch schon über Logarithmieren, Trimming und Winsorizing nachgedacht. Problematisch dabei ist, dass viele Nutzer der Plattform nur selten dort sind und wenig ausgeben (Histogramm anbei). In meinem Beispielpaper handelt es sich um eine Bank, die durch ihr vertragliches Verhältnis natürlich stetigere Einnahmen und klarere Kundengruppen hat. Ich stelle mir nun folgende Fragen:
- Sollte ich die 'Wenignutzer' abschneiden und mich z. B. auf die Nutzer zwischen erstem und drittem Quartil fokussieren?
- Sollte ich ein random Sample der zweiten Gruppe nehmen, damit beide Gruppen die gleiche Größe vorweisen?
- Welche Methoden der Ausreißerbehandlung sollte ich vornehmen? Plots von Maßnahmen wie Cooks Distance, Studentized Residuals etc. sind kaum lesbar.
- Sollte ich die Nutzergruppen vorher clustern?
Ich denke, ich mache irgendwas falsch bzw. habe einen Denkfehler. Daher freue ich mich auf eure Hilfe!
Liebe Grüße