Behandlung von großem und ungleich verteiltem Datensatz

Fragen, die sich auf kein spezielles Verfahren beziehen.

Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon MoinRoy » Mi 23. Mär 2022, 12:24

Hallo zusammen,

dies is mein erster Beitrag, daher hoffe ich, dass ich alles richtig mache!
Im Rahmen meiner Masterarbeit untersuche ich Nutzungsdaten einer Mobile App und unterscheide dabei zwischen Nutzern, die über ein Empfehlungsprogramm (n= 5.000) und Nutzern, die über andere Wege auf die Plattform gekommen sind (n= 115.000). Dabei sehen die durchschnittlichen Monatsausgaben folgendermaßen aus:

Min.: 0.0027, 1st Qu.: 0.7829, Median: 3.0858, Mean: 9.7249, 3rd Qu.: 10.3979, Max.: 375.5484

Ich habe mir nun schon einige Paper zur Ausreißerbehandlung durchgelesen, allerdings besteht mein Set demnach fast nur aus Ausreißern. Ich habe auch schon über Logarithmieren, Trimming und Winsorizing nachgedacht. Problematisch dabei ist, dass viele Nutzer der Plattform nur selten dort sind und wenig ausgeben (Histogramm anbei). In meinem Beispielpaper handelt es sich um eine Bank, die durch ihr vertragliches Verhältnis natürlich stetigere Einnahmen und klarere Kundengruppen hat. Ich stelle mir nun folgende Fragen:

- Sollte ich die 'Wenignutzer' abschneiden und mich z. B. auf die Nutzer zwischen erstem und drittem Quartil fokussieren?
- Sollte ich ein random Sample der zweiten Gruppe nehmen, damit beide Gruppen die gleiche Größe vorweisen?
- Welche Methoden der Ausreißerbehandlung sollte ich vornehmen? Plots von Maßnahmen wie Cooks Distance, Studentized Residuals etc. sind kaum lesbar.
- Sollte ich die Nutzergruppen vorher clustern?

Ich denke, ich mache irgendwas falsch bzw. habe einen Denkfehler. Daher freue ich mich auf eure Hilfe!

Liebe Grüße :)
MoinRoy
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Mär 2022, 12:03
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon PonderStibbons » Mi 23. Mär 2022, 12:37

Ich habe mir nun schon einige Paper zur Ausreißerbehandlung durchgelesen, allerdings besteht mein Set demnach fast nur aus Ausreißern. Ich habe auch schon über Logarithmieren, Trimming und Winsorizing nachgedacht.

Wieso sprichst Du von Ausreißern und was hast Du gegen diese Fälle?
- Sollte ich die 'Wenignutzer' abschneiden und mich z. B. auf die Nutzer zwischen erstem und drittem Quartil fokussieren?

Ohne die Fragestellungen und eventuell die geplanten Auswertungen zu kennen, ist das nicht zu beantworten.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon MoinRoy » Mi 23. Mär 2022, 12:45

Hey PonderStibbons,

vielen Dank für die Antwort. Grundsätzlich sind dies meine Hypothesen (normalerweise auf Englisch):

- H1: (a) Die durchschnittlichen Ausgaben eines Kunden, der über ein Empfehlungsprogramm gewonnen wurde, sind höher als die eines Kunden, der über andere Methoden gewonnen wurde, aber (b) dieser Unterschied wird im Laufe der Zeit kleiner.
- H2: (a) Die durchschnittliche Loyalität eines über ein Empfehlungsprogramm gewonnenen Kunden ist höher als die eines über andere Methoden gewonnenen Kunden, und (b) dieser Unterschied wird im Laufe der Zeit nicht kleiner.
- H3: (a) Je höher die durchschnittlichen Ausgaben eines Kunden sind, desto höher ist die Weiterempfehlungsrate des Kunden, und (b) die Weiterempfehlungsrate eines durch ein Empfehlungsprogramm gewonnenen Kunden ist höher als die eines durch andere Methoden gewonnenen Kunden.

H1a ist durch eine lineare Regression zu beantworten, allerdings sind die durchschnittlichen Ausgaben durch Einzelfälle extrem nach oben verzogen, wenn man sieht, dass die Masse eigentlich wenig (im Median 3€ im Monat) ausgibt.
Gleichzeitig ist es wahrscheinlich eher eine philosophische Frage, ob jemand, der sich registriert, einen Tag aktiv war und 1€ ausgegeben hat, wirklich als Nutzer zählen sollte. Da bin ich mir aber selbst total unsicher.
MoinRoy
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Mär 2022, 12:03
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon PonderStibbons » Mi 23. Mär 2022, 13:02

H1a ist durch eine lineare Regression zu beantworten,

Da reicht doch eigentlich ein t-Test. Bzw. ein Test ist angesichts der riesigen Stichprobe sowieso unnötig. Oder werden Co-Variablen
einbezogen, dann wäre ein multipler Regressionsanasatz natürlich naheliegend.
allerdings sind die durchschnittlichen Ausgaben durch Einzelfälle extrem nach oben verzogen, wenn man sieht, dass die Masse eigentlich wenig (im Median 3€ im Monat) ausgibt.

Es sind 120.000 Fälle insgesamt, da können es eigentlich nicht Einzelfälle sein, die den Mittelwert markant beeinflussen.
Und einen Unterschied zwischen 3 und 9 Euros finde ich auf Anhieb nicht extrem. Wenn es um Geld (Einkünfte, Ausgaben )
geht, dann sind die Verteilungen häufig sehr schief. Und die Forschungsfrage ist bislang die nach dem Mittelwert, nicht nach
dem Mittelwert-ohne-arbiträr-als-Ausreißer-etikettierte-Kunden. Und unter ökonomischen Gesichtspunkten könnten die
Subgruppe mit sehr hohen Ausgaben vielleicht die sehr interessante sein.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon MoinRoy » Mi 23. Mär 2022, 13:17

Alles klar, danke dir!

Wie stehst du zu den beiden Gruppengrößen? Würdest du ein Sample in Erwägung ziehen?
MoinRoy
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Mär 2022, 12:03
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Behandlung von großem und ungleich verteiltem Datensatz

Beitragvon PonderStibbons » Mi 23. Mär 2022, 14:10

Wieso Daten wegwerfen? Dass die Gruppen ungleich groß sind, stört doch nicht.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
MoinRoy


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 19 Gäste

cron