Hallo Tommo,
Ich habe zwei Gruppen mit jeweils 70 Probandinnen.
Das ist doch schon mal ganz ordentlich. Da kann man was mit rechnen.
Ich habe jetzt Daten wie Person X hat 2 Äußerungen getätigt, die darauf hinweisen, dass sie traurig war.
Ok, das war mir nicht klar. Du hast also zwei Mal 70 Personen und für jede Person und ein geschlossenes Set an Emotionen je eine ganze Zahl größer Null wie oft sie erwähnt wurden.
Mein Problem ist jetzt dass in einer Gruppe die Emotion Angst z.B. nur von einzelnen Personen 2-3 Mal geäußert wurde und von den restlichen Probandinnen garnicht, dementsprechend sind diese Personen die es geäußert haben nun Ausreißer.
Ich sehe das Problem weniger darin, dass das Ausreißer sind. Sagen wir, von 70 Personen haben 3 über Angst gesprochen. Mein Computer sagt, ein 95%-Konfidenzintervall für den wahren Anteil der Menschen mit Angstangabe reicht von 0,9% bis 12%. Also irgendwas von weniger als jeder Hundertste bis fast jeder Achte ist ein plausibler Wert. Und ganz sicher ist es damit verträglich, dass in der anderen Gruppe kein entsprechendes Ereignis vorkam. Ich würde also nicht sagen, dass diese zwei oder drei Werte Ausreißer sind, ich würde sagen, dass Angstangabe ein seltenes Ereignis war, dass deshalb mit der Stichprobe nur sehr, sehr unpräzise untersucht werden kann.
Weil die meisten Personen 0 angegeben haben, sieht die Verteilung von den Daten auch entsprechend aus. Ist das verständlich? Ich weiß nicht so genau wie ich es erklären soll.
Du hast wahrscheinlich zwei verschiedene Mechanismen, die zu einer Null führen können: Menschen, die bei der Frage gar nicht darüber nachgedacht haben, dass sie Angst beschreiben könnten und dann Menschen, die daran gedacht, sich aber inhaltlich dagegen entschieden haben. Solche Modelle nennt man
zero-inflated. Es gibt spezielle für
zero-inflated Daten, aber das ist alles ein wenig komplizierter und Du hast ja geschrieben, dass Du Dich nicht gut auskennst.
t-Tests sind eigentlich gemacht für den Mittelwertsvergleich von zwei Gruppen, deren Werte aus Normalverteilungen mit gleicher Varianz gezogen wurden. Deine Werte sind immer Null oder positiv und immer ganzzahlig und die Null kommt super häufig vor -- das ist weit weg von Normalverteilung. Praktisch hat sich aber gezeigt, dass mit größer werdendem Stichprobenumfang die Verteilungsform immer weniger wichtig wird. Mit 70 Personen in der kleineren Gruppe denke ich, dass man den Vergleich mittels t-Test vertreten kann.
Du wirst Deine Arbeit ja irgendwie verteidigen müssen, sei es gegenüber einem Professor, einem Vorgesetzten oder einem Zeitschriftenreviewer. Willst Du da das Bootstrapping verteidigen? Wenn ja, welche Software würdest Du für das Bootstrapping nehmen?
Ich habe hier ein Beispiel in R für Dich. Wir gehen davon aus, dass 2 von 70 Personen jeweils den Wert 2 angegeben haben. Dann würde ich die Verteilung der Mittelwerte in den Bootstrap-Samples wie folgt bestimmen:
- Code: Alles auswählen
# Stichprobe mit 2 mal zwei und 86 mal 0:
sp <- c(2, 2, rep(0,68))
# daraus ziehen wir jetzt 1.000.000 Bootstrap samples und bestimmen deren Mittelwert
bss <- replicate(1000000, round(mean(sample(sp, 70, 1)), 4))
# und das tabellieren wir jetzt
table(bss)
#> bss
#> 0 0.0286 0.0571 0.0857 0.1143 0.1429 0.1714 0.2 0.2286 0.2571 0.2857
#> 131675 270691 274734 183138 89972 34908 11141 2863 716 132 24
#> 0.3143
#> 6
GLG,
Bernhard