Liebe community,
ich könnte mal etwas Hilfe gebrauchen, wie ich es auch drehe und wende, es tauchen immer neue Probleme auf.
Ich habe eine Reihe von Messwerten aus einem Hörtest, die Werte kennzeichnen den prozentualen Anteil von verstandenen Wörtern. Die Probanden wurden nach Alter in die beiden Gruppen jung und alt aufgeteilt und jeder Proband bekam zunächst eine Serie von Wörtern in niedriger Lautstärke vorgespielt und später eine Serie von Wörtern in höherer Lautstärke. Es gibt also insgesamt 4 Gruppen, in jeder Gruppe befinden sich zwischen 80 und 90 Probanden. Es soll zunächst festgestellt werden, ob ein Unterschied zwischen den beiden Altersgruppen besteht hinsichtlich des Anteils der verstandenen Wörter.
Aus den Mittelwerten der 4 Gruppen ergibt sich folgendes Bild:
https://www.dropbox.com/s/wx7ruypb8al8r ... l.jpg?dl=0
Ich dachte an eine zweifaktorielle ANOVA, inwieweit ist dann problematisch, dass jede Person 2 Messwerte geliefert hat, einmal leise und einmal laut?
Ich erhalte diesen R-Output:
https://www.dropbox.com/s/gbnpgm9tgeab7 ... A.jpg?dl=0
Im Zusammenhang mit der ANOVA könnte weiterhin problematisch sein, dass der Levene Test signifikant wird:
https://www.dropbox.com/s/8owliyuidfbbx ... t.jpg?dl=0
Auch der Shapiro-Wilks Test wird für alle 4 Gruppen signifikant. Ist eine ANOVA dann überhaupt ein taugliches Verfahren?
Ich habe auch ein lineares Regressionsmodell in Betracht gezogen, es ergibt sich allerdings ein sehr niedriges R²:
https://www.dropbox.com/s/36iqkh9p96twjj2/LM1.jpg?dl=0
Wie man sieht, ist das Alter in keinem der beiden Fälle signifikant geworden. Aufgrund der Verletzung diverser Voraussetzungen, habe ich auch mal einen t-Test mit Welch Korrektur gemacht, der soll ja robust gegen die Verletzung der Normalverteilungsannahme sein. Das Ergebnis ist ebenfalls, dass kein signifkanter Unterschied zwischen den Altersgruppen vorliegt:
https://www.dropbox.com/s/axeebwq8u2whw ... r.jpg?dl=0
In diesem Fall liegt aber immer noch das Problem vor, dass ja von jeder Person 2 Messwerte in den Test eingeflossen sind. Ich habe daher die Daten für die leisen Werte und die lauten Werte voneinander getrennt verglichen:
t-Test leise: https://www.dropbox.com/s/fbow0imh1erxk ... B.jpg?dl=0
t-Test laut: https://www.dropbox.com/s/k47noevfslcch ... B.jpg?dl=0
Es ergibt sich kein signifikanter Unterschied bei den leisen Wörtern und ein signifikanter Unterschied bei den lauten Wörtern. Allerdings frage ich mich, ob ich bei einer solchen mehrfachen Testung das Signifikanzniveau korrigieren muss? Oder liegt hier gar keine multiple Testung vor, weil jeweils andere Daten getestet wurden?
Ich habe auch überlegt, ob aufgrund der signifikanten Shapiro-Wilk Tests in allen 4 Gruppen eventuell ein parameterfreier Test vorzugswürdig sein könnte.
Bevor ich das aber versuche, würde ich gerne erfahren, ob eine oder mehrere der 4 oben dargestellten Varianten vertretbar sind und freue mich daher auf euer feedback.