Hallo zusammen,
ich zerbreche mir seit einiger Zeit den Kopf über ein Problem, vielleicht kann mir ja jemand helfen (bin ich bei der Qualität des Forums eigentlich sogar recht zuversichtlich):
Bühner, Statistik für Psychologen uns Sozialwissenschaftler, 2017, S. 433 f. gibt also Formel für die Effektstärke des Kruskal-Wallis-Tests an mit den nach Cohen (1988) bekannten Grenzen 0.1, 0.3 und 0.5 für den kleinen, mittleren und großen Effekt. Angenommen ich habe eine Stichprobe vom Umfang 30 und drei Stufen, also 10 Werte je Stufe. Nun rechne ich um und erhalte für einen großen Effekt ein X² von 7.5.
Bühner empfiehlt nun für die Ermittlung der Teststärke G*Power, generischer X²-Test, Post hoc. Für den geforderten Noncentrality parameter empfiehlt er X² einzugeben, wobei er den empirischen Wert wählt. Wenn ich aber die Teststärke nicht für den empirischen Wert haben möchte - was ich immer etwas komisch da ja nachträglich betrachtet finde - sondern für einen großen Effekt und daher die 7.5 eingebe dann erhalte ich eine Teststärke von gerade einmal 68%. Habe ich kleinere Stichproben sinkt mein X² (umgeformt: X² = n x 0.5²) weiter und damit sinkt auch die Teststärke weiter - was ja auch Sinn macht.
Möchte ich eine "vernünftige" Teststärke von 80% erreichen (95% wären mir lieber, aber halten wir uns mal wieder an Cohen), dann bräuchte ich einen Parameter Lambda in G*Power von 9.7. Nehme ich den wieder als X² und rechne für einen großen Effekt von 0.5 um dann lande ich bei einem Stichprobenumfang von
.
Würde das nicht bedeuten, dass Kruskal-Wallis erst aber Stichprobenumfängen von 40 wirklich Sinn macht? Ich meine, warum mache ich einen Test, wenn die Wahrscheinlichkeit, einen großen Effekt zu entdecken, weniger als 80% beträgt. Oder wäre müsste man sich schlichtweg von Cohen verabschieden? Ähnliche Überlegungen treiben mich übrigens auch für andere nicht parametrische Tests um, aber ich habe es hier mal am Kruskal-Wallis Test aufgedröselt.
Gruß
Thomas