Nunja.
Der Begriff ist so bei uns in der Statistik-Vorlesung gefallen und zwar in dem Zusammenhang, dass eine Stichprobe weder zu klein (dann wird nichts signifikant) noch zu groß (dann wird alles signifikant) sein soll. Ich dachte immer eine "ideale" Stichprobengröße wäre ein die also weder zu klein aber auch nicht zu groß ist.
Die Hölle der gepflegten Halbbildung, in die da vermittelt wird. Wenn eine Stichprobe so
groß ist, dass "alles" signifikant wird, dann werden die Tests überflüssig, weil der Stichprobenfehler
ohnedies vernachlässigbar klein ist und man keine Umwege über Nullhypothesentests nehmen muss. Zumindest aber ist dem kundigen Anwender dann bewußt, dass er eher auf Effektstärkemaße schauen
darf und sollte statt auf Signifikanzen. Für die übliche Forschungssituation aber ist die Aussage
hanebüchen. Es ergibt sehr wohl einen erheblichen Unterschied zwischen dem Aufwand, 120 Fälle
zu testen oder nur 50 Fälle, aber auch 120 Fälle lassen nicht "alles" signifikant werden. Was eine Fallzahlschätzung allenfalls hergibt, ist die notwendige Mindestzahl an Fällen unter bestimmten Vorannahmen, um eine bestimmte gewünschte power zu erreichen. Wenn man mehr Fälle zu erheben
sich leisten kann, dann ist das aus statistischer Sicht allemal willkommen. Es gibt keine
statistisch idealen oder optimalen Stichprobengrößen.
Wozu macht man überhaupt Signifikanztests anstatt einfach nur Effektstärkemaße zu berechnen?
Weil man Effektstärken (ES) nicht berechnen sondern allenfalls schätzen kann. Effekstärken beziehen sich
auf
Grundgesamtheiten, nicht auf
Stichproben, auch wenn das begrifflich ständig verquirlt wird.
Du hast ja erfreulicherweise korrekt von der Berechnung von ES-Maßen statt von ES geschrieben.
"Effekstärken" in kleinen bis mittleren Stichproben sind derart stark durch den Stichprobenfehler
kontaminiert, dass man eben auf den Signifikanztest ausweicht, der zumindest eine Entscheidung darüber
erlauben soll, ob man einen Populations-Effekt = 0,00000000... (was in der Regel getestet wird) oder eben
nicht = 0,000000... annimmt.
Normalerweise tanzt Du jetzt die "sample size Samba" und machst zur Berechnung der mindestens
erforderlichen Stichprobengröße für einen abhängigen t-test bei alpha=0,0166 und power=80% (das wäre die
konventionelle Höhe) begründete und plausible Annahmen über den zu erwartenden Mittelwertsunterschied
und die Korrelationen zwischen den Messzeitpunkten, so dass (surprise!) ungefähr ein n=45 herauskommt.
Wegen Datenausfällen sollte man sowieso meist noch +10-15% zusätzliche Fälle erheben.
Mit freundlichen Grüßen
P.