Je nach Computerprogramm kannst Du den Test statt über die Chiquadratfunktion über eine Monte-Carlo-Simulation durchführen: Hier einmal in R über den normalen Weg:
- Code: Alles auswählen
> chisq.test(c(1,2,4,9))
Chi-squared test for given probabilities
data: c(1, 2, 4, 9)
X-squared = 9.5, df = 3, p-value = 0.02333
Warning message:
In chisq.test(c(1, 2, 4, 9)) :
Chi-Quadrat-Approximation kann inkorrekt sein
Du siehst, dass zwar ein p-Wert angezeigt wird, Du siehst aber auch, dass vor möglichen Fehlern gewarnt wird.
Hier ebenfalls in R der Weg über die Monte-Carlo-Berechnung:
- Code: Alles auswählen
> chisq.test(c(1,2,4,9), simulate.p.value = TRUE, B = 10000)
Chi-squared test for given probabilities with simulated
p-value (based on 10000 replicates)
data: c(1, 2, 4, 9)
X-squared = 9.5, df = NA, p-value = 0.025
Hier solltest Du durch ausprobieren, ob wiederholte Durchführung immer wieder zum fast gleichen Ergebnis kommt. Wenn die Schwankungen größer sind als Dein Bedürfnis nach Exaktheit akzeptieren will, musst Du die Zahl der Replikate B erhöhen. Hier 10 Bestimmungen mit B=10.000
- Code: Alles auswählen
> replicate(10, chisq.test(c(1,2,4,9), simulate.p.value = TRUE, B = 10000)$p.value)
[1] 0.02289771 0.02299770 0.02479752 0.02679732 0.02749725
[6] 0.02339766 0.02429757 0.02659734 0.02469753 0.02609739
Wir haben also keinen Zweifel daran, dass p < 0,03 ist und damit auch keinen Zweifel, dass es unter 0,05 ist. Wenn wir aber einen auf zwei Nachkommastellen exakten p-Wert angeben wollen, reicht B = 10.000 offensichtlich nicht aus. Was passiert mit B = 100.000? Da merkt man dann schon, dass Monte Carlo-Simulationen Zeit brauchen. Bis wir die 10 Werte haben, können wir noch schnell aufs Klo gehen:
- Code: Alles auswählen
> replicate(10, chisq.test(c(1,2,4,9), simulate.p.value = TRUE, B = 100000)$p.value)
[1] 0.02402976 0.02403976 0.02378976 0.02368976 0.02462975
[6] 0.02470975 0.02420976 0.02450975 0.02428976 0.02376976
Ok, wir kommen der zweiten Nachkommastelle näher... und die CHiquadrat-Approximation war gar nicht so schlecht, obwohl nicht alle Zellenbesetzungen über 5 sind.
Wir können also mit p < 0,05 sagen, dass die Häufigkeiten nicht gleichverteilt sind.
HTH,
Bernhard