Hallo Pusepampel,
Pusepampel hat geschrieben:Für die Wahrscheinlichkeit, dass
genau l von n Töpfen leer bleiben, habe ich folgende Formel gefunden:
![](http://latex.codecogs.com/png.latex?P(n,l) = S(n,l)*\frac{1}{n^n}*\frac{n!}{l!})
, wobei S(n,l) die Stirling-Zahlen 2. Art sind.
Sorry, da bin ich 'raus, dafür reichen meine Mathematikkenntnisse leider nicht.
...dass die Wahrscheinlichkeit für 41 leere Töpfe ca. 4,7 % beträgt. Also sollte man umgekehrt davon ausgehen können, dass bei 41 oder mehr leeren Töpfen mit 95%iger Wahrscheinlichkeit eine systematische Abweichung von der rein zufälligen Verteilung vorliegt.
Die übliche Herangehensweise in der Statistikfunktioniert anders. Ein p-Wert betrachtet die Wahrscheinlichkeit, dass bei Zufallsverteilung ein Ergebnis wie das beobachtete
oder extremer eintritt. Dass zu erreichen würde es also nicht reichen, dass
![](http://latex.codecogs.com/png.latex?p_{41 Töpfe} < 5%)
sondern Du müsstest die Wahrscheinlichkeiten von 41 bis 100 Töpfe aufaddieren. Erst wenn dieser p-Wert, also Wahrscheinlichkeit unter Einschluss der noch extremeren Ereignisse, kleiner 5% ist spricht man allgemein von statistischer Signifikanz.
Hat jemand irgendeine hilfreiche Idee?
Keine für Dich befriedigende. Die platte Alltagsweisheit lautet, dass man dort, wo man (ich) mit Mathematik nicht weiter kommt, Simulationen rechnen kann. So kann ich vielleicht die Sache mit den 41 leeren Töpfen illustrieren.
Mein Werkzeug ist nicht Excel, meines ist R. Bestimmt geht das auch irgendwie in Excel, aber da kenne ich mich nicht genug aus.
Zunächst einmal nutze ich den Zufallszahlengenerator um 100 Zahlen zwischen 1 und 100 zu ziehen, das sei dann jeweils die Topfnummer eines Wurfs:
- Code: Alles auswählen
n <- 100
sample.int(n = n, size = n, replace = TRUE)
Die Funktion unique() reduziert Mehrfachnennnungen, und length(unique(...)) zählt damit, wieviele unterschiedliche Töpfe geworfen wurden. Die Zahl der ungenutzten Töpfe ist damit
- Code: Alles auswählen
n <- 100
n - length(unique(sample.int(n = n, size = n, replace = TRUE)))
Wenn ich das jetzt nicht einmal mache, sondern 20mal repliziere, dann können die Ergebnisse beispielsweise so aussehen:
- Code: Alles auswählen
> replicate(20, n - length(unique(sample.int(n = n, size = n, replace = TRUE))))
[1] 38 33 36 35 38 38 35 35 31 38 33 35 31 37 41 33 36 33 37 34
Krasser Zufall, dass bei 20 Würfen die 41 einmal dabei war, was genau Deinen 5% enspricht.
Okay, nächster Schritt, wir wiederholen das nicht 20 Mal sondern 1 Millionen mal und lassen den table-Befehl auszählen, wie oft welche Topfhäufigkeit aufgetreten ist.
- Code: Alles auswählen
> n <- 100
> table(replicate(1000000, n - length(unique(sample.int(n = n, size = n, replace = TRUE)))))
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
1 6 22 115 354 1032 2777 6399 13327 25632 43498 66011 91041 111918 125661 126435
38 39 40 41 42 43 44 45 46 47 48 49 50 51
115175 94575 70635 47711 28759 15524 7777 3435 1441 499 155 67 15 3
Und um ein Gefühl für die Schwankungsbreite zu bekommen das gleiche nochmal
- Code: Alles auswählen
> table(replicate(1000000, n - length(unique(sample.int(n = n, size = n, replace = TRUE)))))
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
3 34 100 334 1076 2654 6306 13670 25421 43380 66026 90663 112482 125303 126837 115269
39 40 41 42 43 44 45 46 47 48 49 50 51
94244 70499 47457 28924 15996 7753 3490 1352 491 176 45 13 2
Die 41 kam beide Mal in den von Dir präzise berechneten 4,7% vor. Wenn man es genauer wissen will, kann man den Rechner länger arbeiten lassen.
Worauf ich hinaus wollte: Die Wahrscheinlichkeit, dass 41 oder mehr Töpfe genutzt werden liegt deutlich über der, dass genau 41 Töpfe genutzt werden und das ist das übliche Entscheidungskriterium, nachdem man die Annahme statistisch verwirft, oder nicht.
Das war nicht die Antwort, die Du lesen wolltest, ich hoffe, es bringt trotzdem was.
Viele Grüße,
Bernhard