Wie viele Töpfe bleiben leer?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Wie viele Töpfe bleiben leer?

Beitragvon Pusepampel » Mi 5. Feb 2025, 10:25

Hallo,

ich zermartere mir seit Tagen das Hirn über ein Problem, das ich mal so formulieren will:

Angenommen, wir haben n=100 Kugeln, die mit verbundenen Augen, also rein zufällig, in 100 Töpfe geworfen werden. Natürlich können in einemTopf auch mehrere Kugeln landen. Die Wahrscheinlichkeit, dass ein bestimmter Topf bei einem Kugelwurf nicht getroffen wird, ist 99/100, bei 100 Würfen also 0,99^100 = 0,366, oder allgemein (mit großen n geht diese Wahrscheinlichkeit gegen 1/e). Wir können also erwarten, dass etwa 36 oder 37 Töpfe leer bleiben. So weit, so einfach.

Damit habe ich den Erwartungswert für die Zahl der leeren Töpfe. Ich brauche jetzt aber die Standardabweichung, oder anders gefragt eine Konfidenzaussage: Ab wie vielen leeren Töpfen kann man (z. B. mit 95%iger Sicherheit) davon ausgehen, dass die Verteilung eben nicht mehr zufällig ist?

Für die Wahrscheinlichkeit, dass genau l von n Töpfen leer bleiben, habe ich folgende Formel gefunden: , wobei S(n,l) die Stirling-Zahlen 2. Art sind. Die werden aber leider schnell unhandlich groß, und eine einigermaßen brauchbare Näherungsformel hab ich nicht gefunden. Bei n= 100 kriegt man das mit Excel mit ein paar Tricks gerade noch hin, so bin ich darauf gekommen, dass die Wahrscheinlichkeit für 41 leere Töpfe ca. 4,7 % beträgt. Also sollte man umgekehrt davon ausgehen können, dass bei 41 oder mehr leeren Töpfen mit 95%iger Wahrscheinlichkeit eine systematische Abweichung von der rein zufälligen Verteilung vorliegt. Aber was mache ich, wenn n deutlich größer als 100 wird? Hat jemand irgendeine hilfreiche Idee?
Zuletzt geändert von Pusepampel am Mi 5. Feb 2025, 12:01, insgesamt 1-mal geändert.
Pusepampel
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 5. Feb 2025, 09:23
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Wie viele Töpfe bleiben leer?

Beitragvon bele » Mi 5. Feb 2025, 10:59

Hallo Pusepampel,

Pusepampel hat geschrieben:Für die Wahrscheinlichkeit, dass genau l von n Töpfen leer bleiben, habe ich folgende Formel gefunden: , wobei S(n,l) die Stirling-Zahlen 2. Art sind.


Sorry, da bin ich 'raus, dafür reichen meine Mathematikkenntnisse leider nicht.

...dass die Wahrscheinlichkeit für 41 leere Töpfe ca. 4,7 % beträgt. Also sollte man umgekehrt davon ausgehen können, dass bei 41 oder mehr leeren Töpfen mit 95%iger Wahrscheinlichkeit eine systematische Abweichung von der rein zufälligen Verteilung vorliegt.


Die übliche Herangehensweise in der Statistikfunktioniert anders. Ein p-Wert betrachtet die Wahrscheinlichkeit, dass bei Zufallsverteilung ein Ergebnis wie das beobachtete oder extremer eintritt. Dass zu erreichen würde es also nicht reichen, dass sondern Du müsstest die Wahrscheinlichkeiten von 41 bis 100 Töpfe aufaddieren. Erst wenn dieser p-Wert, also Wahrscheinlichkeit unter Einschluss der noch extremeren Ereignisse, kleiner 5% ist spricht man allgemein von statistischer Signifikanz.

Hat jemand irgendeine hilfreiche Idee?


Keine für Dich befriedigende. Die platte Alltagsweisheit lautet, dass man dort, wo man (ich) mit Mathematik nicht weiter kommt, Simulationen rechnen kann. So kann ich vielleicht die Sache mit den 41 leeren Töpfen illustrieren.

Mein Werkzeug ist nicht Excel, meines ist R. Bestimmt geht das auch irgendwie in Excel, aber da kenne ich mich nicht genug aus.

Zunächst einmal nutze ich den Zufallszahlengenerator um 100 Zahlen zwischen 1 und 100 zu ziehen, das sei dann jeweils die Topfnummer eines Wurfs:

Code: Alles auswählen
n <- 100
sample.int(n = n, size = n, replace = TRUE)


Die Funktion unique() reduziert Mehrfachnennnungen, und length(unique(...)) zählt damit, wieviele unterschiedliche Töpfe geworfen wurden. Die Zahl der ungenutzten Töpfe ist damit

Code: Alles auswählen
n <- 100
n - length(unique(sample.int(n = n, size = n, replace = TRUE)))


Wenn ich das jetzt nicht einmal mache, sondern 20mal repliziere, dann können die Ergebnisse beispielsweise so aussehen:

Code: Alles auswählen
> replicate(20, n - length(unique(sample.int(n = n, size = n, replace = TRUE))))
[1] 38 33 36 35 38 38 35 35 31 38 33 35 31 37 41 33 36 33 37 34


Krasser Zufall, dass bei 20 Würfen die 41 einmal dabei war, was genau Deinen 5% enspricht.

Okay, nächster Schritt, wir wiederholen das nicht 20 Mal sondern 1 Millionen mal und lassen den table-Befehl auszählen, wie oft welche Topfhäufigkeit aufgetreten ist.

Code: Alles auswählen
> n <- 100
> table(replicate(1000000, n - length(unique(sample.int(n = n, size = n, replace = TRUE)))))

    22     23     24     25     26     27     28     29     30     31     32     33     34     35     36     37
     1      6     22    115    354   1032   2777   6399  13327  25632  43498  66011  91041 111918 125661 126435

    38     39     40     41     42     43     44     45     46     47     48     49     50     51
115175  94575  70635  47711  28759  15524   7777   3435   1441    499    155     67     15      3


Und um ein Gefühl für die Schwankungsbreite zu bekommen das gleiche nochmal

Code: Alles auswählen
> table(replicate(1000000, n - length(unique(sample.int(n = n, size = n, replace = TRUE)))))

    23     24     25     26     27     28     29     30     31     32     33     34     35     36     37     38
     3     34    100    334   1076   2654   6306  13670  25421  43380  66026  90663 112482 125303 126837 115269

    39     40     41     42     43     44     45     46     47     48     49     50     51
94244  70499  47457  28924  15996   7753   3490   1352    491    176     45     13      2


Die 41 kam beide Mal in den von Dir präzise berechneten 4,7% vor. Wenn man es genauer wissen will, kann man den Rechner länger arbeiten lassen.

Worauf ich hinaus wollte: Die Wahrscheinlichkeit, dass 41 oder mehr Töpfe genutzt werden liegt deutlich über der, dass genau 41 Töpfe genutzt werden und das ist das übliche Entscheidungskriterium, nachdem man die Annahme statistisch verwirft, oder nicht.


Das war nicht die Antwort, die Du lesen wolltest, ich hoffe, es bringt trotzdem was.
Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Pusepampel

Re: Wie viele Töpfe bleiben leer?

Beitragvon Pusepampel » Mi 5. Feb 2025, 11:33

Danke, Bernhard, für die superschnelle Antwort, und gleich unterlegt mit ein paar R-Experimenten! Das muss ich mir jetzt mal genau ansehen.

Und ja, dein Hinweis stimmt natürlich. Es ist Unsinn, allein anhand der knapp 5 % Wahrscheinlichkeit für genau 41 leere Töpfe darauf zu schließen, dass der Prozess mit 95%iger Wahrscheinlichkeit nicht zufallsbestimmt ist. Für genau 37 leere Töpfe, was gerade dem Erwartungswert entspricht, beträgt die Wahrscheinlichkeit ja auch nur 12,6 %, und da müsste ich die Zufalls-Hypothese immer noch mit 87,4 %iger Sicherheit verwerfen. So einfach geht es dann doch nicht.

Übrigens hatte ich oben einen Schreibfehler in der Formel, das muss S(n, n-l) heißen. Hab ich nachträglich korrigiert, aber im Zitat steht's immer noch falsch.
Pusepampel
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 5. Feb 2025, 09:23
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Wie viele Töpfe bleiben leer?

Beitragvon bele » Mi 5. Feb 2025, 13:22

FWIW - ich habe seit meinem Post eben den Rechner nicht gebraucht und ihn einfach nochmal mit 100 Mio Replikationen rechnen lassen. Unten tabelliert finden sich die kummulierten Prozentsätze für die verschiedenen Anzahlen leerer Töpfe:

Code: Alles auswählen
        18         20         21         22         23         24         25
  0.000001   0.000004   0.000035   0.000197   0.000904   0.003841   0.014768

        26         27         28         29         30         31         32
  0.051016   0.157063   0.433509   1.079844   2.437088   4.994130   9.322148

        33         34         35         36         37         38         39
15.922284  24.990376  36.219312  48.768799  61.415911  72.941379  82.422089

        40         41         42         43         44         45         46
89.466857  94.203461  97.078740  98.653904  99.435417  99.785039  99.925574

        47         48         49         50         51         52         53
99.976530  99.993276  99.998268  99.999605  99.999912  99.999988  99.999997

        54
100.000000


Witzigerweise ist 41 tatsächlich eine Grenze: Bei gültiger Nullhypothese treten höchstens 41 Töpfe in 94,2 % der Fälle auf. Je nachdem, welche Rundungsfehler Du eingehen möchtest, sind also alle Werte ab 42 oder (streng genommen) ab 43 Töpfen signifikant zuviele (gegeben einen einseitgen Test, der nur Abweichungen nach oben aber nicht nach unten berücksichtigt).

Ich weiß, das hilft im Kern nicht, wenn Du eine analytische Lösung suchts, die zudem auch noch rechenbar bleibt.

aber im Zitat steht's immer noch falsch.


Macht nichts, meine Schlussfolgerung, dass das meinen Mathehorizont überschreitet bleibt davon unberührt und wenn ein schlauerer Kopf als ich das liest, dann liest der Deinen Eingangspost zuerst (bevor er uns erklärt, dass das im Grunde eine Binomialverteilung mit ist...)

Viel Erfolg,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste