Bestimmung der Verteilung der Grundgesamtheit

Fragen, die sich auf kein spezielles Verfahren beziehen.

Bestimmung der Verteilung der Grundgesamtheit

Beitragvon Der Lachs » Mi 8. Dez 2021, 17:58

Hallo zusammen,
ich habe schon viel durchforstet und hinterfrage mich mittlerweile komplett mit meinen Annahmen.
Vielleicht ist es auch zu einfach und ich sehe es nicht :?:
Mein Ziel ist es über eine geeignet große Stichprobe Rückschlüsse auf die Verteilung der Grundgesamtheit zu ziehen.
Genau bedeutet es, dass ich beispielsweise 5 Kategorien in der Grundgesamtheit vorfinde. Nun möchte ich über eine entsprechende Stichprobe die Verteilung der Kategorien in der Grundgesamtheit bestimmen.
Es wird beispielsweise folgendes Ergebnis in der Art angestrebt:
- 40% Kategorie 1
- 20% Kategorie 2
- 10% Kategorie 3
- 10% Kategorie 4
- 20% Kategorie 5

Die prozentualen Anteile sollen am besten nicht von mir im Voraus geschätzt werden, sondern Ergebnis der Berechnungen sein.
Bisher finde ich einfach keine geeigneten Verfahren, da sich diese nicht wirklich auf Verteilungen beziehen.

Hat vielleicht jemand eine Idee für einen geeigneten Lösungsweg?

Vielen lieben Dank für jegliche Idee und Hilfe! Was wäre das Leben nur ohne Mathe :D

Viele Grüße,
Der Lachs
Der Lachs
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 8. Dez 2021, 17:31
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon bele » Mi 8. Dez 2021, 18:57

Hallo Lachs,

Du zählst einfach wie häufig jede der fünf Kategorien in Deiner Stichprobe war und teilst diese fünf Werte jeweils durch die Stichprobengröße. Dann alles mal 100% rechnen und fertig. Die Verteilung in der Stichprobe ist der beste Schätzer für die Verteilung in der Grundgesamtheit. Ich befürchte dass Dir das nicht hilft, aber dann musst Du die Frage präzisieren.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5921
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Der Lachs

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon Der Lachs » Mi 8. Dez 2021, 19:34

Hallo Bernhard,

erstmal vielen Dank für die schnelle Antwort!
Jede Antwort hilft mir gerade weiter, ist ja meistens erstmal ein Weg bis zu der gewünschten Lösung :D
Zu dieser Rechnung ergibt sich für mich die Frage, wie groß die Stichprobe dann sein muss, um diese als verlässlichen Schätzer für die Verteilung der Grundgesamtheit zu nutzen?
Also gibt es dafür ähnliche rechnerische Lösungswege wie beispielsweise bei der Berechnung der Stichprobengröße beim Hypothesentest aufbauend auf den Schlüsselwerten Konfidenzintervall, z-Wert und etc.
Vielleicht auch vorwegzunehmen, dass klar eine größere Stichprobe eine genauere Aussage über die Grundgesamtheit erlaubt, aber es gibt ja auch einen gewissen Wert, an dem ein Zuwachs des Stichprobenumfangs keinen nennenswerten Mehrwert mehr liefert und dieser ist interessant, da ich den Stichprobenumfang nicht unnötig groß haben möchte.

Nochmals vielen Dank!

Viele Grüße,
Arndt
Der Lachs
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 8. Dez 2021, 17:31
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon bele » Mi 8. Dez 2021, 20:06

Das kommt natürlich immer darauf an, was für Dich "verlässlich" ist und wie selten die am wenigsten häufigen Kategorien sind. Je seltener etwas vorkommt, umso größer muss die Stichprobe sein. Um Fallzahlschätzungen zu machen musst Du dann eben doch "vorher schätzen".

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5921
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

folgende User möchten sich bei bele bedanken:
Der Lachs

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon Der Lachs » Mi 8. Dez 2021, 20:56

Ja das stimmt natürlich. Ich spreche hier auch eher von einer großen Grundgesamtheit ca. 20000. Gibt es denn eine ähnliche Vorgehensweise für die Berechnung der nötigen Stichprobengröße in meinem Fall wie der Berechnung der nötigen Stichprobengröße eines Hypothesentests?
Was ich noch zu dem Thema gefunden habe, ist der t-Test in R und der zentrale Grenzwertsatz

Vielen Dank und viele Grüße,
Arndt Kremer
Der Lachs
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 8. Dez 2021, 17:31
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon bele » Mi 8. Dez 2021, 22:55

Hallo Arndt,

bestimmt gibt es da geeignete Rechenwege, wenn man entsprechende Annahmen treffen will. Sind mir nicht bekannt, der Suchbegriff in der Suchmaschine Deiner Wahl känne "multinomial distribution" lauten.

Wenn Du R benutzt (der t-Test-Verweis deutet daraufhin), könntest Du eine Simulation rechnen, beispielsweise wie diese hier:

Code: Alles auswählen
options <- ordered(LETTERS[1:5])
chances <- c(.59, .2, .1, .1, .01)
n <- 100

reps <- replicate(10000,
                  table(sample(options, n, TRUE, chances)))

par(mfrow = c(5,1), mar = c(3, 2, 1, 1))
for(i in 1:5){
  hist(reps[i,], xlim = c(0, n),
       main = paste0("Histogram of ", options[i],
                     " at n = ", n), breaks = 0:n)
  cat(paste0("\n", options[i], " - Quantile in Prozent:\n"))
  print(quantile(reps[i,], c(0.025, .25, 0.5, .75, 0.975))/n*100)
}


In Zeile 2 ("chances <-") wird die von Dir angenommene Prozentverteilung eingegeben, in Zeile 3 ("n <-") gibst Du die Stichprobengröße an und als Ergebnis spuckt R Dir fünf Histogramme aus, wie die beobachteten Werte schwanken (ggf. Fenster für die Grafikdarstellung groß genug machen). Wenn Du mal n <- 50 und mal n <- 500 setzt siehst Du, wie die Schwankungsbreite der Stichprobenwerte sich verändert. Du wirst auch schnell sehen, dass der Gewinn durch zusätzliche Stichproben am Anfang sehr groß ist und dann immer kleiner wird.

HTH,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5921
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon Der Lachs » Do 9. Dez 2021, 14:49

Hallo Bernhard,

deine Hilfe ist unvorstellbar gut, vielen vielen Dank!
Ich werde nun wie folgt vorgehen:
- Ich schaue, ob eine Normalverteilung vorliegt über ein Histogramm einer gewissen Stichprobe
- Ich werde als Anfangswert die nötige Stichprobengröße über Standardabweichung, Konfidenzintervall, Z-Wert ausrechnen (halt den Rechenweg, den auch die typischen Onlinerechner gehen) bei 20000 würde ein Wert von ca 380 notwendigen Stichproben herauskommen
- Ich werte die Verteilung der Kategorien innerhalb der Stichprobe aus und nutze die Verteilung als Anfangswert für deinen Code (ist C++, oder?)
- Nun nehme ich weitere Stichproben dazu und schaue, wie sich das Histogramm verhält, bzw wie groß die Änderungen untereinander sind
- so müsste ich eigentlich approximativ an die Verteilung herankommen

Ansonsten versuche ich mich gerade am Chi-Anpassungstest

Vielen vielen Dank nochmal!
Viele Grüße,
Arndt
Der Lachs
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 8. Dez 2021, 17:31
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Bestimmung der Verteilung der Grundgesamtheit

Beitragvon bele » Do 9. Dez 2021, 15:00

Hallo Arndt

Der Lachs hat geschrieben:Ich werde nun wie folgt vorgehen:
Ich schaue, ob eine Normalverteilung vorliegt über ein Histogramm einer gewissen Stichprobe


Bisher war in diesem Thread die Rede von einer Häufigkeitsverteilung in 5 diskrete Kategorien. Normalverteilungen sind etwas für kontinuierlich verteilte Größen. Ich bringe daher diesen Satz nicht mit dem Thread in Übereinstimmung. Das gilt damit auch für die folgenden Sätze.


- Ich werte die Verteilung der Kategorien innerhalb der Stichprobe aus und nutze die Verteilung als Anfangswert für deinen Code (ist C++, oder?)


Nein, das ist nicht C++, das ist R. R ist eine kompilierte Sprache die speziell für statistische Auswertungen und Simulationsrechnungen gedacht ist. Du kannst diesen Code einfach in eine R REPL copypasten und erhälst die ERgebnisse einer Simulation mitsamt einer fast druckfähigen Grafik bestehend aus 5 Histogrammen - wenn Dich das interessiert kannst Du R von http://www.r-project.org downloaden. Ich dachte, dass sei klar, als ich gelesen habe "t-Test in R".

Ansonsten versuche ich mich gerade am Chi-Anpassungstest


Der ist für den Vergleich von beobachteten Häufigkeiten in diskreten Verteilungen sehr geeignet und lässt sich beispielsweise in R mit dem Kommande chisq.test() durchführen.

Viel Erfolg,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5921
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 16 Gäste