STATISTIK-FORUM.de

Dackel · von **Dackel** » Mo 29. Jan 2018, 23:29

Hallo an alle,

ich bin neu in dem Forum und hoffe mein Beispiel ist verständlich und im richtigen Unterforum (und auch, dass die Frage nicht schon gestellt wurde, ich konnte sie zumindest nicht finden).

Ich zerbreche mir schon seit einiger Zeit den Kopf an einer hypothetischen Fragestellung:
Ich vergleiche die Körpergröße der Bewohner zweier Länder, die jeweils 1000 Einwohner haben.

Land A: Mittelwert = 175 cm, Standardabweichung = 10 cm, Daten sind normalverteilt
Land B: Mittelwert = 170 cm, Standardabweichung = 7 cm, Daten sind normalverteilt

Jetzt treffen sich ein zufällig ausgewählter Bewohner von Land A und ein zufällig ausgewählter Bewohner von Land B. Wie hoch ist die Wahrscheinlichkeit, dass die Person aus Land A größer ist?

Das klingt vielleicht nach einer unsinnigen Fragestellung. Aber mich würde interessieren, wie ich aus den Kennzahlen für zwei Population berechnen kann, wie hoch die Wahrscheinlichkeit bei einer Zufallsbegegnung ist, dass zwei Individuen die gleiche Tendenz aufweisen wie die Gesamtmengen.

Lösungsansatz: (1) ich habe versucht, ob ich das graphisch über die Fläche unter den Verteilungsfunktionen lösen kann, aber das klappt nicht. (2) Dann habe ich überlegt, ob ich zig mal per Zufall Werte aus beiden Populationen ziehen soll und immer schauen soll, welcher größer ist. Dann könnte ich mich der Wahrscheinlichkeit experimentell nähern. Das ist aber sehr aufwendig und ich müsste es für jedes Fallbeispiel neu machen. (3) Als Drittes habe ich überlegt, ob mir ein t-Test helfen würde. Aber der würde ja nur eine Aussage über die statistische Relevanz des Größenunterschiedes machen und nicht über die Wahrscheinlichkeit, bei einer einmaligen Zufallsbegegnung zweier Individuen.

Ich bin euch sehr dankbar für jeden Tipp, wie ich das angehen kann. Falls die Frage schon diskutiert wurde, bin ich auch über einen Querverweis dankbar.

bele · von **bele** » Mo 29. Jan 2018, 23:49

Hallo Dackel,

willkommen im Forum

Dackel hat geschrieben:Das klingt vielleicht nach einer unsinnigen Fragestellung.

Überhaupt nicht. In der Bayes-Statistik werden so die Fragen beantwortet und im Maschinellen Lernen auch.

(2) Dann habe ich überlegt, ob ich zig mal per Zufall Werte aus beiden Populationen ziehen soll und immer schauen soll, welcher größer ist. Dann könnte ich mich der Wahrscheinlichkeit experimentell nähern. Das ist aber sehr aufwendig und ich müsste es für jedes Fallbeispiel neu machen.

So kompliziert ist das nun auch wieder nicht, wenn Du die richtigen Werkzeuge benutzt. Das kannst Du in R als Einzeiler schreiben. Der Übersichtlichkeit halber habe ich es auf mehrere Zeilen verteilt:

Code: Alles auswählen: n <- 1000000 A <- rnorm(n, 175, 10) B <- rnorm(n, 170, 7) sum(A>B)/n*100

So schnell kannst Du gar nicht blinzeln, wie Du das Ergebnis von 1 Mio Zufallspaaren hast: Es sind ungefähr 65,9 %. Die große Stärke dieses Ansatzes ist, dass er nicht auf Normalverteilungen beschränkt ist, sondern auch für unzählige andere Verteilungen (z. B. auch für Bootstrapverteilungen, Binomialverteilung, Poissonverteilung und frei erstellte diskrete Verteilungen) funktioniert.

Ach ja, in Wirklichkeit würde man das nicht nur einmal, sondern vielleicht 10 Mal machen, um zu sehen, ob die Ergebnisse einander ausreichend ähnlich sind, ob man also genug Wiederholungen eingeplant hat. Jetzt vielleicht mal als Einzeiler mit Ergebnissen:

Code: Alles auswählen: > replicate(10, sum(rnorm(1e6, 175, 10) > rnorm(1e6, 170, 7))/n*100) [1] 65.9362 65.9170 65.8775 65.9108 65.8166 65.8907 65.9035 65.9322 [9] 65.9327 65.8767

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Dackel

PonderStibbons · von **PonderStibbons** » Di 30. Jan 2018, 00:00

Was wissenschaftliches Schrifttum angeht zu der Frage, wäre
Macgraw & Wong, Common Language Effect Size Statistic
ein klassisches Exemplar.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Dackel

Dackel · von **Dackel** » Di 30. Jan 2018, 17:32

Super, das ist genau, was mir gefehlt hat.

Mit

Code: Alles auswählen: mean(replicate(10, sum(rnorm(1e6, 175, 10) > rnorm(1e6, 170, 7))/1e6*100))

bekommt man dann schön die Annäherung an den theoretischen Wert.

Hab auch die Publikation von Macgraw & Wong gefunden. Ebenfalls sehr nützlich.

Vielen Dank!

STATISTIK-FORUM.de

Wahrscheinlichkeit, dass A>B (A und B aus zwei Populationen)

Wahrscheinlichkeit, dass A>B (A und B aus zwei Populationen)

Re: Wahrscheinlichkeit, dass A>B (A und B aus zwei Populatio

Re: Wahrscheinlichkeit, dass A>B (A und B aus zwei Populatio

Re: Wahrscheinlichkeit, dass A>B (A und B aus zwei Populatio

Wer ist online?