Gewichtung von Ergebnissen an einem Beispiel

Fragen, die sich auf kein spezielles Verfahren beziehen.

Gewichtung von Ergebnissen an einem Beispiel

Beitragvon MoonKid2 » Di 2. Mai 2023, 11:27

X-Post

Hallo,
ich glaube, dass Grundprinzip der "Gewichtung" habe ich durchaus verstanden. An Beispielen verstehe ich es. Aber mir fällt es schwer, das Prinzip bzw. den errechneten Gewichtungsfaktor auf meine eigenen Daten oder Ergebnisse anzuwenden. Bei diesem letzten Schritt stehe ich irgendwie auf dem Schlauch. Daher möchte ich das gerne an einem Beispiel hier durchspielen, in der Hoffnung auf Korrekturen und Hinweise eurerseits. Die Beispiele sind natürlich stark vereinfacht.

Es geht weniger um die technische Umsetzung mit SPSS/R/Python/xyz, sondern um den Rechenweg an sich. Am Ende ist ein Script, mit dem die hier behandelten Beispieldaten erzeugt werden können. Eine CSV oder ZIP hochzuladen habe ich nicht geschafft. Akzeptiert das Forum scheinbar nicht.

Ausgangslage
  1. Fragebogen-Umfrage mit 50 Personen im Sample
  2. 36% weiblich; 64% männlich (in diesem Sample)
  3. In der Vergleichspopulation (die "echte Bevölkerung") sind 60% weiblich und 40% männlich.
  4. Das ergibt nach meiner Rechnung die Gewichtungsfaktoren: 1.666667 für weiblich und 0.625000 für männlich

Ergebnisse der Umfrage
Der Fragebogen beinhaltet zwei unterschiedliche Arten von Fragen.

  • Frage A "Fühlst du dich gut?" kann mit Ja (TRUE) oder Nein (FALSE) beantwortet werden.
  • Frage B "Wie fühlst du dich auf einer Skala von sehr gut (0) bis sehr schlecht (4)?" kann auf einer Likert-Skale von 0 bis 4 beantwortet werden.

Häufigkeiten Gesamt und nach Geschlecht zu Frage A:
Code: Alles auswählen
> addmargins(table(df$gender, df$foo), 1)
       
         FALSE TRUE
  female     8   10
  male      18   14
  Sum       26   24


Häufigkeiten Gesamt und nach Geschlecht zu Frage B:
Code: Alles auswählen
> addmargins(table(df$gender, df$bar), 1)
       
          0  1  2  3  4
  female  3  5  6  1  3
  male    7  6  8  7  4
  Sum    10 11 14  8  7


Es wäre durchaus möglich, die Resultate bei Frage B zu dichitomisieren und Werte von 0 bis einschl. 2 einfach als "Ja, ich fühle mich gut." zu werten.

Mein Problem

Und hier komme ich nun nicht weiter. Wie kann ich die Gewichtungsfaktoren auf meine Ergebnisse anwenden, um die Ergebnisse auf die "echte Bevölkerung" zu gewichten?

Minimal Working Example
Hier ist der R-Code mit dem die oben beschriebenen Daten erzeugt werden können.

Code: Alles auswählen
set.seed(0)

k = 50
df <- data.frame(
    gender = sample(c("female", "male", "male"), k, replace = TRUE),
    foo = sample(c(TRUE, FALSE), k, replace = TRUE),
    bar = sample(c(0, 1, 2, 3, 4), k, replace = TRUE)
)

# Frequency
# tab = xtabs(~ gender + foo, data=df)
tab = table(df$gender)
print(tab)

# Fraction
frac = addmargins(prop.table(tab))
print(frac)

# Real poluatin gender fraction
real_female_frac = 0.6
real_male_frac = 0.4

# Weights
weight_female = real_female_frac / frac["female"]
weight_male = real_male_frac / frac["male"]
print(c(weight_female, weight_male))

print(table(df$foo))
print(table(df$bar))
MoonKid2
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Sa 20. Apr 2019, 17:55
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon PonderStibbons » Di 2. Mai 2023, 13:42

Du gewichtest die einzelnen Messungen, bevor/während Du aggregierst, nicht erst de Ergebnisse. Falls das ein technisches Problem sein sollte, hilft vielleicht http://forum.r-statistik.de/

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon bele » Di 2. Mai 2023, 14:52

Hallo MoonKid2,

ich gebe PonderStibbons mal wieder Recht, konkrete Fragen zu R sind in dem von ihm genannten Forum besser aufgehoben und dort wird man es sehr wertschätzen, dass Du versuchst, mit Beispieldaten und Beispielcode um die Ecke zu kommen.

Anscheinend geht es Dir aber nicht um R und mir ist die Fragestellung noch nicht klar genug formuliert.

Sagen wir 10 Frauen fühlen sich gut, 8 nicht und 14 Männer fühlen sich gut, 18 nicht. Was willst Du erreichen? Willst Du vorhersagen, wieviele Menschen sich gut oder nicht gut fühlen würden, wenn bei den Menschen die Geschlechter gleich häufig vorkommen? Ist das die Frage?

Nun, Du hast 18 Frauen befragt und 32 Männer. Wenn Du 1,78mal so viele Frauen befragt hättest, dann hättest Du gleich viele Frauen und Männer befragt. Also müsstest Du rechnen, dass jede Frauenaussage 1,78mal soviel zählt wie eine Männeraussage, dann wäre Repräsentativität wiederhergestellt. In der Befragung fühlten sich 10 von 18 Frauen gut, für unsere Hochrechnung sind das dann 10*1,78 von 18*1,78 also 17,8 von 32. Bei den Männern sind es auch für die Hochrechnung 14 von 32. Aus diesen beiden Verhältnissen lässt sich jetzt ein Mittelwert bilden, der eine mittlere Gutfühlquote bei gleicher Geschlechterrepräsentation ergibt.

Gewichten heißt multiplizieren und zwar so, dass das Zahlenverhältnis in der angestrebten Grundgesamtheit hergestellt wird.

War das die Frage und war das eine nachvollziehbare Antwort? Sonst präzisiere bitte Deine Frage nochmal.

Wie kann ich die Gewichtungsfaktoren auf meine Ergebnisse anwenden


Das kommt im Einzelnen darauf an, um welche Ergebnisse es geht.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5916
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon MoonKid2 » Di 2. Mai 2023, 15:54

Vielen herzlichen Dank für die Antworten und Hilfe.

PonderStibbons hat geschrieben:Du gewichtest die einzelnen Messungen, bevor/während Du aggregierst, nicht erst de Ergebnisse.

Aber was "bele" vorgerechnet hat, sind meinem Verständnis nach nicht die einzelnen Messungen, sondern eben das Ergebnis. Ich verstehe da bestimmt etwas falsch.

bele hat geschrieben:Anscheinend geht es Dir aber nicht um R

Ja, richtig. Hätte es auch in SPSS, Python/Pandas, etc schreiben können.

bele hat geschrieben:und mir ist die Fragestellung noch nicht klar genug formuliert.

Vermutlich, weil ich mein eigenes Problem selbst noch nicht so klar sehe.

bele hat geschrieben:Willst Du vorhersagen, wieviele Menschen sich gut oder nicht gut fühlen würden, wenn bei den Menschen die Geschlechter gleich häufig vorkommen?
Ja genau. Nur das in meinem Beispiel die Verteilung in der "echten Bevölkerung" nicht 50/50 sondern 40/60 war.

Das bringt mich zur Frage der Faktorenberechnung. Du machst einfach 32 durch 18 und bekommst 1,78. Ich verstehe allerdings nicht, warum du den (oder einen anderen) Faktor nicht auch bei den Männern anwendest?
In meinem Beispiel habe ich ja auch zwei Faktoren, jeweils für Männer und Frauen.

bele hat geschrieben:Aus diesen beiden Verhältnissen lässt sich jetzt ein Mittelwert bilden, der eine mittlere Gutfühlquote bei gleicher Geschlechterrepräsentation ergibt.

Hier wird es interessant für mich. btw: 18 mal 17,8 sind 32,04; vermutlich hast du in deinem Beispiel gerundet?
17,8 von 32,04 sind "55" (was eigentlich?)
Und 14 von 32,04 sind "43,7" (irgendwas)

Und hier ist mein Problem. Ich kann mit den Zahlen nicht viel anfangen, weil ich ihre Einheit nicht mehr kenne. Ich kann es auch nicht in eine Tabelle oder einen Ergebnissatz umformulieren.

Meine Daten sagen ja, dass sich 55,5% der Frauen (100/18*10) und 43,75% der Männer (100/32*14) sich gut fühlen. Ich möchte ausdrücken können, dass sich "im gewichteten Ergebnis" oder "gewichtet nach der echten Bevölkerung" 60% der Frauen und 30% der Männer gut fühlen (zahlen sind fiktiv und nicht gerechnet).
MoonKid2
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Sa 20. Apr 2019, 17:55
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon bele » Di 2. Mai 2023, 17:44

MoonKid2 hat geschrieben:
PonderStibbons hat geschrieben:Du gewichtest die einzelnen Messungen, bevor/während Du aggregierst, nicht erst de Ergebnisse.

Aber was "bele" vorgerechnet hat, sind meinem Verständnis nach nicht die einzelnen Messungen, sondern eben das Ergebnis. Ich verstehe da bestimmt etwas falsch.


Ob ich da jetzt jede Frau etwas höher gewichtet habe oder alle Frauen höher gewichtet habe ist m. E. Anschauungssache und führt in diesem konkreten Beispiel nicht weiter.

bele hat geschrieben:Anscheinend geht es Dir aber nicht um R

Ja, richtig. Hätte es auch in SPSS, Python/Pandas, etc schreiben können.


Dann sind wir hier auch im richtigen Forum, um das zu besprechen.

bele hat geschrieben:und mir ist die Fragestellung noch nicht klar genug formuliert.

Vermutlich, weil ich mein eigenes Problem selbst noch nicht so klar sehe.


Dann mach Dir ganz konkrete Beispiele und denke in denen darüber nach, wie Du das zu wenig oder zu viel Sammeln von Information über eine Gruppe ausgleichen könntest.

Nur das in meinem Beispiel die Verteilung in der "echten Bevölkerung" nicht 50/50 sondern 40/60 war.


Sorry, das hatte ich überlesen. Mein Beispiel war nicht der Versuch, einen allgemeingültigen Lösungsansatz zu formulieren, sondern eine möglichst einfache und leicht nachvollziehbare Lösung zu finden, die beim Problemverständnis hilft. Nicht, dass man das so machen sollte.

Das bringt mich zur Frage der Faktorenberechnung. Du machst einfach 32 durch 18 und bekommst 1,78. Ich verstehe allerdings nicht, warum du den (oder einen anderen) Faktor nicht auch bei den Männern anwendest?


Wie gesagt, ich habe mich um eine möglichst einfache Rechnung für den 50:50 Fall bemüht. Ob ich jetzt die Frauen stärker gewichte oder die Männer schwächer gewichte ist ja letztlich egal und mir erschien es leichter lesbar, nur eins anzupassen. Gerne auch um den Preis der geringeren Generalisierbarkeit.

bele hat geschrieben:Aus diesen beiden Verhältnissen lässt sich jetzt ein Mittelwert bilden, der eine mittlere Gutfühlquote bei gleicher Geschlechterrepräsentation ergibt.

Hier wird es interessant für mich. btw: 18 mal 17,8 sind 32,04; vermutlich hast du in deinem Beispiel gerundet?
17,8 von 32,04 sind "55" (was eigentlich?)


Das sind Prozent. In den Rohdaten waren es 10 von 18 Frauen, das sind 55%. Bei diesem Prozentsatz habe ich es belassen und den Bruch soweit erweitert, dass es einen gemeinsamen Nenner mit dem Bruch der Männer gab. Gemeinsamer Nenner ist in der Bruchrechnung die Voraussetzung zum Addieren von Brüchen und das musste ich ja machen, um einen Mittelwert bilden zu können. Natürlich kannst Du damit auch einen gewichteten Mittelwert berechnen können und bestimmt würde es sich bei einer allgemeinen Lösung anbieten, beide Brüche auf den Nenner eins zu bringen, statt alle Frauen auf den Nenner der Männer.


Meine Daten sagen ja, dass sich 55,5% der Frauen (100/18*10) und 43,75% der Männer (100/32*14) sich gut fühlen. Ich möchte ausdrücken können, dass sich "im gewichteten Ergebnis" oder "gewichtet nach der echten Bevölkerung" 60% der Frauen und 30% der Männer gut fühlen (zahlen sind fiktiv und nicht gerechnet).


Dafür brauchst Du keine Gewichtung: Wenn sich in der Stichprobe 55,5% der Frauen gut fühlen, dann ist Deine beste Prognose, dass sich auch 55.5% aller Frauen gut fühlen. Und wenn sich in der Stichprobe 43% der Männer gut fühlen, dann ist Deine beste Prognose, dass sich auch in der Grundgesamtheit 43% der Männer gut fühlen. Dafür ist es ja völlig egal, wieviele vom jeweils anderen Geschlecht auch befragt wurden.
Erst wenn wir nicht mehr nach Geschlecht fragen, wird das Interessant. 55% der Frauen fühlen sich gut, das sind 55% Frauen die 60% der Bevölkerung ausmachen und also 55% * 60% der Bevölkerung ausmachen. Dazu kommen nochmal 43% der Männer, die 40% der Bevölkerung ausmachen und daher 43% * 40% sind zusammen sind das dann 55% * 60% + 43% * 40% = gemeinsamer Prozentsatz * (60% der Bevölkerung + 40% der Bevölkerung = gemeinsamer Prozentsatz mal 100% der Bevölkerung = 50%. Damit ist es jetzt als Rechnung mit Dezimalbrüchen statt als Bruchrechnung geschrieben.

Ich glaube auch, dass Du Dir über die genauen Aufgabenstellungen klar werden musst.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5916
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon PonderStibbons » Mi 3. Mai 2023, 11:17

Wird parallel auch andernorts bearbeitet https://www.statistik-tutorial.de/forum ... tml#p31747
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon MoonKid2 » Mi 3. Mai 2023, 12:56

PonderStibbons hat geschrieben:Wird parallel auch andernorts bearbeitet https://www.statistik-tutorial.de/forum ... tml#p31747

Habe das X-Post im initialen Posting eigentlich in erster Zeile schon eingetragen.
MoonKid2
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Sa 20. Apr 2019, 17:55
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon bele » Mi 3. Mai 2023, 12:58

PonderStibbons hat geschrieben:Wird parallel auch andernorts bearbeitet https://www.statistik-tutorial.de/forum ... tml#p31747


Ja, das hat MoonKid2 aber im ersten Post in der ersten Zeile korrekt annonciert. Nicht sehr aufdringlich, aber das stand da schon bei meiner ersten Antwort.

Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5916
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

folgende User möchten sich bei bele bedanken:
PonderStibbons

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon PonderStibbons » Mi 3. Mai 2023, 13:32

Danke für den Hinweis!
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Gewichtung von Ergebnissen an einem Beispiel

Beitragvon MoonKid2 » Do 4. Mai 2023, 15:26

Erst einmal vielen Dank für eure Geduld mit mir.

bele hat geschrieben:Erst wenn wir nicht mehr nach Geschlecht fragen, wird das Interessant.

Ah, der Nebel löst sich langsam.

bele hat geschrieben:55% der Frauen fühlen sich gut, das sind 55% Frauen die 60% der Bevölkerung ausmachen und also 55% * 60% der Bevölkerung ausmachen. Dazu kommen nochmal 43% der Männer, die 40% der Bevölkerung ausmachen und daher 43% * 40% sind zusammen sind das dann 55% * 60% + 43% * 40% = gemeinsamer Prozentsatz

Bis hier komme ich mit und bekomme 0,502 bzw. 50,2 % als "gemeinsamer Prozentsatz".

bele hat geschrieben: * (60% der Bevölkerung + 40% der Bevölkerung = gemeinsamer Prozentsatz mal 100% der Bevölkerung = 50%. Damit ist es jetzt als Rechnung mit Dezimalbrüchen statt als Bruchrechnung geschrieben.

Da komme ich nicht mehr mit, sorry.
MoonKid2
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Sa 20. Apr 2019, 17:55
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron