Hallo zusammen, ich sitze gerade an meiner Masterarbeit und verzweifele an dem Thema der Gewichtung von Daten.
In meiner Arbeit untersuche ich anhand des PISA 2022 Datensatzes, ob sich das Ausüben von Sport auf den Mediator Emotionskontrolle, und dann auf die Schul-Suspendierung auswirkt (mich interessiert der universell bzw internationale Effekt: 81 Länder haben teilgenommen, mich interessiert aber nicht, welche Länder wie abschneiden).
Hier zu meinem grundlegenden Problem:
Ich hatte recht spät gesehen, dass PISA Variablen zur Gewichtung der Schüler-Daten und Länder-Daten bereitstellt und dringend empfiehlt, diese zu verwenden;
„Alle Analysen, die PISA-Daten verwenden, sollten gewichtet werden, da ungewichtete Analysen verzerrte Schätzungen der Bevölkerungsparameter liefern. Es gibt daher Schülergewichten, die zur Berechnung unverzerrter Statistiken auf Länderebene verwendet werden sollten.
Die endgültigen Schülergewichte summieren sich zur Größe der interessierenden Population. Bei der Durchführung von Analysen für mehrere Länder bedeutet dies, dass die Länder, in denen die Zahl der 15-jährigen Schüler höher ist, mehr zur Analyse beitragen. Aus diesem Grund kann der Analytiker in einigen Fällen die Verwendung von Senatsgewichten vorziehen, d. h. Gewichte, die so umskaliert wurden, dass sie sich in jedem Land zum gleichen konstanten Wert addieren. Auf diese Weise trägt jedes Land gleichermaßen zur Analyse bei.„ (steht hier auf der offiziellen PISA Seite).
Ich habe meine Hypothesentests (Log & Lin. Regression und Mediationsanalyse) also nochmal in SPSS mit der Schüler-Gewichtung gerechnet, bekomme jetzt aber natürlich abnormal große Case Zahlen (z.B. in der Hypothese 2 sind es eig. 428,022 valid cases, mit Gewichtung jetzt 17,462,697).
Das verunsichert mich total, und ich weiß nicht, ob das echt so klar geht, weil ich noch nie was mit Gewichtungen machen musste.
Ich hatte auch mal geschaut, wie es andere Journal handhaben. Trotz der Empfehlung von PISA die Gewichtungsvariable mit einzubinden, machen viele andere wissenschaftliche Paper, die auch mit den PISA Daten arbeiten, dies aber nicht.
Daher meine Frage, ob man die Gewichtungsvariable wirklich benutzen sollte oder eher weglassen sollte, da die sample size dann ja nicht mehr die richtige ist? Und ich glaube in meinem Fall hätte ich wahrscheinlich statt der Schüler Variable die Senate weight variable benutzen sollen, um alle Ländereffekte gleich groß zu halten (da mich ja ein gesamter, internationaler Effekt interessiert)?
Kann hier jemand weiterhelfen?