Hi und danke für die Antwort.
Ich habe mich leider nicht so deutlich ausgedrückt, wie ich gekonnt hätte.
Mein Ziel ist nicht, die Daten zu gewichten, um eine Regression auf die Teilnahme zu berechnen. Ich möchte die Daten gewichten, um den Unit-Nonresponse-Bias bzw. die Abweichungen der Stichprobenkennwerte von der Population zu beheben/minimieren.
Die Regression war hierbei nur ein Mittel, um festzustellen, welche Variablen für eine solche Gewichtung überhaupt relevant sind. Da ich eine Auswahldatei mit allen potentiellen Teilnehmern und einer Variable für die, die tatsächlich teilgenommen habe, konnte ich das machen. Da das Geschlecht z.B. keinen signifikanten Einfluss auf die Teilnahmevariable hat, gehe ich davon aus, dass Geschlecht nicht Gewichtungsrelevant ist.
Für eine „Anpassungsgewichtung“ an die amtliche Statistik gibt es in etwa folgende Vorgehensweise:
1.) Variablen bestimmen, die für die Anpassung verwendet werden sollen. Es müssen Variablen sein, die für die Population verfügbar sind. Üblicherweise amtliche Statistiken wie Geschlecht, Alter, Staatsbürgerschaft. Jeweils auf unterschiedlichen Aggregatebenen. Gemeinde, Landkreis, Bundesland, Land. Ich würde hier auf Landkreis-Ebene abzielen.
- d.h. Vergleichvariablen: Alter, Staatsbürgerschaft, evtl. Geschlecht
- Vergleichsdaten: amtliche Statistiken, Landkreisebene.
2.) Ich habe eine binäre logistische Regression auf die Teilnahme [0/1] mit den verfügbaren Daten gemacht habe und nur Alter und Staatsbürgerschaft hatten einen signifikanten Einfluss ( korr. R-Quadrat war nur 0,027). Die (Nicht-)Teilnahme wird also vom Alter beeinflusst.
3.) Gewichte bestimmen
- Stichprobe in Subgruppen aufteilen, die sich durch die Kombinationen der Hilfsvariablen ergeben ==> d.h. Alter in Kategorien aufteilen.
Zelle 1 wäre 18-25 Deutsch, Zelle 2 18-25 andere Staatsbürgerschaft, Zelle 3 26-35 Deutsch ... usw.
- Response-Rate pro Zelle bestimmen: d.h. Anteil der realisierten Teilnehmer pro Zelle / Anteil der Zelle in Population.
- Das Gewicht für jeden Teilnehmer ist dann der Kehrwert der Response-Rate in seiner Zelle.
Irgendwie kann man anstelle dieser Vorgehensweise mit den Zellen, auch eine logistische Regression durchführen um die Gewichte zu bestimmen. Und hier komme ich nicht weiter. Ich glaube, ich könnte aus der Regression die Auswahl- bzw. Antwortwahrscheinlichkeit einer Person bestimmen und hiervon wieder den Kehrwert als Gewicht benutzen.
Da man allerorten auf Datensätze mit Gewichtungsvariablen trifft, habe ich gehofft, dass das eine verbreitete Technik ist, die nur an mir vorbeigegangen ist