Geschätzte Gemeinschaft,
ich bin an eurer Einschätzung für ein sinnvolles/ methodisch richtiges Auswertungsverfahren für folgendes Vorhaben interessiert bzw. sogar angewiesen:
Mein Hauptinteresse liegt in der Wirkungsmessung (Kausalität) einer Intervention. Leider habe ich nur eine Messung des Outcome (Y bzw. AV kontinuierlich) VOR der Intervention und eine Messung NACH der Intervention zur Verfügung. Dennoch scheint mir das Design ausreichend, da externe Einflüsse auf Y zwischen den Messzeitpunkten sehr unwahrscheinlich sind. Es geht mir hier auch nicht um die Diskussion des Designs sondern um die Methoden zur Auswertung. Die beiden Messungen sind kein Panel sondern als zwei Querschnittserhebungen zu behandeln. Es sind zwar großteils die selben Subjekte in den beiden Stichproben, aber eben nicht vollkommen gleich und v.a. sind die Werte nicht zuordenbar. Neben Y-vor und Y-nach habe ich noch mehrere demografische Variablen (alle kategorial zw. 2 und 10 Stufen), die als Kontrollvariablen verwendet werden sollen.
Zur Auswertung schwebt mir folgendes vor, mit der Bitte um eure Meinung:
1. Zunächst habe ich die beiden Stichproben (also Vorher- und Nachher-Stichprobe) bzgl. der Kontrollvariablen verglichen. Dazu habe ich die kategorialen Kontrollvariablen als Dummies umcodiert und mittel t-Test für unabhängige Stichproben den Unterschied der jeweiligen Anteilswerte (z.B. Anteil Männer in Vorher vs. Nachher) auf statistische Signifikanz getestet. Ergebnis: die beiden Stichproben sind nur in wenigen Merkmalen stat. signifgikant verschieden (z.B. Anteil der 20-34-Jährigen).
2. Dann habe ich ein Regressionsmodell gerechnet (Y = a + b1*PräPost) mit Y als AV und Vorher- und Nachhermessung als Dummy( PräPost, Post=1), das mir einen sign. Unterschied zwischen Vorher- und Nachher-Messung bestätigt. D.h. b1 ist pos. (.18) und sign. auf 1%-Niveau. Das sagt mir, dass der Mittelwert von Y nach der Intervention um .18 höher liegt als vorher. Ergo: Intervention zeigt Effekt.
3. Hier sollen nun die Kontroll-Dummies ins Spiel kommen. Also habe ich wieder ein Regressionsmodell mit den Kontroll-Dummies (jeweils ohne Referenzkategorie) und der Prä-Post Dummy gerechnet (Y = a + b1*PräPost + b2*Mann + b3*19bis34-Jährige + b4*Kleinunternehmen....). Der Koeffizient der PräPost-Dummy ist nun .12, also etwas kleiner. Das ist ja plausibel, da die vielen Kontrollvariablen Varianz aufsaugen.
Meine 1. Frage: Ist es empfehlenswert, alle Kontrollvariablen ins Modell aufzunehmen oder nur jene, deren Anteilswerte sich signifikant in den beiden Stichproben unterscheiden (siehe 1. Schritt)? Letztlich möchte ich ja die beiden Stichproben - bis auf die Intervention (also PräPost Dummy) - völlig angleichen (oder soweit das eben mit den verfügbaren Kontrollvariablen möglich ist). Demzufolge könnte es ja auch sinnvoll sein, auch Merkmale mit nicht signifikanten Unterschieden einzubeziehen.
Meine 2. Frage: Macht es Sinn, das Modell schrittweise zu rechnen. Also PräPost als 1.Block und alle Kontrolldummies als 2.Block einzufügen und das korr. R² auf sign. Unterschied zu testen?
Meine 3. Frage: Brauche ich im Modell mit den Kontrollvariablen auch die Interaktionsterme von PräPost mit den KV-Dummies? Oder sind diese bzgl. der (globalen) Wirkungsmessung Prä vs. Post irrelevant (was ich vermute). Damit verbunden auch die Frage: Wenn ich die Wirksamkeit der Intervention für die verschiedenen Gruppen, die sich aus den Kontrolldummies ergeben, berechnen möchte, dann brauche ich ja wohl ein Modell mit Interaktionstermen. Kann ich da ein einzelnes Modell mit allen KV-Dummies und Interaktionstermen berechnen oder sollte ich eher für jede KV-Dummy ein eigenes Modell rechnen, etwa 1. Y = a + b1*PräPost + b2*Mann + b3*Mann*PräPost, 2. Y = a + b1*PräPost + b2*Kleinunternehmen + b3*Kleinunternehmen*PräPost usw.
Vielen Dank für eure Hilfe und LG