von Holgonaut » Do 2. Jul 2020, 20:24
Hi Lelelein,
Leute sind immer etwas überfordert beim Thema Kontrollvariablen in SEM: Die blanke Tatsache ist, dass du dir einfach überlegen musst, welche Kontrollvariable in der Realität einen Effekt worauf hat. Die Kontrollwirkung kommt dann zustande, wenn sie auf zwei Modellvariablen einen Effekt hat, die aufeinander einen Effekt haben, also klassischerweise, wenn C einen Effekt auf X und Y hat und X eben auch einen Effekt auf Y hat. Lässt man C raus, wird der geschätzte Effekt von X verzerrt.
Dabei gibt es 3 Szenarien.
a) Du lässt alle Kontrollvariablen Effekte auf alle Variablen haben. Das führt zu einer saturierten Struktur des Kontrollvariablen sets --innerhalb dieses Sets ist nichts mehr testbar. Beispielsweise hast du ein vollständiges Mediatormodell X --> M --> Y und C1-C4 haben auf M und Y Effekte und korrelieren entweder mit X oder haben Effekte auf X.
Das ganze funktioniert, wenn die Kontrollvariablen Effekte auf die Modellvariablen haben und nicht selbst von den Modellvariablen beeinflusst werden. Wenn einige Effekte nicht vorhanden sind, werden sie halt nicht signifikant. Aber es schadet nicht. Zu den Nachteilen komm ich unten
b) Du hast klarere/spezifischere Annahmen über die Wirkung der Kontrollvariablen. So könntest du Effekte von C1 auf X und M vermuten, aber nicht auf Y und C2 und C3 auf X und Y (aber nicht M) und C4 auf M und Y aber nicht X. Vorteil: Eine hohe Testbarkeit aber eben auch eine Chance für misfit, wenn dann doch Effekte vorhanden sind, die du nicht vorsiehst
c) Du denkst eigentlich gar nicht, dass C1-C4 (oder subsets davon) Effekte haben, willst aber keine Gefahr laufen sie zu ignorieren. Also könntest du sie mit X korrelieren lassen und that's it. Wieder: Sehr restriktiv, hoch testbar.
Die großen Gefahren beim Einfügen von Kontrollvariablen:
1) Du kontrollierst versehentlich einen Mediator (sprach ich in #a an), d.h. eine Variable die z.B. von X beeinflusst wird und einen Effekt auf M hat.
2a) Du kontrollierst versehentlich einen Collider, d.h. eine Variable die z.B. von X und von Y beeinflust wird ODER
2b) Eine Variable, die von Y beeinflusst wird.
Erstes nennt man overcontrol bias, zweites collider bias.
Lange Rede, kurzer Sinn: Du musst dir Gedanken machen.
Es wird aber leider noch komplizierter: Kontrollvariablen können natürlich untereinander Effekte haben. Dies kann nützlich sein, weil unter Umständen das ermöglicht, dass du nur eine davon kontrollieren musst und der "biasing path" wird geblockt. Beispiel. Dein Effekt ist wieder X-->M->Y
C1 hat einen Effekt auf X und einen auf C2 und C2 schließlich beeinflusst Y. Hier reicht die Kontrolle von C1 oder C2 aus. Das paper von Shier und Platt (s.u.) zeigt das.
Gleichermaßen kann C2 ein collider zwischen C1 und C3 sein und C1 beeinflusst M und C3 beeinflusst Y. Kontrollierst du jetzt C1 oder C3 ist alles fein (du kannst es aber auch lassen, weil es kein Problem wäre, alle sein zu lassen. Wenn du aber nur C2 kontrollierst, führt das zum bias. Google mal nach "M bias".
Das alles klingt furchtbar kompliziert, aber die Grundprinzipien hast du nach einem Tag verstanden. Unten etwas Literatur. Die zentralen Stichworte sind
-- backdoor criterion
-- conditional independence
-- path tracing (rules)
-- adjustment set
-- graph theory
-- d-separation
Rohrer, J. M. (2018). Thinking clearly about correlations and causation: Graphical causal models for observational data. Advances in Methods and Practices in Psychological Science, 1(1), 27-42. doi:10.1177/2515245917745629
Elwert, F. (2013). Graphical causal models. In S. L. Morgan (Ed.), Handbook of causal analysis for social research. (pp. 245-273). Dordrecht Heidelberg New York London: Springer.
Ferguson, K. D., McCann, M., Katikireddi, S. V., Thomson, H., Green, M. J., Smith, D. J., & Lewsey, J. D. (2020). Evidence synthesis for constructing directed acyclic graphs (ESC-DAGs): A novel and systematic method for building directed acyclic graphs. International Journal of Epidemiology, 49(1), 322-329.
Keele, L., Stevenson, R. T., & Elwert, F. (2019). The causal interpretation of estimated associations in regression models. Political Science Research and Methods, 1-13. doi:doi:10.1017/psrm.2019.31
Shrier, I., & Platt, R. W. (2008). Reducing bias through directed acyclic graphs. BMC Medical Research Methodology, 8(1), 70.
Vahratian, A., Siega-Riz, A. M., Savitz, D. A., & Zhang, J. (2005). Maternal pre-pregnancy overweight and obesity and the risk of cesarean delivery in nulliparous women. Annals of Epidemiology, 15(7), 467-474. doi:10.1016/j.annepidem.2005.02.005
Grüße
Holger