Holger,
ich kann das gerne in verkürzter Form weiter ausführen, möchte aber für eine ausführliche Erklärung auf die angegebene Literatur verweisen.
Betrachten wir zunächst den linearen Fall. Es sei
das "wahre" Modell. Wird stattdessen das Modell
unter Vernachlässigung von
geschätzt, dann gilt für den geschätzen Koeffizienten
(unter Vernachlässigung der eigentlich nötigen Erwartungswertschreibweise)
wobei
die Korrelation von
und
widerspiegelt. Ist diese Korrelation
und der Koeffizient
von Null verschieden, ist die Schätzung für
offensichtlich verzerrt (Greene, 2008: 134).
Da in (1) und (2)
beobachtet ist, können wir die Residualvarianz
bzw.
aus den Daten schätzen (wir kennen das Ergebnis als Residuenquadratsumme).
Nun betrachten wir nicht-lineare Modelle (wie Logit-Modelle). Dabei sei
in (1) und (2) eine latente Variable. Wir beobachten in den Daten die Ausprägung Null, falls
und den Wert Eins, falls
(zur Herleitung des Logit-Modells über eine latente Variable vgl. Long, 1997: 40ff).
Da
nicht beobachtet ist, können wir die Residualvarianz
bzw.
in diesem Fall nicht mehr aus den Daten schätzen. Zur Identifikation des Modells müssen daher zwei Annahmen gemacht werden. Erstens nehmen wir für
den Wert Null an (auch andere Werte sind möglich, das ist hier irrelevant). Die zweite Annahme betrifft
bzw.
. Hier nehmen wir eine bestimmte Vereilung für die Fehlterme an. Nehmen wir eine standard-logistische Verteilung an, führt das zum Logit-Modell, die Annahme einer standard-Normalverteilung resultiert im Probit Modell (für die Herleitung in wenigen Zeilen vgl. Long, 1997).
Bleiben wir beim Logit-Modell, das in diesem Thread benutzt wurde. Durch die Verteilungsannahme fixieren wir die Residualvarianz auf
. Das hat Konsequenzen. Wir unterstellen nämlich damit, dass
gilt. Wenn
mit
korreliert, wenn also
von Null verschieden ist, dann ist diese Unterstellung falsch. Die "wahre" Residualvarianz in (1) ist dann nämlich kleiner als in (2). Da wir die Residualvarianz aber per Annahme fixieren folgt daraus, dass die Varianz von
in (1) größer sein muss als in (2). Das ist deshalb so, weil sich die Varianz in
aus einem erklärten und einem unerklärten (residualen) Teil zusammensetzt. Wenn der erklärte Teil größer wird, was der Fall ist, wenn
von Null verschieden ist, dann muss bei fixierter Residualvarianz die Gesamtvarianz steigen.
hat in (1) demnach eine andere Metrik als in (2).
Um diesen Umstand in die Modelle zu integrieren schreiben wir die Fehlterme um und bekommen
und
wobei
einen Skalierungsfaktor darstellt, der die "wahre" Residualvarianz zu der per Annahme unterstellten ins Verhältnis setzt. In (3) und (4) gilt daher
. Aus diesen Überlegungen folgt, dass wir für
in (3) und (4)
bzw.
schätzen (Karlson und Holm, 2011; Mood, 2010). Wenn (3) das wahre Modell ist, dann ist die Schätzung von
in (4) offensichlich verzerrt. Sie wäre nur dann unverzerrt, wenn
gilt, was wie gezeigt nur dann der Fall ist, wenn
nicht von Null verschieden ist.
Dieses Ergebnis gilt unabhängig von der Korrelation von
mit
, die wir hier nicht betrachtet haben. Eine mögliche Korrelation spielt natürlich eine zusätzliche Rolle für die Verzerrung, aber dafür möchte ich dann (erneut) auf den exzellenten Aufsatz von Carina Mood (2010) verweisen.
Literatur
Greene,William H. (2008). Econometric Analyses. Pearson.
Long, Scott (Hg.) (1997). Regression Models for Categorical and Limited DependentVariables. Thousand Oaks: Sage Publications.
Karlson, Kristian Bernt und Holm, Anders (2011). Decomposing primary and secondary effects: A new decomposition method. Research in Social Stratification and Mobility, 29(2):221–237.
Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review, 26(1):67–82.
Ebenfalls
Karlson, Kristian Bernt; Holm, Anders und Breen, Richard (2010). Comparing regression coefficients between models using logit and probit: A new method. URL
http://www.yale.edu/ciqle/Breen_Scaling%20effects.pdf
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.