STATISTIK-FORUM.de

daniel · von **daniel** » Fr 9. Mär 2012, 09:13

Ich war in letzter Zeit recht beschäftigt, aber nun habe ich ein paar Minuten, und möchte gerne etwas zum Thema beitragen bzw. ergänzen.

du solltest die Regressionen nicht einzeln machen, sei denn du denkst, dass der jeweilige Prädiktor unkorreliert mit allen anderen Prädiktoren ist. Ist er das nicht [...] sind deine Regressionskoeffizienten schlicht und ergreifend nichts wert [...]
[...] es geht aber erst mal um das wichtigere Ziel der Unverzerrtheit der Regressionskoeffizienten. Und die
ist nicht gegeben, wenn du die Regressionen einzeln machst, sorry.

Holger hat vollkommen recht, betont aber den m.E. wichtigen Teil zu wenig. Bei einzelnen Regerssionen sind die Koeffizienten verzerrt. Punkt. Das gilt selbst dann, wenn die Prädikatoren untereinander völlig unnkorreliert sind. Wir sprechen hier von nicht-linearen Modellen. Hier genügt die Korrelation eines vernachlässigten Prädikators mit der endogenen Variable (abhängige Variable) um die Koeffizienten zu verzerren (Mood 2010).

Zu schrittweisen Verfahren möchte ich nichts ausführliches schreiben, aber auf einen Link hinweisen, der in aller Kürze wichtige Punkte zusammenfasst. Das Fazit ist: Du willst kein Schrittweises Vorgehen. Du willst wissenschaftlich arbeiten und, wie Holger bereits richtig sagt, theoriegeleitet ein Modell aufstellen und es empirisch prüfen.
http://www.stata.com/support/faqs/stat/stepwise.html

Grüße (damit für Holger die Sonne ein wenig scheint).

Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review 26(1). 67-82.

Holgonaut · von **Holgonaut** » Fr 9. Mär 2012, 09:43

Hi Daniel,

ir sprechen hier von nicht-linearen Modellen. Hier genügt die Korrelation eines vernachlässigten Prädikators mit der endogenen Variable (abhängige Variable) um die Koeffizienten zu verzerren (Mood 2010).

Kannst du das ausführen? Du meinst Modelle mit einem linearen Effekt, oder was? Bei normalen Modellen brauchst du doch eine Korrelation unter den Prädiktoren, damit Endogenität bewirkt wird durch auslassen?

Grüße
Holger
P.S. Etwas Sonnenschein wäre heute echt hilfreich. Hier isses kalt und neblig....

daniel · von **daniel** » Fr 9. Mär 2012, 13:27

Holger,

ich kann das gerne in verkürzter Form weiter ausführen, möchte aber für eine ausführliche Erklärung auf die angegebene Literatur verweisen.

Betrachten wir zunächst den linearen Fall. Es sei

$\mathbf{y} = \mathbf{x}\beta + \mathbf{z}\gamma + \mathbf{\epsilon} \quad (1)$

das "wahre" Modell. Wird stattdessen das Modell

$\mathbf{y} = \mathbf{x}\beta + \mathbf{\nu} \quad (2)$

unter Vernachlässigung von $\mathbf{z}$ geschätzt, dann gilt für den geschätzen Koeffizienten $b$
(unter Vernachlässigung der eigentlich nötigen Erwartungswertschreibweise)

$b = \beta + \rho*\gamma$

wobei $\rho$ die Korrelation von $\mathbf{x}$ und $\mathbf{z}$ widerspiegelt. Ist diese Korrelation und der Koeffizient $\gamma$ von Null verschieden, ist die Schätzung für $b$ offensichtlich verzerrt (Greene, 2008: 134).

Da in (1) und (2) $\mathbf{y}$ beobachtet ist, können wir die Residualvarianz $\mathbf{\epsilon}$ bzw. $\mathbf{\nu}$ aus den Daten schätzen (wir kennen das Ergebnis als Residuenquadratsumme).

Nun betrachten wir nicht-lineare Modelle (wie Logit-Modelle). Dabei sei $\mathbf{y}$ in (1) und (2) eine latente Variable. Wir beobachten in den Daten die Ausprägung Null, falls $\mathbf{y} \leq \tau$ und den Wert Eins, falls
$\mathbf{y} > \tau$ (zur Herleitung des Logit-Modells über eine latente Variable vgl. Long, 1997: 40ff).

Da $\mathbf{y}$ nicht beobachtet ist, können wir die Residualvarianz $\mathbf{\epsilon}$ bzw.
$\mathbf{\nu}$ in diesem Fall nicht mehr aus den Daten schätzen. Zur Identifikation des Modells müssen daher zwei Annahmen gemacht werden. Erstens nehmen wir für $\tau$ den Wert Null an (auch andere Werte sind möglich, das ist hier irrelevant). Die zweite Annahme betrifft $\mathbf{\epsilon}$ bzw. $\mathbf{\nu}$ . Hier nehmen wir eine bestimmte Vereilung für die Fehlterme an. Nehmen wir eine standard-logistische Verteilung an, führt das zum Logit-Modell, die Annahme einer standard-Normalverteilung resultiert im Probit Modell (für die Herleitung in wenigen Zeilen vgl. Long, 1997).

Bleiben wir beim Logit-Modell, das in diesem Thread benutzt wurde. Durch die Verteilungsannahme fixieren wir die Residualvarianz auf $\pi^2/3$ . Das hat Konsequenzen. Wir unterstellen nämlich damit, dass $\mathbf{\epsilon} = \mathbf{\nu}$ gilt. Wenn $\mathbf{z}$ mit $\mathbf{y}$ korreliert, wenn also $\gamma$ von Null verschieden ist, dann ist diese Unterstellung falsch. Die "wahre" Residualvarianz in (1) ist dann nämlich kleiner als in (2). Da wir die Residualvarianz aber per Annahme fixieren folgt daraus, dass die Varianz von $\mathbf{y}$ in (1) größer sein muss als in (2). Das ist deshalb so, weil sich die Varianz in $\mathbf{y}$ aus einem erklärten und einem unerklärten (residualen) Teil zusammensetzt. Wenn der erklärte Teil größer wird, was der Fall ist, wenn $\gamma$ von Null verschieden ist, dann muss bei fixierter Residualvarianz die Gesamtvarianz steigen. $\mathbf{y}$ hat in (1) demnach eine andere Metrik als in (2).

Um diesen Umstand in die Modelle zu integrieren schreiben wir die Fehlterme um und bekommen

$\mathbf{y} = \mathbf{x}\beta + \mathbf{z}\gamma + \sigma_{f}*\mathbf{\epsilon} \quad (3)$

und

$\mathbf{y} = \mathbf{x}\beta + \sigma_{r}*\mathbf{\nu} \quad (4)$

wobei $\sigma_{.}$ einen Skalierungsfaktor darstellt, der die "wahre" Residualvarianz zu der per Annahme unterstellten ins Verhältnis setzt. In (3) und (4) gilt daher $\mathbf{\epsilon} = \mathbf{\nu} = \pi^2/3$ . Aus diesen Überlegungen folgt, dass wir für $\beta$ in (3) und (4)

$b = \frac{\beta}{\sigma_{f}}$

bzw.

$b = \frac{\beta}{\sigma_{r}}$

schätzen (Karlson und Holm, 2011; Mood, 2010). Wenn (3) das wahre Modell ist, dann ist die Schätzung von $b$ in (4) offensichlich verzerrt. Sie wäre nur dann unverzerrt, wenn $\sigma_{f} = \sigma_{r}$ gilt, was wie gezeigt nur dann der Fall ist, wenn $\gamma$ nicht von Null verschieden ist.

Dieses Ergebnis gilt unabhängig von der Korrelation von $\mathbf{x}$ mit $\mathbf{z}$ , die wir hier nicht betrachtet haben. Eine mögliche Korrelation spielt natürlich eine zusätzliche Rolle für die Verzerrung, aber dafür möchte ich dann (erneut) auf den exzellenten Aufsatz von Carina Mood (2010) verweisen.

Literatur

Greene,William H. (2008). Econometric Analyses. Pearson.

Long, Scott (Hg.) (1997). Regression Models for Categorical and Limited DependentVariables. Thousand Oaks: Sage Publications.

Karlson, Kristian Bernt und Holm, Anders (2011). Decomposing primary and secondary effects: A new decomposition method. Research in Social Stratification and Mobility, 29(2):221–237.

Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review, 26(1):67–82.

Ebenfalls

Karlson, Kristian Bernt; Holm, Anders und Breen, Richard (2010). Comparing regression coefficients between models using logit and probit: A new method. URL http://www.yale.edu/ciqle/Breen_Scaling%20effects.pdf

folgende User möchten sich bei daniel bedanken:
claudia, Holgonaut

claudia · von **claudia** » Fr 9. Mär 2012, 14:09

Hallo zusammen,

vielen lieben Dank für eure ausführlichen Antworten.
Auch wenn ich zugeben muss dass ich beim letzten Post ein wenig ausgestiegen bin, denke ich, dass ich die Message verstanden hab.

Einfach alle Einflussvariablen auf einmal rein und dafür das Ergebnis richtig interpretieren.

Ich werd mir beste Mühe geben, das nun so zu machen...

Nochmals danke!

Grüße, Claudia

STATISTIK-FORUM.de

logistische Regression?

Re: logistische Regression?

Re: logistische Regression?

Re: logistische Regression?

Re: logistische Regression?

Wer ist online?