logistische Regression?

Alle Verfahren der Regressionanalyse.

Re: logistische Regression?

Beitragvon daniel » Fr 9. Mär 2012, 09:13

Ich war in letzter Zeit recht beschäftigt, aber nun habe ich ein paar Minuten, und möchte gerne etwas zum Thema beitragen bzw. ergänzen.

du solltest die Regressionen nicht einzeln machen, sei denn du denkst, dass der jeweilige Prädiktor unkorreliert mit allen anderen Prädiktoren ist. Ist er das nicht [...] sind deine Regressionskoeffizienten schlicht und ergreifend nichts wert [...]
[...] es geht aber erst mal um das wichtigere Ziel der Unverzerrtheit der Regressionskoeffizienten. Und die
ist nicht gegeben, wenn du die Regressionen einzeln machst, sorry.


Holger hat vollkommen recht, betont aber den m.E. wichtigen Teil zu wenig. Bei einzelnen Regerssionen sind die Koeffizienten verzerrt. Punkt. Das gilt selbst dann, wenn die Prädikatoren untereinander völlig unnkorreliert sind. Wir sprechen hier von nicht-linearen Modellen. Hier genügt die Korrelation eines vernachlässigten Prädikators mit der endogenen Variable (abhängige Variable) um die Koeffizienten zu verzerren (Mood 2010).

Zu schrittweisen Verfahren möchte ich nichts ausführliches schreiben, aber auf einen Link hinweisen, der in aller Kürze wichtige Punkte zusammenfasst. Das Fazit ist: Du willst kein Schrittweises Vorgehen. Du willst wissenschaftlich arbeiten und, wie Holger bereits richtig sagt, theoriegeleitet ein Modell aufstellen und es empirisch prüfen.
http://www.stata.com/support/faqs/stat/stepwise.html

Grüße (damit für Holger die Sonne ein wenig scheint).


Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review 26(1). 67-82.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: logistische Regression?

Beitragvon Holgonaut » Fr 9. Mär 2012, 09:43

Hi Daniel,

ir sprechen hier von nicht-linearen Modellen. Hier genügt die Korrelation eines vernachlässigten Prädikators mit der endogenen Variable (abhängige Variable) um die Koeffizienten zu verzerren (Mood 2010).


Kannst du das ausführen? Du meinst Modelle mit einem linearen Effekt, oder was? Bei normalen Modellen brauchst du doch eine Korrelation unter den Prädiktoren, damit Endogenität bewirkt wird durch auslassen?

Grüße
Holger
P.S. Etwas Sonnenschein wäre heute echt hilfreich. Hier isses kalt und neblig....
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

Re: logistische Regression?

Beitragvon daniel » Fr 9. Mär 2012, 13:27

Holger,

ich kann das gerne in verkürzter Form weiter ausführen, möchte aber für eine ausführliche Erklärung auf die angegebene Literatur verweisen.

Betrachten wir zunächst den linearen Fall. Es sei



das "wahre" Modell. Wird stattdessen das Modell



unter Vernachlässigung von geschätzt, dann gilt für den geschätzen Koeffizienten
(unter Vernachlässigung der eigentlich nötigen Erwartungswertschreibweise)



wobei die Korrelation von und widerspiegelt. Ist diese Korrelation und der Koeffizient von Null verschieden, ist die Schätzung für offensichtlich verzerrt (Greene, 2008: 134).

Da in (1) und (2) beobachtet ist, können wir die Residualvarianz bzw. aus den Daten schätzen (wir kennen das Ergebnis als Residuenquadratsumme).

Nun betrachten wir nicht-lineare Modelle (wie Logit-Modelle). Dabei sei in (1) und (2) eine latente Variable. Wir beobachten in den Daten die Ausprägung Null, falls und den Wert Eins, falls
(zur Herleitung des Logit-Modells über eine latente Variable vgl. Long, 1997: 40ff).

Da nicht beobachtet ist, können wir die Residualvarianz bzw.
in diesem Fall nicht mehr aus den Daten schätzen. Zur Identifikation des Modells müssen daher zwei Annahmen gemacht werden. Erstens nehmen wir für den Wert Null an (auch andere Werte sind möglich, das ist hier irrelevant). Die zweite Annahme betrifft bzw. . Hier nehmen wir eine bestimmte Vereilung für die Fehlterme an. Nehmen wir eine standard-logistische Verteilung an, führt das zum Logit-Modell, die Annahme einer standard-Normalverteilung resultiert im Probit Modell (für die Herleitung in wenigen Zeilen vgl. Long, 1997).

Bleiben wir beim Logit-Modell, das in diesem Thread benutzt wurde. Durch die Verteilungsannahme fixieren wir die Residualvarianz auf . Das hat Konsequenzen. Wir unterstellen nämlich damit, dass gilt. Wenn mit korreliert, wenn also von Null verschieden ist, dann ist diese Unterstellung falsch. Die "wahre" Residualvarianz in (1) ist dann nämlich kleiner als in (2). Da wir die Residualvarianz aber per Annahme fixieren folgt daraus, dass die Varianz von in (1) größer sein muss als in (2). Das ist deshalb so, weil sich die Varianz in aus einem erklärten und einem unerklärten (residualen) Teil zusammensetzt. Wenn der erklärte Teil größer wird, was der Fall ist, wenn von Null verschieden ist, dann muss bei fixierter Residualvarianz die Gesamtvarianz steigen. hat in (1) demnach eine andere Metrik als in (2).

Um diesen Umstand in die Modelle zu integrieren schreiben wir die Fehlterme um und bekommen



und



wobei einen Skalierungsfaktor darstellt, der die "wahre" Residualvarianz zu der per Annahme unterstellten ins Verhältnis setzt. In (3) und (4) gilt daher . Aus diesen Überlegungen folgt, dass wir für in (3) und (4)



bzw.



schätzen (Karlson und Holm, 2011; Mood, 2010). Wenn (3) das wahre Modell ist, dann ist die Schätzung von in (4) offensichlich verzerrt. Sie wäre nur dann unverzerrt, wenn gilt, was wie gezeigt nur dann der Fall ist, wenn nicht von Null verschieden ist.

Dieses Ergebnis gilt unabhängig von der Korrelation von mit , die wir hier nicht betrachtet haben. Eine mögliche Korrelation spielt natürlich eine zusätzliche Rolle für die Verzerrung, aber dafür möchte ich dann (erneut) auf den exzellenten Aufsatz von Carina Mood (2010) verweisen.


Literatur

Greene,William H. (2008). Econometric Analyses. Pearson.

Long, Scott (Hg.) (1997). Regression Models for Categorical and Limited DependentVariables. Thousand Oaks: Sage Publications.

Karlson, Kristian Bernt und Holm, Anders (2011). Decomposing primary and secondary effects: A new decomposition method. Research in Social Stratification and Mobility, 29(2):221–237.

Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review, 26(1):67–82.


Ebenfalls

Karlson, Kristian Bernt; Holm, Anders und Breen, Richard (2010). Comparing regression coefficients between models using logit and probit: A new method. URL http://www.yale.edu/ciqle/Breen_Scaling%20effects.pdf
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

folgende User möchten sich bei daniel bedanken:
claudia, Holgonaut

Re: logistische Regression?

Beitragvon claudia » Fr 9. Mär 2012, 14:09

Hallo zusammen,

vielen lieben Dank für eure ausführlichen Antworten.
Auch wenn ich zugeben muss dass ich beim letzten Post ein wenig ausgestiegen bin, denke ich, dass ich die Message verstanden hab.

Einfach alle Einflussvariablen auf einmal rein und dafür das Ergebnis richtig interpretieren.

Ich werd mir beste Mühe geben, das nun so zu machen...

Nochmals danke!

Grüße, Claudia
claudia
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Do 23. Feb 2012, 14:41
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Vorherige

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste

cron