Logistische Regression - benötigte Fallzahl

Alle Verfahren der Regressionanalyse.

Logistische Regression - benötigte Fallzahl

Beitragvon Metropolis » Di 21. Apr 2015, 22:55

Hallo zusammen,

ich führe gerade für meine Abschlussarbeit eine binäre logistische Regression durch mit der abhängigen Variable "Wahlbeteiligung" (0 = Ja, 1 = Nein). Insgesamt habe ich 18 Regressoren. Das logistische Modell wird in SPSS über ein Stepwise-Verfahren (Vorwärts-Bedingt) gebildet. Ursprünglich sollte die Datenauswertung auch getrennt nach Ost und West-Deutschland durchgeführt werden, aber die geringe Fallzahl in den neuen Bundesländern macht mich gerade stutzig, ob dies überhaupt noch sinnvoll ist:

Respondenten West: 787 Wähler / 126 Nichtwähler

Respondenten Ost: 433 Wähler / 64 Nichtwähler

In der Literatur werden 100 Beobachtungen (50 je Gruppe) empfohlen. Diese Bedingung wird in beiden Fällen erfüllt. Allerdings entnehme ich der Literatur, dass die benötigte Stichprobengröße auch mit der Anzahl der verwendeten unabhängigen Variablen wächst. In meinem Fall habe ich ja sehr viele unabhängige Variablen, weshalb ich überlege, die Trennung zwischen Ost und West aufzuheben und die Analyse nur noch für das gesamte Bundesgebiet durchzuführen.

Würdet ihr diesen Schritt ebenso empfehlen und wenn ja, wie ließe sich die Aufhebung der Ost-West Trennung in meiner Abschlussarbeit rechtfertigen? Gibt es Richtwerte, wie groß die Stichprobe sein sollte bei 18 unabhängigen Variablen? Über eine Antwort würde ich mich freuen :-)
Metropolis
Beobachter
Beobachter
 
Beiträge: 12
Registriert: So 26. Jan 2014, 21:25
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression - benötigte Fallzahl

Beitragvon Metropolis » Di 21. Apr 2015, 23:23

Noch eine Ergänzung: Die logistische Regression hab ich schon testweise durchgeführt. Das Ost-Modell beinhaltet sehr viele nicht-signifikante Werte und es werden nur vier Variablen aufgenommen. Im West-Modell werden 9 Variablen aufgenommen. Ebenso werden 9 Variablen aufgenommen, wenn ein Modell für das gesamte Bundesgebiet berechnet wird.
Metropolis
Beobachter
Beobachter
 
Beiträge: 12
Registriert: So 26. Jan 2014, 21:25
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression - benötigte Fallzahl

Beitragvon strukturmarionette » Di 21. Apr 2015, 23:46

Hi,

Die logistische Regression hab ich schon testweise durchgeführt. Das Ost-Modell beinhaltet sehr viele nicht-signifikante Werte und es werden nur vier Variablen aufgenommen. Im West-Modell werden 9 Variablen aufgenommen. Ebenso werden 9 Variablen aufgenommen, wenn ein Modell für das gesamte Bundesgebiet berechnet wird.


- das liest sich doch schön. Wenn das ein Ergebnis des Ausprobierens ist, bedürfte es nur einer nachvollziehbaren Begründung für Deine (von SPSS automatisierten) Auswahlentscheidungen (Ein-, Aussschluss-, Trennwertkritierien u.a.), die sich beim Abnehmer der Studie 'verkaufen' lassen.

- wenn es dann auch noch interpretierbar ist, (...).

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
Metropolis

Re: Logistische Regression - benötigte Fallzahl

Beitragvon PonderStibbons » Mi 22. Apr 2015, 09:16

Das logistische Modell wird in SPSS über ein Stepwise-Verfahren (Vorwärts-Bedingt) gebildet.

Automatische Variablenselektion in "schrittweise"-Verfahren hat in der angewandten Statistik
zu Recht einen Ruf wie Beulenpest in der Medizin. Wobei Beulenpest zumindest ausrottbar ist.
http://www.nesug.org/proceedings/nesug07/sa/sa07.pdf
http://www.stata.com/support/faqs/stati ... -problems/

Wer hat Dir denn dieses Verfahren anempfohlen? Es ist doch befremdlich für
Wissenschaftler, die Modellbildung einem mathematischen Algorithmus zu
überlassen statt nach theoretischen Überlegungen vorzugehen.

Ursprünglich sollte die Datenauswertung auch getrennt nach Ost und West-Deutschland durchgeführt werden,

Und das auch noch in Kombination mit stepwise, angesichts "sehr vieler" Prädiktoren
- da hast Du dann hast Du am Ende zwei auf Zufallseffekten beruhende Modelle, die
Du weder vergleichen noch über die Stichproben hinaus generalisieren kannst.
Zuallermindest wäre es doch sinnvoll, ein gemeinsames Modell West und Ost zu
bilden, mit Landesteil als zusätzlichem Prädiktor. Und für diejenigen Prädiktoren, bei
denen vermutet wird, dass sie sich in West und Ost unterschiedlich auswirken,
kann man Wechselwirkungen mit "Landesteil" ins Modell aufnehmen. Erfordert
natürlich wiederum inhaltliche Vorüberlegungen.

Respondenten West: 787 Wähler / 126 Nichtwähler
Respondenten Ost: 433 Wähler / 64 Nichtwähler

Nach den gängigen Faustregeln (20 Fälle der kleineren Gruppe [hier: Nichtwähler] je Prädiktor),
kannst Du ein Modell mit 9 Prädiktoren sinnvoll testen, wenn Du die Landesteile zusammenfasst.
Wobei kategoriale Variablen für die Regression in mehrere Prädiktoren umgewandelt werden
müssen, dann verbraucht sich das recht schnell. Nach etwas laxeren Faustregeln kannst Du
so um die 15 Prädiktoren aufnehmen.
Würdet ihr diesen Schritt ebenso empfehlen und wenn ja, wie ließe sich die Aufhebung der Ost-West Trennung in meiner Abschlussarbeit rechtfertigen?

Wieso rechtfertigen? Es wurde doch überhaupt keine Begründung für die getrennte
Betrachtung genannnt. Wenn Du wie gesagt viele Variablen durch den stupiden
stepwise-Algortihmus hast durchpflügen lassen, ergeben sich ohnedies keine
zuverlässigen Ergebnisse.

Sinnvoll wäre (vermutlich), die Zahl der Variablen nach inhaltlichen Überlegungen
(theoretische Vorannahmen, Fragestellung der Studie, Referenzliteratur, Neugier)
weise zu beschränken, gegebenenfalls Wechselwirkungen einzubeziehen und auf die
automatisierte Variablenselektion zu verzichten, stattdessen das Modell so wie es
ist zu testen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Metropolis

Re: Logistische Regression - benötigte Fallzahl

Beitragvon Metropolis » Mi 22. Apr 2015, 14:30

*snip*

(Sorry, versehentlich gelöscht - Antworten siehe unten.

P.)
Metropolis
Beobachter
Beobachter
 
Beiträge: 12
Registriert: So 26. Jan 2014, 21:25
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression - benötigte Fallzahl

Beitragvon PonderStibbons » Mi 22. Apr 2015, 16:35

Vor der multivariaten Analyse wurde eine bivariate Analyse durchgeführt (mit Hilfe von Kreuztabellen), in der ich bereits die Ost-West Trennung vollzogen habe. Diese Trennung ist in der Wahlforschung üblich, da davon ausgegangen werden muss, dass sich das Wahlverhalten in den neuen Bundesländern aufgrund anderer Sozialisationserfahrungen von den alten Bundesländern unterscheidet.

Mag sein, aber Du hast Deine genaue Fragestellung nicht beschrieben,
daher weiß man eben nicht, ob das für Deine Fragestellung Sinn ergibt.
Ebensowenig ist man dann von Ferne in der Lage, Argumente zu liefern,
warum man es dann doch nicht machen soll. Aber die Annahme, dass 64
Fälle in der kleineren Gruppe (Ostdeutsche Nichtwähler) für eine multiple
Regression mit mehreren Prädiktoren ziemlich knapp ist, die ist zutreffend.
Beim Stepwise Verfahren dachte ich eigentlich, dass ich anhand der Reihenfolge, in der die Variablen in das Modell aufgenommen werden, ablesen kann, welche Faktoren am stärksten die abhängige Variable beeinflussen.

Bei einer so kleinen Stichprobe würde ich an Deiner Stelle
allenfalls interpretieren, welche Prädiktoren im Modell
"signifikant" ausfallen und welche nicht, aber dann unter
den "signifikanten" Prädiktoren keine Reihenfolge mehr
bilden wollen. Das ist ein höchst komplexes Thema, weil
die Prädiktoren in aller Regel deutlich überlappen, und
Regressionsverfahren dazu neigen, solche Überlappungen
einer der beteiligten Variablen zuzuschlagen, die dann
scheinbar "gewichtiger" wird als andere. Und das ist auch
nicht nur eine statistische Frage, sondern auch eine
ihaltliche. Wer will so komplexe Modelle inhaltlich noch
gescheit interpretieren...?
Ich habe ausschließlich kategoriale Variablen, die bei der logistischen Regression durch SPSS in Dummy-Variablen umgewandelt werden. Da einige Variablen über 5-6 Ausprägungen verfügen, könnte ich nach dieser Faustregel im Gesamtdeutschen-Modell nur 3-4 Variablen (=15 Dummys) aufnehmen???

Bei der aller-laxesten Faustregel brauchst Du 10 events (Fälle in der
kleineren Gruppe) pro Prädiktor. Wenn Du ursprünglich 18 Variablen
mit 45 (?) dummies hattest, mit denen Du 190 (Gesamtdeutschland)
oder 126 (West) oder gar 64 Nichtwähler vorhersagen wolltest, dann
wird das Mißverhältnis denke ich schnell ersichtlich. Und es sind
noch nichtmal Wechselwirkungen drin, obwohl die das eigentlich
Spannende wären. Beschränke Dich doch in Deiner Fragestellung
und beziehe Refernzlietartur und Überlegung ein. Mit 18 Variablen
bei kleinen Stichproben zu agieren (ob mit stepwise oder ohne),
das produziert nichts von Bestand (außer natürlich, es gibt extrem
vorhersagekräftige Faktoren - aber die wären dann wohl schon im
Vorhinein bekannt).

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Metropolis

Re: Logistische Regression - benötigte Fallzahl

Beitragvon Metropolis » Mi 22. Apr 2015, 18:32

Vielen Dank für die ausführliche Antwort. Im Rahmen meiner Arbeit untersuche ich zwei miteinander konkurrierende Thesen, die auf mehreren theoretischen Ansätzen basieren. Daraus habe ich meine Prädikatoren abgeleitet, deren Einfluss ich auf die individuelle Wahlteilnahme untersuchen möchte. Aus den Ergebnissen möchte ich mögliche Rückschlüsse auf die beiden Thesen erhalten.

Nach der laxesten Faustregel könnte ich also 19 Prädikatoren in einem Gesamtdeutschen-Modell integrieren. Derzeit sind es in "Dummy-Form" 43 Stück. Ich werd später mal schauen, ob es sich noch theoretisch vertreten lässt, wenn ich einige Variablen eliminiere. Könnte ich mich dabei auf die bivariate Analyse stützen und jene Variablen entfernen, die sich dabei als weniger aussagekräftig erwiesen haben? Ansonsten könnte ich die Variablenanzahl auch durch mehrere Umcodierungen reduzieren, was bei den Variablen mit 5 und 6 Kategorien möglich wäre.

Werden die Referenzkategorien eigentlich mitgezählt bei dieser Faustregel? (z.B. Variable "Politisches Interesse": Referenz = Stark, (1) = Mittel, (2) = Schwach --> sind das dann zwei oder drei Variablen?). Und hast du eine Quellenangabe für die Faustregel?
Metropolis
Beobachter
Beobachter
 
Beiträge: 12
Registriert: So 26. Jan 2014, 21:25
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression - benötigte Fallzahl

Beitragvon PonderStibbons » Mi 22. Apr 2015, 19:25

Vielen Dank für die ausführliche Antwort. Im Rahmen meiner Arbeit untersuche ich zwei miteinander konkurrierende Thesen, die auf mehreren theoretischen Ansätzen basieren. Daraus habe ich meine Prädikatoren abgeleitet, deren Einfluss ich auf die individuelle Wahlteilnahme untersuchen möchte. Aus den Ergebnissen möchte ich mögliche Rückschlüsse auf die beiden Thesen erhalten.

Das liest sich sehr unspezifisch, deswegen kann ich es nicht kommentieren.
Könnte ich mich dabei auf die bivariate Analyse stützen und jene Variablen entfernen, die sich dabei als weniger aussagekräftig erwiesen haben?

Die Praxis ist verbreitet, aber leider fehlerhaft. Die danach durchgeführte
logistische Regression "weiß" nicht, dass es mit einem anhand von Tests
selektierten Set an Prädiktoren arbeitet, dementsprechend beruhen die
nachfolgenden Rechnungen auf fehlerhaften Annahmen und können
verzerrte Ergebnisse liefern. Es wäre allemal besser als eine schrittweise
automatisierte Variablenselektion, aber dennoch nur sehr eingeschränkt
zu empfehlen. Wie gesagt weiß ich aber nichts über den Kontext und
den theoretischen Rahmen.
Werden die Referenzkategorien eigentlich mitgezählt bei dieser Faustregel?

Eine Variable mit k Stufen ergibt k-1 Prädiktoren.
...Quellenangabe für die Faustregel?

http://biostat.sphpc.cuhk.edu.hk/Biosta ... sGhOxzM%3D S.18 ff.
http://www.jclinepi.com/article/S0895-4 ... 3/abstract
http://aje.oxfordjournals.org/content/165/6/710.full

HTH

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Metropolis


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste