Binäre logistische Regression mit bin. und metr. Variablenr

Alle Verfahren der Regressionanalyse.

Binäre logistische Regression mit bin. und metr. Variablenr

Beitragvon Monsy » So 16. Dez 2012, 15:32

Hallo liebe Forenmitglieder!

Im Rahmen einer Statistikveranstaltung für unseren Masterstudiengang sollen wir eine Aufgabe replizieren, die auf den PISA Studien basiert.
Hierbei geht es konkret darum, den Schulabschlusswunsch der Eltern zu beleuchten und zu sehen, welche Faktoren darauf einen Einfluss haben. Die Authoren des Artikels machen dies anhand einer logistischen binären Regressionsanalysen.
Da wir bisher nicht mit der binären Regressionsanalyse gearbeitet haben, sind wir mittlerweile etwas ins Straucheln gekommen, wie man daran herangeht, dabei stellt sich die einfache binäre Regressionsanalyse eigentlich recht einfach dar. Unser Problem ist aber, dass die Authoren auch mit metrischen Skalen arbeiten und diese in die Analyse mit einbeziehen.

Um das zu verdeutlichen, gebe ich mal die genaueren Details:

Unsere abhängige Variable ist die Aspiration (Wunsch), dichotrom(0 = Hauptschulabschluss gewünscht, 1 = mittlerer Abschluss oder höher gewünscht).

Unsere unabbhängigen Variablen:
Geschlecht (Dichotrom; 0 = männlich, 1 = weiblich)
Migration (Dichotrom; 0 = kein Migrationshintergrund, 1 = Migrationshintergrund)

Deutschnote
1. Fremdsprachennote
Mathenote

(Variablen sind allesamt ordinalskaliert, von 1 - 6)

Höchster HISEI der Familie (Highest International Socio-Economic Index) (Ordinalskaliert, 0 - 90)
Lesetest
Mathetest
(Beide auch eine Ordinalskalierung, haben wir selbst aus anderen Fragen errechnet, da Originaldaten diese nicht hergeben).

Bei allen ordinalskalierten Variablen steht im Artikel, dass diese z-standardisiert wurden. Dies haben wir auch getan. Nun wissen wir aber nicht, wie wir weiter mit diesen ordinalskalierten, z-standardisierten Variablen weiter vorgehen müssen, um daraus sinnvolle Ergebnisse zu erzielen.
Bis jetzt bekommen wir die Berechnung der ODD Rates für Geschlecht und Migration hin und kommen, trotz anderer Stichprobengröße (Original N ist nicht replizierbar, weil der Datensatz nicht zugänglich ist und wir mit einem anderen rechnen müssen), auf ziemlich die gleichen Werte.
Wir dachten uns, dass wir diese ordinalskalierten Variablen für eine binäre Regression ja auch auf zwei Ausprägungen codieren müssen und haben, nach der z-Standardisierung die Variable so recodiert, dass alles Werte bis 0 (also dem Mittelwert) den Wert 0 erhalten und alles was darüber liegt den Wert 1 erhält. Eine Auswertung brachte dann aber nicht die gewünschten Ergebnisse sondern eher das Gegenteil.
Leider wissen wir überhaupt nicht, was wir mit den ordinalskalierten Daten machen müssen. Im Artikel schreiben die Authoren auch nicht weiter, was sie genau getan haben, sondern nur, dass diese z-Standardisiert wurden - dann kommt schon eine Tabelle mit den Odd-Ratios (zB. bei HISEI 1,38) und der Aussage, dass Eltern mit einem höheren HISEI Wert (sozialler Stellung) die Wahrscheinlichkeit auch nach einem höheren Abschluss steigt, bei gleichbleibender Leistung.
Mit unserer Methode kommen wir auf eine Odd-Rate beim HISEI auf 0,7 - also komplett falsche richtung.
Wie gesagt, wir sind uns überhaupt nicht sicher, ob man das so machen kann. Wir haben es einfach mal versucht. Ändern wir die standardisierten Werte nicht in 1 und 0 um sondern definieren diese in SPSS in Kategoriale Kovarianten, bekommen wir ganz viele Odd-Rates raus, die bei unserer Replikation aber nicht weiterhelfen.

Hat vielleicht irgendjemand eine Idee, was wir machen müssen?
Monsy
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 24. Apr 2012, 09:45
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Binäre logistische Regression mit bin. und metr. Variabl

Beitragvon PonderStibbons » So 16. Dez 2012, 16:21

Bei allen ordinalskalierten Variablen steht im Artikel, dass diese z-standardisiert wurden.

Eigenartig. Ordinalskaierte Variablen darf man gar nicht z-standardisieren.
Wir dachten uns, dass wir diese ordinalskalierten Variablen für eine binäre Regression ja auch auf zwei Ausprägungen codieren müssen

Abgesehen von dem Problem, dass wie gesagt ordinalskalierte Variablen
nicht z-standardisiert werden können, und außerdem die Begründung fehlt,
warum z-Standardisierung überhaupt als erforderlich erachtet wurde:
Prädiktoren in einer binären logistischen Regressionsanalyse müssen nicht
binär sein. Binär ist nur die abhängige Variable.
Mit unserer Methode kommen wir auf eine Odd-Rate beim HISEI auf 0,7 - also komplett falsche richtung.

Vielleicht ist etwas, das Ihr als 0/1 codiert habt, in der Vorlage als 1/0 codiert,
also andersherum. 1,38 ist ungefähr der Kehrwert von 0,7.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Binäre logistische Regression mit bin. und metr. Variabl

Beitragvon Monsy » So 16. Dez 2012, 16:56

PonderStibbons hat geschrieben:
Bei allen ordinalskalierten Variablen steht im Artikel, dass diese z-standardisiert wurden.

Eigenartig. Ordinalskaierte Variablen darf man gar nicht z-standardisieren.
Wir dachten uns, dass wir diese ordinalskalierten Variablen für eine binäre Regression ja auch auf zwei Ausprägungen codieren müssen

Abgesehen von dem Problem, dass wie gesagt ordinalskalierte Variablen
nicht z-standardisiert werden können, und außerdem die Begründung fehlt,
warum z-Standardisierung überhaupt als erforderlich erachtet wurde:
Prädiktoren in einer binären logistischen Regressionsanalyse müssen nicht
binär sein. Binär ist nur die abhängige Variable.
Mit unserer Methode kommen wir auf eine Odd-Rate beim HISEI auf 0,7 - also komplett falsche richtung.

Vielleicht ist etwas, das Ihr als 0/1 codiert habt, in der Vorlage als 1/0 codiert,
also andersherum. 1,38 ist ungefähr der Kehrwert von 0,7.

Mit freundlichen Grüßen

P.

Hallo PonderStibbons und vielen Dank für deine Antwort!

Warum dürfen Ordinalvariablen nicht standardisiert werden? Dabei wird ja die Verteilung der einzelnen Ausprägung nicht verändert. Die Rangordnung bleibt doch bestehen?

Ich denke nicht, dass es sich hierbei um ein 0/1 - 1/0 Codierungsfehler handelt. Als Referenz wird ja ein Rangmässig niedriger Wert herangenommen um eine äquivalente Aussage treffen zu können.

Wie kann man denn mit SPSS ansonsten eine bin. log. Regression durchführen und UV Variablen mit mehreren Ausprägungen einbeziehen ohne tausende Odd Rates innerhalb jeder einzelne Variable zu bekommen? SPSS zeigt mir anscheinend ja dann immer den Wert für eine Ausprägung im Vergleich zu einer Referenzausprägung an. Wie komme ich zur "generalisierung", dass mit steigendem HISEI höhere Abschlusswünsche einhergehen (Odd Rate 1,38).
Monsy
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Di 24. Apr 2012, 09:45
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Binäre logistische Regression mit bin. und metr. Variabl

Beitragvon daniel » So 16. Dez 2012, 20:13

Wenn Ihr eine SPSS Frage habt, dann seid Ihr vermutlich im entsprechenden sub-Forum besser aufgehoben.

Bis auf die Noten, für die tatsächlich einige Ordinalskalenniveau unterstelllen, sind die restlichen Variabeln unstrittig intervallskaliert. Diese Variablen können so wie sie sind (wozu die z-Standardisierung vorgenommen wurde, kann ich nicht beurteilen) in das Modell aufgenommen werden. Die OR spiegeln die multiplikative Veränderung der Odds bei einer Einheit (sd) Veränderung des jeweiligen Prädikators wider. Die Umsetzung sollte analog zum linearen Modell sein.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Binäre logistische Regression mit bin. und metr. Variabl

Beitragvon PonderStibbons » So 16. Dez 2012, 22:49

Warum dürfen Ordinalvariablen nicht standardisiert werden? Dabei wird ja die Verteilung der einzelnen Ausprägung nicht verändert. Die Rangordnung bleibt doch bestehen?

z-Standardisierung verwendet Standardabweichung und Mittelwert.
Beides gibt es bei ordinalskalierten Variablen nicht. Daniel hat allerdings
darauf hingewiesen, dass die Variablen anscheinend intervallskaliert sind.
Wie kann man denn mit SPSS ansonsten eine bin. log. Regression durchführen und UV Variablen mit mehreren Ausprägungen einbeziehen ohne tausende Odd Rates innerhalb jeder einzelne Variable zu bekommen?

Darauf verzichten, eine nicht-kategoriale (intervallskalierte) Variable als kategorial
zu deklarieren. Dann hält das Programm nicht jede einzelne Werteausprägung für
eine eigene Kategorie.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 6 Gäste