Logistische Regression & Dummy

Fragen, die sich auf kein spezielles Verfahren beziehen.

Logistische Regression & Dummy

Beitragvon Maibaum22 » Do 19. Mai 2022, 08:13

Hallo, Ichs schreibe aktuell meine Bachelorarbeit und habe ein Problem bei der Durchführung einer Missing Data Analyse.

Infos vorab:
ich habe insgesamt 4 Hypothesen die besagen, besteht ein negativer Zusammenhang zwischen:
der Gedächtnisleistung x und dem Laborwert x,
der Gedächtnisleistung x und Laborwert y,
der Gedächtnisleistung y und Laborwert x,
der Gedächtnisleistung y und Laborwert y.

Als AV werden die Testverfahren (zur Gedächtnisleistung) eingesetzt, die nach Erhebung in Prozentränge umgerechnet wurden. Als UV hat man dann bei meiner Fragestellung die Laborwerte, Alter, Geschlecht, Bildung. Für die Hypothesenüberprüfung hatte ich bereits eine schrittweise Regression gerechnet.

Da viele Daten fehlen, soll ich zusätzlich eine Missing Data Analyse durchführen Habe aber sowas noch nie zuvor berechnet und mein Betreuer hat mir dann folgende schrittweise Erklärung geschickt:
- die 2 Testverfahren, die 2 Laborwerte und das Alter als Dummyvariablen erstellen
- die dummys dienen dann jeweils als AV, weitere Parameter sind Bildung, Geschlecht etc.
- Anschließend werden die AV's mit den Parametern in eine logistische Regression eingesetzt und entsprechend berechnet.

Ist das denn mit der log. Regression gängig oder wird eine Missing Data grundsätzlich anders berechnet?

Zudem kann ich die Dummys für das Alter und einem der Laborwerte zwar erstellen, allerdings erhalte ich bei der Berechnung der logistischen Regression dann folgende Fehlermeldung:
Die abhängige Variable weist weniger als zwei nicht-fehlende Werte auf. Für die logistische Regression muß der abhängige Wert an den verarbeiteten Fällen genau zwei Werte annehmen.

Bin über jede Antwort sehr dankbar! :)
Maibaum22
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 18. Mai 2022, 22:30
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression & Dummy

Beitragvon PonderStibbons » Do 19. Mai 2022, 09:47

Als AV werden die Testverfahren (zur Gedächtnisleistung) eingesetzt, die nach Erhebung in Prozentränge umgerechnet wurden.

Ich gehe davon aus damit ist gemeint, entsprechend Normwert-Tabellen werden die Leistungen
in Prozentränge transformiert. Damit hättest Du eine ordinalskalierte abhängige Variable,
wohingegen eine lineare Regression eine intervallskalierte abhängige Variable voraussetzt.

Warum die Prozentränge? Prädiktoren sind doch unter anderem Alter, Geschlecht, Bildung,
das sind die Variablen, anhand derer Normwerttabellen stratifiziert werden, insofern ist das
doppelt gemoppelt.

Oder liege ich falsch und die Prozentränge sind hier anders aufzufassen?

Als UV hat man dann bei meiner Fragestellung die Laborwerte, Alter, Geschlecht, Bildung. Für die Hypothesenüberprüfung hatte ich bereits eine schrittweise Regression gerechnet.

Was hat man sich darunter vorzustellen, eine hierarchische Regression (in Ordnung, aber wozu?), oder
eine schrittweise automatisierte Variablenselektion (vehement abzulehnen)?

Ist das denn mit der log. Regression gängig oder wird eine Missing Data grundsätzlich anders berechnet?

Wenn das der Betreuer einer Bachelorarbeit Dir so vorgibt, bist Du doch in der glücklichen Lage, Dir darüber
keine Gedanken machen zu müssen. Aber davon ab, das Vorgehen liest sich erstmal nachvollziehbar. Allerdings
praktisch problematisch, wenn nur wenige missing Data vorliegen, weil man dann viele Prädiktoren zur Vorhersage
weniger missing Data Fälle hat. Habt Ihr eventuell übe Ersetzung der fehlenden Werte diskutiert (missing data
imputation), das ist mittlerweile nicht gar so exotisch mehr.
Zudem kann ich die Dummys für das Alter und einem der Laborwerte zwar erstellen, allerdings erhalte ich bei der Berechnung der logistischen Regression dann folgende Fehlermeldung:
Die abhängige Variable weist weniger als zwei nicht-fehlende Werte auf. Für die logistische Regression muß der abhängige Wert an den verarbeiteten Fällen genau zwei Werte annehmen.

Unmittelbar naheliegend: Alle Fälle mit fehlendem Alter werden nicht in der Analyse berücksichtigt, weil auch immer
mindestens einer der Prädiktoren bei diesen Fällen einen fehlenden Wert hat.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Maibaum22

Re: Logistische Regression & Dummy

Beitragvon Maibaum22 » Do 19. Mai 2022, 11:09

*snip* - leider versehentliche Löschung -
Maibaum22
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 18. Mai 2022, 22:30
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression & Dummy

Beitragvon PonderStibbons » Do 19. Mai 2022, 13:39

Also, ich hatte zu Beginn nur die Rohwerte. Mein Erstbetreuer hatte zunächst den Vorschlag gemacht, damit die lineare Regression zu berechnen, jedoch wollte mein Zweitbetreuer (Statistik Prof.), dass die Werte in Prozentränge umgerechnet werden, da ja eine Wiedererkennensleistung von 10 Wörtern bei 80 Jährigen was anderes sei, als bei 30 Jährigen. Ist das trotzdem doppelt gemoppelt?

Sicher. Alter ist doch jetzt eine Kovariate in der Regression und zugleich wurden die Werte für Alter
anhand der Normierungstabellen adjustert. Aber wenn es so abgesprochen ist, dann kannst Du sicher
damit leben.
Grob gesagt: Es werden 3 Modelle erstellt, pro Modell kommt ein Prädiktor hinzu

Demnach eine hierarchische Regression, das ist im Prinzip unproblematisch.

Nein, gar nicht. Ich habe nur gesagt bekommen, dass ich das Ganze so durchführen soll, wie unten bereits beschrieben. Was wäre denn an der Stelle sinnvoll? Ist es praktisch gesehen so problematisch, dass ich ihm den Vorschlag machen sollte, nochmal über die missing data inputation zu sprechen?

Woer soll ich das im konkreten Fall wissen, ich kenne die Daten nicht. Zum Beispiel ist uns nicht die Stichprobengröße
sowie die Zahl fehlender Angaben pro Variable bekannt.
Unmittelbar naheliegend: Alle Fälle mit fehlendem Alter werden nicht in der Analyse berücksichtigt, weil auch immer
mindestens einer der Prädiktoren bei diesen Fällen einen fehlenden Wert hat.

Könnte ich die fehlenden Werte der Prädiktoren denn umcodieren? Also SYSMIS-> 0? Geht das überhaupt? Oder heißt das, dass ich die Berechnung mit den entsprechenden Prädiktoren gar nicht durchführen kann?

Ich muss gestehen, ich verstehe den Vorschlag und die Fragen nicht. Ich habe lediglich eine Vermutung
geäußert. Ob sie zutrifft, weiß ich leider nicht.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Maibaum22


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 11 Gäste