Probleme bei der Darstellung der Variablen

Alle Verfahren der Regressionanalyse.

Probleme bei der Darstellung der Variablen

Beitragvon geek45 » Do 4. Mär 2021, 16:16

Hallo zusammen,

folgendes Szenario:
Multiple lineare Regression durchgeführt - als Prädiktor wurde ebenso eine Faktorvariable einbezogen (Ausprägung: 1,2,3)
Die Annahmen für die MLR habe ich überprüft, diese können erfüllt werden.

Jetzt zu meinem Problem:
Meine Variablen sind nicht normalverteilt.

Für die Darstellung in einer Arbeit wird häufig VOR der eigentlichen Regression eine Korrelationsmatrix der einzelnen Variablen aufgestellt - Pearson fällt ja raus, da die Daten nicht normalverteilt sind und darüberhinaus noch eine Faktorvariable (die müsste ja mittels biserialer Korrelation dargestellt werden) vorhanden ist.

Was mache ich?
Wie stelle ich die Daten vor der Regression dar?


Vielen Dank und beste Grüße!
geek45
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 4. Mär 2021, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Probleme bei der Darstellung der Variablen

Beitragvon PonderStibbons » Do 4. Mär 2021, 16:50

als Prädiktor wurde ebenso eine Faktorvariable einbezogen (Ausprägung: 1,2,3)

Ist gemeint, ein dreistufiger Faktor? Und der wurde dann in 2 dummy-Variablen umgewandelt?
Jetzt zu meinem Problem:
Meine Variablen sind nicht normalverteilt.

Inwiefern ist das ein Problem? Normalverteilt sollen nur die Residuen sein, aber auch das
ist nur bei kleinen Stichproben erforderlich.
Für die Darstellung in einer Arbeit wird häufig VOR der eigentlichen Regression eine Korrelationsmatrix der einzelnen Variablen aufgestellt - Pearson fällt ja raus, da die Daten nicht normalverteilt sind

Das stellt für die Korrelation kein Problem dar. Erst, wenn Du Signifikanztests durchführen
möchtest.
und darüberhinaus noch eine Faktorvariable (die müsste ja mittels biserialer Korrelation dargestellt werden) vorhanden ist.

Dann mach das doch. Oder sind 1, 2 3 Stufen einer ordinalen Variable?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Probleme bei der Darstellung der Variablen

Beitragvon geek45 » Do 4. Mär 2021, 17:03

Wow, danke für die schnelle Antwort.

Also meine Faktorvariable hat 3 Ausprägungen, von denen ich die mittlere als Basis genommen habe.
Interpretation ist quasi: Ausprägung 1 unterscheidet sich von Ausprägung 2 (Basis) um den Koeffizienten von Ausprägung 1.

Normalverteilung:
Okay, dann wären meine Signifikanztests unverzerrt, da Stichprobe n=400

Linearität:
Habe ich bei der multiplen Regression mit Component plus residual Plot und lowess linie "ge-eyeballt" - evtl kleine Abweichungen
Wenn ich aber ja die Pearsonkorrelation berechne schaue ich mir quasi ein scatterplot von AV und UV an - das sieht aber ganz anders aus, nämlich nicht linear...
Variablen sind ordinal, werden aber als metrisch behandelt (AV und UV)

verwirrte Grüße
geek45
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 4. Mär 2021, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Probleme bei der Darstellung der Variablen

Beitragvon PonderStibbons » Do 4. Mär 2021, 17:18

Also meine Faktorvariable hat 3 Ausprägungen, von denen ich die mittlere als Basis genommen habe.
Interpretation ist quasi: Ausprägung 1 unterscheidet sich von Ausprägung 2 (Basis) um den Koeffizienten von Ausprägung 1.

Ich kann nicht behaupten, dass ich das ganz verstehe. Das soll intervallskaliert sein,
hat aber nur 3 Werte? Wenn Du daraus keine dummy-Variaben gemacht hast, wieso
dann biseriale Koeffizienten bei den Korrelationen?
Variablen sind ordinal, werden aber als metrisch behandelt (AV und UV)

Was sind das ganz konkret für Variablen und Messungen?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Probleme bei der Darstellung der Variablen

Beitragvon geek45 » Do 4. Mär 2021, 17:39

Die abhängige Variable ist eine Skala von 1-6.
2 unabhängige Variablen ebenso.
Dann kommt noch die Faktorvariable mit der Ausprägung 1,2,3 mit der 2. Ausprägung als Basis hinzu
- siehe hierzu https://www.stata.com/manuals/u26.pdf page 7.

Die abhängige und die 2 unabhängigen Variablen werden aber metrisch behandelt, deshalb die multiple lineare Regression.
Die Linearität wurde mittels cpr Plot überprüft.

Wenn ich aber ja vor der Beschreibung der Regression eine Korrelationsmatrix mache betrachte ich ja die Linearität nur mit einem Scatterplot zwischen abhängiger und einer unabhängigen Variable - das sieht natürlich ganz anders aus als im cpr Plot - die Pearson Korrelation setzt aber ja linearität voraus.

Ich könnte die als metrisch behandelten Variablen mittels Pearson Korrelation beschreiben und die Faktorvariable mit ihren einzelnen Ausprägungen (jede Ausprägung dichotomisiert) als biseriale Korrelation zwischen der einzelnen Ausprägung und der metrisch behandelten Variablen...

Aber das cpr plot ist ja post-estimation diagnosis, deshalb müsste ich ja auf den einfach scatterplot zwischen der abhängigen und unabhängigen Variable vor der Durchführung der Regression zurückgreifen.
Das sieht aber nicht linear aus...
geek45
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Do 4. Mär 2021, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 10 Gäste

cron