STATISTIK-FORUM.de

mariiiie · von **mariiiie** » Di 26. Mai 2015, 19:32

Hallo!

Zunächst möchte ich mich dafür entschudligen, dass ich eine weitere Frage zu meiner Regression in einem neuen Thread stelle, allerdings denke ich mir, wenn jemand die gleiche Frage hat, findet er diesen Thread schneller!

Ich möchte im Rahmen meiner linearen multiplen Regression (1AV, 10 UV) zwei nicht lineare Zusammenhänge linearisieren. In den nachfolgenden Abbildungen sind die abhängigen Variablen je auf der x-Achse!.

1.
Bild

1. Ich vermute zunächst einen (verallgemeinerten) Zusammenhang der Form y = 1/x^2. Dann ist mir aufgefallen, dass dies nicht funktioniert, da ich versehentlich die Achsen vertauscht habe. Nun war meine Überlegung, die Umkehrfunktion zu nehmen, diese würde lauten y = +/- (1/sqrt(x)).
Nun habe ich aber neben Umsetzungsproblemen in R das Problem, dass die Anwendung der Funktion hier meinen Überlegungen keinen Sinn macht, da ja y die abhängige Variable ist und später Werte vorhergesagt werden sollen -> da funkt mir daas +/- dazwischen oder habe ich hier einen Denkfehler?
Ist es also überhaupt möglich diesen Zusammenhang zu linearisieren?

2.
Bild

2. Auch hier ist die abhängige Variable wieder auf der x-Achse! Hier möchte ich gerne die Funktion für verschiedene Wertebereiche der unabhängigen Variablen auf der y-Achse aufteilen. Dies möchte ich machen um den besonders großen bzw. nur positiven Werten (bei ca. 100%) und den besonders kleinen bzw. nur negativen Werten (bei ca 0%) Rechnung zu tragen und so die Koeffizientenschätzung der Regression besser zu machen.
Nun weiß ich leider auch hier nicht wirklich wie das in R gehen soll? Die Grundform einer umgekehrten Sigmoidfunktion (S-Funktion -> http://de.wikipedia.org/wiki/Sigmoidfunktion) schwebt mir vor, allerdings kann ich diese wegen dem enthaltenen Logarithmus-Anteil nicht anwenden, da ich auch negative Werte meiner abhängigen Variable auf der x-Achse habe :?:

Auch hier due Frage, ist eine Linearisierung überhaupt möglich bzw sinnvoll?

Hättet ihr grundsätzlich noch Empfehlungen oder Tipps was Transformationen/Linearisierung angeht? Z.B. wollte ich die Box-cox-Transformation durchführen, dies kann ich aber wegen meinen negativen Werten der abhängigen Variablen auch nicht machen...

Danke vielmals im Vorraus!!

PonderStibbons · von **PonderStibbons** » Di 26. Mai 2015, 20:26

Etwas seltsam, die Achse zu vertauschen. Worin besteht die Nichtlinearität
Deiner Beobachtung nach? Das erste scheint Heteroskedaszität abzubilden, das
zweite möglicherweise auch, aber in geringerem Ausmaß. Beides mit kleinem
Korrelationskoeffizienten.

Mit freundliche Grüßen

P.

P.S. Falls Du in Zukunft mit negativen Werten Probleme hast, man kann eine
Konstante addieren.

mariiiie · von **mariiiie** » Mi 27. Mai 2015, 02:08

Ich hab mich wohl etwas unpräzise ausgedrückt, sorry! Mit Nichtlinearität meine ich eigentlich keine besonders große Linearität, da muss man wohl genau differenzieren! Nunja, Nichtlinearität ist ja bei beiden erstmal nicht direkt gegeben, starke Linearität aber auch nicht. Da der Pearson-Koeffizient deutlich kleiner ist als der von Spearman, habe mir überlegt, dass die Spearman-Koeefizienten darauf hindeuten könnten, dass es einen etwas stärkeren nicht-linearen Zusammenhang gibt, den es durch Linearisierung "nutzbar zu machen gilt". Vorallem bei 1. habe ich mir da eine Verbesserung erhofft. Liege ich mit dieser Überlegung falsch? Gibt es eigentlich eine Art Grenze, ab wann man von ausreichender Korrelation oder von einem ausreichend großen linearem Zusammenhang ausgehen kann, bezüglich der Aufnahme einer Variable in das Modell?

Korrelationskoeffizient mit AV nach Pearson bei 1.: ca. 0,2
Korrelationskoeffizient mit AV nach Spearman: 1.: ca. 2,5
Korrelationskoeffizient mit AV nach Pearson: 2.: ca. 3,5
Korrelationskoeffizient mit AV nach Spearman: 2.: ca. 5,5

Heteroskedaszität (und Autokorrelation) sind in meinen Daten by the way leider vorhanden, weswegen ich HAC-Standardfehler benutze (Heteroskedaszität- und Autokorrelationskonstistent).

Danke für die schnelle Antwort!
Liebe Grüße

edit: Box-Cox hat nach Hinzufügen einer Konstante (damit AV größer 0) super funktioniert!

Merci!

PonderStibbons · von **PonderStibbons** » Mi 27. Mai 2015, 09:06

Nunja, Nichtlinearität ist ja bei beiden erstmal nicht direkt gegeben, starke Linearität aber auch nicht.

Von starker Linearität habe ich noch nie gehört

Korrelationskoeffizient mit AV nach Pearson bei 1.: ca. 0,2
Korrelationskoeffizient mit AV nach Spearman: 1.: ca. 2,5
Korrelationskoeffizient mit AV nach Pearson: 2.: ca. 3,5
Korrelationskoeffizient mit AV nach Spearman: 2.: ca. 5,5

Was soll das bedeuten? Es gibt keine Korrelatioenkoeffizienten > 1,0

Heteroskedaszität (und Autokorrelation) sind in meinen Daten by the way leider vorhanden, weswegen ich HAC-Standardfehler benutze (Heteroskedaszität- und Autokorrelationskonstistent).

Du hast annähernd lineare Beziehungen, wie es scheint,
allerdings ist die Korrelation sichtlich sehr klein. Und wie gesagt
Heteroskedaszität, zumindest im ersten Fall (aber das ist ja
erstmal kein Problem des Gesamtmodells).

edit: Box-Cox hat nach Hinzufügen einer Konstante (damit AV größer 0) super funktioniert! Merci!

[/quote]
Wie Du das inhaltlich begründest und inhaltlich interpretierst,
wird dann noch die spannende Frage.

Mit freundlichen Grüßen

P.

mariiiie · von **mariiiie** » Mi 27. Mai 2015, 14:40

Korrelationskoeffizient mit AV nach Pearson bei 1.: ca. 0,2
Korrelationskoeffizient mit AV nach Spearman: 1.: ca. 2,5
Korrelationskoeffizient mit AV nach Pearson: 2.: ca. 3,5
Korrelationskoeffizient mit AV nach Spearman: 2.: ca. 5,5

Was soll das bedeuten? Es gibt keine Korrelatioenkoeffizienten > 1,0

Pardon, ich meine natürlich 0,2 - 0,25 - 0,35 - 0,55

Wie Du das inhaltlich begründest und inhaltlich interpretierst,
wird dann noch die spannende Frage.

Meinst du die Box-Cox-Transformation oder das gesamte Modell?

Um nochmal auf meine eigentliche Frage zurückzukommen - macht es Sinn, diese zwei Beziehungen noch zu transformieren bzw. linearisieren?

PonderStibbons · von **PonderStibbons** » Mi 27. Mai 2015, 14:57

Ich erkenne weder nennenswerte Nonlinearität, noch wüsste ich, wie man
einen Box-Cox-transformierten Prädiktor in seiner Beziehung zur abhängigen
Variable eigentlich interpretieren soll. Aber möglicherweise sehen das
andere anders.

Mit freundlichen Grüßen

P.

mariiiie · von **mariiiie** » Mi 27. Mai 2015, 17:40

Ich habe keine Prädiktor-Variable box-cox-transformiert, sondern die abhängige Variable! :-)

Schon sehen meine Residueen deutlich normalverteilter aus.

Heißt das, solange eine unabhängige Variable nicht nicht-linear ist und eine Aufnahme in das Modell theoretisch Sinn macht, kann man sie mit in die lineare multiple Regression werfen, so klein die Korrelation auch ist? Ich habe nämlich gelesen dass Korrelation eine notwendige (wenn auch keine hinreichende) Bedingung für einen kausalen Zusammenhang ist - und diesen würden wir ja am liebsten herausfinden (ich weiß, dass man über die Regression nicht auf einen kausalen Zusammenhang schließen darf).
Was wäre, wenn x nicht nicht-linear ist, eine sehr schwache Korrelation ausweist, aber eine dritte Mediator Variable trotzdem für einen indirekten Zusammenhang sorgen würde? Dann wäre es ja falsch, x aus dem Modell zu nehmen? Ich bin da ein wenig verwirrt, entschuldigt! Recherchiere dazu auch schon seit einer Weile und finde keine wirkliche Antwort... :roll:

Liebe Grüße

bele · von **bele** » Mi 27. Mai 2015, 18:15

mariiiie hat geschrieben:solange eine unabhängige Variable nicht nicht-linear ist und eine Aufnahme in das Modell theoretisch Sinn macht, kann man sie mit in die lineare multiple Regression werfen, so klein die Korrelation auch ist?

1. IIRC hat PonderStibbons hat an anderer Stelle schon mal geschrieben, dass Variablen nicht linear sind sondern nur Zusammenhänge.
2. Theoretisch ins Modell gehörende Variablen dürfen unabhängig von der Korrelation mit ins Modell, solange man genügend Daten hat. Entweder wird die lineare Beziehung im Lichte der anderen UV sichtbar oder der Variablen wird ein entsprechend kleines Beta zugeordnet.

Dann wäre es ja falsch, x aus dem Modell zu nehmen?

Was ist x und warum hast Du es aus dem Modell genommen? Ob das falsch oder richtig ist hat sehr viel mit der Frage zu tun, was Du mit dem Modell erreichen willst, warum Du es überhaupt aufstellst.

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Mi 27. Mai 2015, 18:20

Ich habe keine Prädiktor-Variable box-cox-transformiert, sondern die abhängige Variable! Schon sehen meine Residueen deutlich normalverteilter aus.

Das ändert nichts daran, dass man das voraussichtlich nicht inhaltlich
sinvoll interpretieren kann. Die ganze Diskussion ist auch etwas ungewöhnlich,
normalerweisestellt man das multiple Regressionsmodell auf und schaut auf die
Streudiagramme (observed versus predicted values), ob die
Linearitätsannahme eingehalten wird.Nichtlineare Beziehungen
zwischen einzelnen Prädiktoren und dem Kriterium können u.a. durch
Drittvariablen verursacht sein, und wenn man die ins Modell nimmt,
kann das die Sache linearisieren.

Heißt das, solange eine unabhängige Variable nicht nicht-linear ist

Eine einzelne Variabe kann nicht linear sein, nur Beziehungen können
das. Und wie gesagt, schaut man (meines Wissens) normalerweise
einfach das Modell an, nicht die ganzen einzelnen Beziehungen zwischen
den Prädiktoren und dem Kriterium.

und eine Aufnahme in das Modell theoretisch Sinn macht, kann man sie mit in die lineare multiple Regression werfen, so klein die Korrelation auch ist?

Ich kenne Deine Theorie und Fragestellung nicht, daher kann ich
über die Sinnhaftigkeit leider nichts sagen. Normalerwese soll
man Modelle anhand theoretischer Überlegungen aufstellen und
dann testen.

Ich habe nämlich gelesen dass Korrelation eine notwendige (wenn auch keine hinreichende) Bedingung für einen kausalen Zusammenhang ist - und diesen würden wir ja am liebsten herausfinden (ich weiß, dass man über die Regression nicht auf einen kausalen Zusammenhang schließen darf).

Es gibt auch Moderatorvariablen, Mediatorvariablen,
Suppressorvariablen, konfundierte Variablen, Instrumentvariablen.
Wie man durch Regressionsanalyse zu plausiblen Aussagen über
Kausalität kommen kann, ist aber auch wieder ein Thema
für sich.

Recherchiere dazu auch schon seit einer Weile und finde keine wirkliche Antwort...

Leider kenne ich außer Thema und Fragetellung auch den Sinn und Zweck
der ganzen Studie nicht. Normalerweise würde ich sagen, nimm ein paar
wenige, inhaltlich sinnvolle Prädiktoren und stelle Dein Modell auf und
überprüfe, ob die Voraussetzungen erfüllt sind und teste das
Modell.

Mit freundlichen Grüßen

P.

DHA3000 · von **DHA3000** » Do 28. Mai 2015, 14:30

Liebe mariiiie,

da ich mich mal gerade vom arbeiten abhalten will, mal ein längerer Beitrag hierzu.
Du erliegst - wie so viele hier im Forum der Überlegung - dass du glaubst, Statistik wäre eine Schwarz/Weiß-Wissenschaft. Ich weiß,
man kann sehr schnell zu dieser Einschätzung kommen, wenn man Lehrbücher liest, wo auf jedes Problem offenkundig eine Antwort gegeben wird,
aber das schafft in der Regel nur neue Probleme. Es gibt nicht immer "die" perfekt Lösung und man muss inhaltlich das ganze gut Erklären können.
Dafür kannst du teilweise nichts und natürlich haben auch wissenschaftliche Mitarbeiter schuld, wenn sie glauben, dass man so einfach damit umgehen
könnte.

Mal ein Beispiel aus der Wissenschaft: Ich habe jetzt schon eine handvoll Papiere in wissenschaftlichen Zeitschriften veröffentlicht, wo irgendwo auch Regressionsgleichungen
mit drinnen stecken. So etwas wie Autokorrelation oder Heteroskedastizität korrigiert man immer automatisch. Ob eine Normalverteilung der Residuen vorliegt
schaue ich mir erst garnicht an. Ebenso wenig ob eine spezifische "Transformation" notwendig für die Linearisierung hinreichend ist. Das hat zwei sehr einfache Gründe:

1. Das "lapidare" Problem der NV kann man man nicht einfach lösen (mit gängigen Statistikprogrammen zu herumklicken). Wir haben mal versucht, ein Simulationspapier dazu unterzubringen, wo wir die Auswirkungen der
Nicht-NV auf Testergebnisse versucht haben aufzuzeigen. Das war recht schwierig und viel Programmierarbeit und ich rate keinem Dazu, der nicht wenigstens seine Masterarbeit darüber
schreiben möchte, sich ernsthaft damit zu beschäftigen. Die NV-Annahme wirst du praktisch immer verletzt sehen, wenn deine Stichprobe zu gering ist und du wirst keine sinnvolle Lösung finden, ohne, dass du
dir andere Probleme schaffst. Sie ist praktisch immer erfüllt, wenn du ein großes Sample hast. Der Trade-off dazwischen ist sehr gering, denn die Schätzergenisse sind weiterhin effizient und unverzerrt.
Effizienz, Konsistenz und Verzerrung sind die wichtigsten drei Wörter für die Ökonometrie-Grundlagen.

2. Man hat nur einen sehr begrenzten Spielraum, Variablen zu transformieren. Denn man hält sich natürlich an die Literatur, die gute (inhaltiche!) Gründe anführt, warum dies so sein muss. Auf diese Literatur verweist man und
übernimmt die Variablen und deren Erklärung, wenn sie plausibel ist. Man schreibt nicht "Weil beim QQ-Plot drei Punkte nach rechts abweichenverwende ich Logarithmen." Das führt dazu, dass du im Zweifel war hinterher einen schönen QQ-Plot hast, aber dafür keine inhaltliche Erklärung. Letzteres wiegt schwerer.

Daher schreiben hier auch immer, alle Hobby- und Berufsstatistiker, dass man wenig zu solchen Ergebnissen sagen kann, wenn man keinerlei Hinweise zu inhaltlichen Fragestellungen bekommt. Dann, obwohl man das am Anfang nicht war haben will, besteht Statistik nicht nur aus Zahlen.

STATISTIK-FORUM.de

Problem bei Linearisierung

Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Re: Problem bei Linearisierung

Wer ist online?