Multikollinearität (Korrealtion / VIF)

Alle Verfahren der Regressionanalyse.

Multikollinearität (Korrealtion / VIF)

Beitragvon kim123 » Mo 27. Okt 2014, 10:54

Hallo da draußen,

ich habe ein paar Frage, auf die ich aber so leider bisher keine Antwort gefunden habe. Deshalb würde ich mich wirklich sehr freuen, wenn ihr mir helfen könntet.

Ich habe gelesen, dass man um Multikollinearität in einer multiplen Regression zu vermeiden zum Beispiel erstamal die bivariaten Korrelationen betrachten kann. Weiter steht da, dass es aber noch nicht heißt, dass keine Multikollinearität vorliegt, wenn die bivariaten Korrelationen gering sind, da diese nur paarweise Abhängigkeiten messen. Deshalb soll man dann noch VIF Werte betrachten.
Meine Fragen wären jetzt.

Wie ist das umgekehrt? Wenn bivariate Zusammenhänge in der Korrelationsmatrix sehr hoch sind. Müssen diese auch im Modell problematisch sein? Ich habe nämlich den Fall, dass die VIF-Werte nicht allzu hoch sind (zwischen 1 und 5, wobei die meisten eher bei 1 oder 2 liegen), aber die bivariaten Korrelationen zum Teil 0,8 oder 0,6. Also frage ich mich: Sind zuvor erkannte bivariate ZUsammenhänge immer ein Problem oder kann das im Ganzen Modell dann irgendwie aufgehoben/neutralisiert werden?

Andere Frage wäre noch, ob ich den Pearson Korrelationskoeffizient für die bivariaten Zusammenhänge in SPSS zur Diagnose nutzen kann, wenn ich nicht nur metrische sondern auch Dummy-Variablen vorliegen habe.

Viele Grüße!
kim123
Beobachter
Beobachter
 
Beiträge: 18
Registriert: Mo 27. Okt 2014, 10:37
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität (Korrealtion / VIF)

Beitragvon DHA3000 » Mo 27. Okt 2014, 19:46

Man kann bei Multikollinearität keine eindeutigen Aussagen treffen. 0,6 ist auch nicht gerade hoch, bei 0,8 sieht schon ein wenig anders aus.
Den VIF kann man im Grunde genommen vergessen, weil er eigentlich wenig aussagt. Du kannst dir aber die beiden Variablen im Modell anschauen, die bspw. eine Korrelation von 0,8 aufweisen.
Heben sie sich gegenseitig auf, hast du einen Einfluss von Multikollinearität.

Ansonsten kannst du dir einmal überlegen, ob die Korrealtion bei einer metrischen und einer Dummy-Variable hoch oder niedrig ist. Und wie der Effekt bei zwei Dummy-Variablen sich verhalten könnte.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Multikollinearität (Korrealtion / VIF)

Beitragvon kim123 » Mo 27. Okt 2014, 21:06

Ah Ok schon mal vielen Dank.. ich hatte auch das Gefühl, dass die VIFs mir nicht helfen. Steht aber in jedem Lehrbuch man solle drauf gucken :?

Ja also ich hab mir das schon angeguckt im Modell. Und die 2 Variablen verhalten sich eben sehr seltsam. Wird jeweils nur eine davon reingenommen, dann ist es ein positiver Einfluss. Auch signifikant. Beide zusammen ist die eine positiv und noch höherer Einfluss und die andere negativ und nicht signifikant. (Wobei das so gut wie keinen Sinn gibt, dass das negativ wird..). Also denke ich, man sollte sie eher nicht zusammen ins Modell packen. Was ich halt noch nicht so ganz verstehe ist, ob durch die hohe Korrelation nun gesagt ist, dass die eine Variable komplett redundant ist, oder ob ich vielleicht 2 Modelle machen sollte. Einmal mit der einen Variable einmal mit der anderen :o)

Zu den Dummys: ja das hab ich versucht mir zu überlegen. Aber ich bin leider dran gescheitert, mir sicher zu sein, ob das überhaupt zulässig ist die Korrelation zu berechnen. Ich denke mal eine Korrelation kann relativ schnell entstehen, weil die Dummy Variable nur 2 Werte annehmen kann? Aber wenn ich im Modell 3 Dummy habe, die nominal skalierte Variable mit 4 Ausprägungen abbilden sollen. Dann weiß ich, dass ich nur 3 in die Regression aufnehmen darf, damit die 4. quasi als Referenz dient. Aber bei der Korrelationsmatrix wird ja der Rest nicht konstant gehalten, sondern jeweils der Zusammenhang paarweise betrachtet. Das verwirrt mich leider.. wie geht man denn da vor? Ich habe leider kein Beispiel dazu gefunden
kim123
Beobachter
Beobachter
 
Beiträge: 18
Registriert: Mo 27. Okt 2014, 10:37
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität (Korrealtion / VIF)

Beitragvon DHA3000 » Di 28. Okt 2014, 00:47

Na, du bist schon einmal auf dem richtigen Weg.
Was in Lehrbüchern steht ist in der Regel der Standard, aber nicht immer hilfreich in der Praxis. Es gibt genügend Literatur, die den VIF ebenso abschächt/ablehnt, wie sie in verteidigt.
Daran erkennt man schon, dass es kein Richtig oder Falsch gibt.

Was du aber bei deiner Regression beobachtest, ist ein klares Anzeichen von M. Denn die eine Variable "raubt" quasi der anderen ihren Erklärungsgehalt. Stell es dir so vor, dass du ein großes Geflecht an Daten hast, und nun nimmst du Variabeln zur Hilfe, bestimmte Strukturen "herauszuziehen". Nichts anderes macht eine Regressionsanalyse. Jetzt hast du zwei Variablen, die sich ähnlich verhalten, also ziehst du mit der ersten den einen Teil der Variation aus dem Geflecht heraus, den sie erklären kann. Nur - was soll dann noch die andere Variable erklären? Sie wäre für die ähnliche Struktur nützlich gewesen. So erkennt sie aber garnichts.
Genau das hast du bei dir Vorliegenn. Dass der Koeffizient negativ wird, ist nicht sonderlich überraschend, denn die Variable ist extrem instabil geworden, da sie auch fast keinen Erklärungsgehalt hat, liegt der Koeffizient nahe Null.

Was mit in diesem Fall tun kann, ist erst einmal zu überlegen, was man denn genau für Variablen hat. Anscheinend verhalten sie sich ja ähnlich und somit ist eine obsolet für die weitere Analyse. Die Entscheidung, ob man dann eine weglässt, obliegt deiner theoretischen Begründung. Da kann dir kein Lehrbuch helfen.

Ansonsten schau dir doch einmal die Korrealationsmatrix mit den Dummys an. Ist es realistisch, dass der Dummy mit einer metrischen Variable "schnell" korreliert? Ja, aber korreliert er auch "hoch"? Ist es realistisch, dass sich eine Variable mit zwei Ausprägungen ähnlich verhält, wie eine Variable mit vielen Ausprägungen?
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Multikollinearität (Korrealtion / VIF)

Beitragvon kim123 » Di 28. Okt 2014, 15:59

ah super endlich mal eine Erklärung, die auch ich verstehe. In den meisten Büchern lese ich nur "das weist auf Multikollinearität hin". Aber ausgeführt wird das dann leider nicht. Hast du da vielleicht einen Literaturhinweis für mich? (oder ein Stichwort nach was ich googeln sollte, wenn es um das Wegnehmen von Erklärungskraft zwischen Variablen und dominante Einflüsse geht.... Multikollinearität hab ich natürlich schon gegoogelt :|)

Ok weil die beiden Variablen die sich so verhalten sind sehr ähnlich. Grundsätzlich sollten sie nicht genau das gleiche darstellen. Erhebung ist aber explorativ gewesen, deshalb könnte es sein das sie letztendlich das gleiche oder was ähnliches darstellen. Ich hätte dann zwei Modelle gemacht, um zu zeigen, dass sie beide zur Vorhersage herangezogen werden können. (Die eine ist leichter zu erheben) Wäre das dann vielleicht eine Möglichkeit?

Ich habe aber noch eine "Sorgenvariable", auf die enorm viel Erklärungskraft fällt. Beta ist sehr hoch (0,7) und wenn sie rausgenommen wird, verändern sich nahezu alle anderen Koeffizienten. Ursprünglich dachte ich, dass das bedeutet, dass es eben wichtig ist diese Variable zu "kontrollieren", weil ohne sie alle anderen Koeffizienten verzerrt sind. Nach deiner Erklärung nehme ich aber fast an, dass es sich hierbei auch um so einen Fall handelt.. Wäre hier eine mögliche Erklärung vielleicht, dass diese Variable durch die anderen Variablen beeinflusst wird und deshalb den anderen die Erkärungskraft raubt? Faszinierend ist nämlich, dass diese Variable in einer univariaten Regression ein enorm hohes R² hat, also die abhängige Variable schon sehr gut erklären kann.. Fast genauso gut wie mit den anderen Variablen zusammen..

Die Dummy Fragen kann ich leider nicht so recht beantworten.. ich habe einen hoch korrelirenden Fall (-0,73) von dummy und metrisch. Wo es auch tatsächlich Sinn macht. Ansonsten sind sie alle nicht besonders hoch.. Aber ich folgere aus deinen Fragen, dass es grundsätzlich in Ordnung ist Dummy Variablen in die Korrelationsmatrix aufzunehmen :o) ?
Könntest du mir vielleicht noch sagen, ob ich dann nur die Ausprägungen in die Matrix nehme, die dann auch in die Regression kommen (also ohne die Referenzkategorie bei Dummys die für mehrere nominale Ausprägungen stehen). Du merkst wahrscheinlich, bei den Dummys seh ich nicht ganz klar :(
kim123
Beobachter
Beobachter
 
Beiträge: 18
Registriert: Mo 27. Okt 2014, 10:37
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität (Korrealtion / VIF)

Beitragvon DHA3000 » Mi 29. Okt 2014, 16:21

In der Tat wird in den Lehrbüchern nicht viel mehr dazu gesagt, denn du hast immer Multik. in deinem Modell vorliegen. Denn irgendwo ist immer eine Struktur in den Daten,
die dafür sorgt, dass deine Korrealtionsmatrix nie 0 wird.
Die Frage ist allerdings, ab wann diese Problematisch wird. Und dafür gibt es leider keine stichhaltige Erklärung. Außer man benutzt nicht OLS als Schätzung.
Du kannst bei den beiden Variablen abwechselnd Testen und dann schauen, welches Modell insgesamt besser ist. Also über das R² oder andere Informationskriterien. Oder aber
du führst einen Likelihood-Ratio Test auf die beiden Modelle durch, dann kannst du auch sagen, ob eines der beiden signifikant besser ist.

Das gilt auch für die andere, sorgenvolle Variable.
Wenn du hingegen glaubst, dass du ein Endogenitätsproblem hast, dann musst du diese instrumentieren (IV-Schätzung). Da würde ich dich allerdings erst bitten, dich in die Materie
einzulesen. ;)

Ansonten: Nimm die Dummys in das Modell auf und gut ist. ;)
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste