Multikollinearität

Alle Verfahren der Regressionanalyse.

Multikollinearität

Beitragvon sonnenblume123 » Do 19. Apr 2012, 14:55

Hallo!
Ich führe eine lineare Regression durch. Beim Prüfen der Kollinearität meiner UVs habe ich feststellen müssen, dass zwei meiner UVs einen sehr hohen Wert (VIF: 12,6 und 13,6) aufweisen. Dabei handelt es sich um polynome Dummies zum Schulabschluss: Sprich ich habe die Dummies "ohne Abschluss", "Hauptschulabschluss", "Realschulabschluss", "(Fach-)abitur" und "Uniabschluss" gebildet und bis auf die Variable "ohne Abschluss", die die Referenzkategorie bildet, als UVs in das Regressionsmodell aufgenommen.
Was kann ich gegen diese Multikollinearität tun? Betroffen sind die Dummies "Hauptschulabschluss" und "Realschulabschluss". In der vorgenommen Regression weisen allerdings alle Koeffizienten zur Bildung keine signifikanten Werte auf. Die Nicht-Signifikanz kann dahingegehend deuteten werden, dass die Unterschiede zwischen den jeweiligen Gruppen zu gering sind, oder sehe ich das falsch? Wie aber ist die Multikollinearität zu verstehen? Denn eigentlich, kann man den Kategorien doch eindeutig zu geordnet werden, so dass eigentlich keine lineare Abhänigkeit vorliegen dürfte?
Bin für eure Hilfen dankbar :)
Lisa
sonnenblume123
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Do 19. Apr 2012, 14:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität

Beitragvon Holgonaut » Fr 20. Apr 2012, 09:40

Hi,

ich denke, du hast einen Fehler bei den dummies gemacht: Wenn du die Kategorien "ohne Abschluss", "Hauptschulabschluss", "Realschulabschluss", "(Fach-)abitur" und "Uniabschluss" hast, brauchst du k-1, das heißt 4 dummies nach dem Schema: D1 (Hauptschulabschluss) = wenn Hauptschulabschluss, dann D1 = 1, ansonsten D1=0. Und das für alle Kategorien außer "ohne Abschluss". Die kommen alle in das Modell.


Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

Multikollinearität

Beitragvon buci » Mi 25. Apr 2012, 22:26

Kurze Frage bzgl. der Multikollinearität. Ich habe ein nichtlineare Regressionsgerade geschätzt, wobei einerseits das Pro-Kopf-Einkommen als abhängige Variable vorkommt und andererseits der quadrierte Wert davon, sprich

z=a_0+b_1*y+b_2*r+b_3*w+b_4*y^2+u

Nun habe ich den Varianzinflationsfaktor berechnet, doch der zeigt mir dann für y und y^2 Werte > 10 an. Nun wollte ich fragen,wie ich ab besten weiter vorgehe?
Kann ich die Schätzer nun interpretieren oder sollte ich einen anderen Test bzgl. der Multikollinearität machen?

Vielen Dank und Gruss
buci
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 25. Apr 2012, 22:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität

Beitragvon Druss » Mi 25. Apr 2012, 23:19

Hallo,

buci hat geschrieben:Ich habe ein nichtlineare Regressionsgerade geschätzt.....
z=a_0+b_1*y+b_2*r+b_3*w+b_4*y^2+u


wenn als Regressor ein "^2 vorkommt bedeutet das nicht, dass deine Regressionsgleichung nicht-linear ist.

buci hat geschrieben:...doch der zeigt mir dann für y und y^2 Werte > 10 an. Nun wollte ich fragen,wie ich ab besten weiter vorgehe?
Kann ich die Schätzer nun interpretieren oder sollte ich einen anderen Test bzgl. der Multikollinearität machen?


Einen Test zu suchen der dir das anzeigt was du angezeigt haben willst ist keine gute Methode.

Was ist den z? Macht es überhaupt Sinn einen quadratischen Effekt mit in das Modell aufzunehmen? Hast du dir zuvor die Plots angeschaut sowie liegt diesem Modellierungsansatz eine bestimmter Gedanke zugrunde? Hast du mal die Modelle:

z=a_0+b_2*r+b_3*w+b_4*y^2+u
z=a_0+b_1*y+b_2*r+b_3*w+u

geschätzt und beobachtet wie sich deine Ergebnisse verändern? Mit einem VIF von >10 kann das Modell, welches du berechnet hast nicht leben.

Gruss
Druss
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

Re: Multikollinearität

Beitragvon buci » Do 26. Apr 2012, 00:25

Hey. Danke für die Inputs. Nun ja ich hab da leider nicht so viel Wahl. Es geht darum, dass ich die Beziehung zwischen ökonomischer Entwicklung und Einkommensverteilung untersuchen muss. r und w sind Bildungsvariablen. Das Modell ist vorgegeben, sprich ich untersuche die Kuznets Hypothese, falls dir das etwas sagt. Dazu muss ich untersuche, ob die Beziehung zwischen y und z sich als Parabel darstellen lässt. Deshalb der quadratische Term.

Gruss
buci
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 25. Apr 2012, 22:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Multikollinearität

Beitragvon Druss » Do 26. Apr 2012, 03:52

wieso entfernst dann nicht den linearen teil? sind alle variablen signifikant?
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

Re: Multikollinearität

Beitragvon daniel » Do 26. Apr 2012, 10:50

Mit einem VIF von >10 kann das Modell, welches du berechnet hast nicht leben.

Falls hier ein Fragezeichen vergessen wurde würde ich die Frage ebenfalls stellen. Falls nicht, würde ich das nicht pauschal unterschreiben. Zieh Dir einfach mal ein paar Zufallsamples aus Deinen Daten und schau mal wie sehr die Koeffizienten "schwanken". Auch bei Multikollinearität sind die Koeffizienten konstistent!

wieso entfernst dann nicht den linearen teil?

Auch davon rate ich ab. Wenn das Modell in der Theorie steht, dann sollte man da m.E. nicht "empiristisch" nach Faustregeln und abiträren Signifikanzniveaus Variablen rauswerfen. Zudem ist der Koeffizient einer quadrierten Variable inhaltlich nicht wirklich sinnvoll zu interpretieren, wenn der lineare Teil im Modell fehlt. Was würde denn z.B. ein negatives Vorzeichen bedeuten, wenn Du nicht weißt, ob der lineare Teil positiv oder negativ ist?

Wenn Du den VIF beschönigen willst, dann zentier die Variable und quadriere sie im Anschluss. Der VIF sollte dann deutlich tiefer lieger. Ob das grundlegende "Problem" durch dieses Vorgehen gemildert bzw. gar behoben werden kann ist mir nicht ganz klar.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Multikollinearität

Beitragvon Druss » Do 26. Apr 2012, 11:15

daniel hat geschrieben:Falls hier ein Fragezeichen vergessen wurde würde ich die Frage ebenfalls stellen. Falls nicht, würde ich das nicht pauschal unterschreiben. Zieh Dir einfach mal ein paar Zufallsamples aus Deinen Daten und schau mal wie sehr die Koeffizienten "schwanken". Auch bei Multikollinearität sind die Koeffizienten konstistent!


Naja aber bei einem VIF>10 und dem daraus resultierenden Rj>0.9 lässt die Varianzen der Koeffizientenschätzer explodieren. Das sich asymptotisch nichts tut bzw. das Problem durch eine Erhöhung der Stichprobenumfangs behoben werden kann glaube ich. Denke aber, dass es in diesem Beispiel und generell nicht sehr praktikabel ist.

Die Theorie selbst kenne ich nicht und wollte selbst nur auf die geforderte Parabel hinaus :D.

Grüße
Druss
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

Re: Multikollinearität

Beitragvon daniel » Do 26. Apr 2012, 11:31

...lässt die Varianzen der Koeffizientenschätzer explodieren


Daher mein Rat mal zu schauen, wie sehr denn die Schätzer im konkreten Fall variieren. Dazu kann man z.B. das Modell mal in verschiedenen subsamples anschauen. Wenn die Standardfehler der Koeffizienten aber nicht durch die Decke schießen, würde ich mir da nicht unbedingt allzu große Gedanken machen.

Der VIF Wert von 10 hat ja keine theoretische Begründung. Das eine "rule of thumbs" und denen würde ich niemals blind folgen. Zudem kann der VIF, wie beschrieben, beliebig durch Zentrieren der Variablen gesenkt werden. Was sagt uns das über den VIF, gegeben der Tatsache, dass Multikollinearität auf ein Informationsdefizit in den Daten zurückzuführen ist, und Zentrieren ganz sicher keine Infortmationen hinzufügt?
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Multikollinearität

Beitragvon Druss » Do 26. Apr 2012, 14:00

Hey,

in diesem Falle d.h. bedingt durch die strukturelle multikolinearität ist das natürlich ein Ansatz sich dem Problem zu entledigen.

Gruß
Druss
Druss
Power-User
Power-User
 
Beiträge: 92
Registriert: Mo 29. Aug 2011, 14:20
Danke gegeben: 0
Danke bekommen: 10 mal in 10 Posts

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste