Mehr Variablen im Modell, aber niedrigeres R-Square?

Alle Verfahren der Regressionanalyse.

Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon Anza94 » Mo 27. Mär 2017, 13:20

Guten Tag liebes Forum,

ich schreibe derzeit an meiner Bachelorarbeit und bin dabei, mit meinem Modell Ergebnisse zu generieren und diese im Anschluss zu interpretieren. Ich habe dafür mehrere Perioden im Zeitraum von 1994 - 2014, die ich im Querschnittsverfahren untersuche. Meine Fälle sind alles Länder.

In meinem Modell habe ich n = 23 - 28 (je nach Periode und Variable), eine abhängige Variable (Wirtschaftswachstum), drei unabhängige Variablen (BIP pro Kopf zu Periodenbeginn, durchschnittliche Bildungsausgaben im Anteil am BIP in Prozent und Freiheit / Gleichheit / Kontrolle als politische Variablen, die getrennt voneinander untersucht werden) und zwei Kontrollvariablen (Inflation und Staatskonsum).

Die Kontrollvariablen dienen dazu, im Rahmen einer Extreme Bound Analysis die Robustheit der Ergebnisse zu prüfen und es handelt sich hierbei um Indikatoren, wo empirisch gesichert ist, dass sie einen bestimmten Einfluss auf die AV ausüben.

Nun zur Frage:
Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, und die Variablen haben einen höheren Standartfehler und eine niedrigere Signifikanz.
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Eine Kollinearitätsdiagnose zeigt auf, dass Kollinearität existiert: UV BIP pro Kopf hat einen VIF-Wert von 3,689 (Toleranz: ,271), die UV Bildungsausgaben einen VIF-Wert von 2,569 (Toleranz: ,0389) und die Inflationsrate einen VIF Wert von 2,970 (Toleranz: ,337). Ohne die Kontrollvariablen verschwindet die Kollinearität. Könnte es also daran liegen? Anders kann ich es mir nicht erklären.

Zweite, kleinere Frage:
Ist es ausreichend, die Ergebnisse auf Signifikanz durch r², veränderte Vorzeichen und r²-Werte, standart error und coefficient, periodenspezifische Veränderung und auf die insgesamte Aussagekraft zu überprüfen?
Oder sollten noch Einflussuntersuchungen wie Cook's Distance rein? Im Interpretieren von Regressionsanalysen bin ich noch neu und nicht ganz sicher, was alles in eine ordentliche Analyse reingehört.

Ich wäre jedem dankbar, der mir weiterhelfen könnte! Vielen Dank im Voraus!
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon PonderStibbons » Mo 27. Mär 2017, 14:10

Anscheinend sind es in etwa immer dieselben Länder. Wie hast Du berücksichtigt, dass es sich damit um eine Messwiederholungs-Analyse handelt? Es liest sich im Moment so, als würdest Du dasselbe Land, in mehreren Jahren betrachtet, wie unterschiedliche Fälle behandeln.
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Missing values, damit veränderte Stichprobe.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Anza94

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon Anza94 » Mo 27. Mär 2017, 14:26

PonderStibbons hat geschrieben:Anscheinend sind es in etwa immer dieselben Länder. Wie hast Du berücksichtigt, dass es sich damit um eine Messwiederholungs-Analyse handelt? Es liest sich im Moment so, als würdest Du dasselbe Land, in mehreren Jahren betrachtet, wie unterschiedliche Fälle behandeln.
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?

Missing values, damit veränderte Stichprobe.

Mit freundlichen Grüßen

PonderStibbons


Danke für die Rückmeldung.

Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

Für die Periode 1994 - 2014 taucht also Deutschland nicht 25 Mal pro Variable auf, sondern nur ein Mal. Das Problem, dass länderspezifische Effekte als Störterme interpretiert werden, meine ich hierdurch verhindert zu haben.

Bzgl. der missing values: Bei der ANOVA-Tabelle zeigt er mir einen niedrigeren Gesamtwert der Freiheitsgrade bei der Addierung der beiden Kontrollvariablen an, also von 23 auf 22. Dementsprechend auch weniger nicht-standardisierte Residuen. Daher das Absinken des r-squares?
Zuletzt geändert von Anza94 am Mo 27. Mär 2017, 14:28, insgesamt 1-mal geändert.
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon bele » Mo 27. Mär 2017, 14:27

Anza94 hat geschrieben:Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, [...]
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?


Du darfst nicht das und das korrigierte/adjustierte verwechseln. Letzteres wird ja für zusätzliche Prädiktoren bestraft und kann deshalb auch ohne Missings durch zusätzliche Prädiktoren kleiner werden, wenn diese wenig beitragen

LG,
Bernhard

Code: Alles auswählen
> set.seed(123)
> a <- rnorm(20)
> test <- data.frame(A=a, B=jitter(a,amount = 2), C=rnorm(20))
> summary(lm(A~B, data=test))$adj.r.squared
[1] 0.2244023
> summary(lm(A~B+C, data=test))$adj.r.squared
[1] 0.1909324
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

folgende User möchten sich bei bele bedanken:
Anza94

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon Anza94 » Mo 27. Mär 2017, 14:29

bele hat geschrieben:
Anza94 hat geschrieben:Wenn ich die beiden Kontrollvariablen mit ins Modell aufnehme, sinkt das korrigierte r² von 0,68 auf 0,585, [...]
Soweit so gut, aber ich dachte immer r² muss steigen, wenn mehr Variablen ins Modell aufgenommen werden würden?


Du darfst nicht das und das korrigierte/adjustierte verwechseln. Letzteres wird ja für zusätzliche Prädiktoren bestraft und kann deshalb auch ohne Missings durch zusätzliche Prädiktoren kleiner werden, wenn diese wenig beitragen

LG,
Bernhard

Code: Alles auswählen
> set.seed(123)
> a <- rnorm(20)
> test <- data.frame(A=a, B=jitter(a,amount = 2), C=rnorm(20))
> summary(lm(A~B, data=test))$adj.r.squared
[1] 0.2244023
> summary(lm(A~B+C, data=test))$adj.r.squared
[1] 0.1909324


Danke, habe eben noch schnell recherchiert und die eigentliche Funktion des adj. r-squares verstanden. Nur das Absinken des r-squares kommt mir merkwürdig vor - evtl. wegen weniger Freiheitsgraden bei Hinzufügen der beiden Kontrollvariablen?
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon PonderStibbons » Mo 27. Mär 2017, 14:54

bele hat geschrieben:Du darfst nicht das und das korrigierte/adjustierte verwechseln.

Mist, schon wieder vergessen, dass man bei den meisten OPs besser nochmal jeden Punkt und jeden Begriff nachfragt...
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon PonderStibbons » Mo 27. Mär 2017, 14:57

Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

5 Prädiktoren bei 28 Fällen ist ein bißchen knapp. Da wäre ein Mehrebenenmodell mit den nicht-aggregierten Daten besser, das nutzt alle vorhandenen Informationen.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon Anza94 » Di 28. Mär 2017, 22:18

PonderStibbons hat geschrieben:
Habe vergessen hinzuzufügen: Es ist kein Paneldesign. Alle Werte bezeichnen Durchschnittswerte der immer gleichen Länder für den Gesamtzeitraum.

5 Prädiktoren bei 28 Fällen ist ein bißchen knapp. Da wäre ein Mehrebenenmodell mit den nicht-aggregierten Daten besser, das nutzt alle vorhandenen Informationen.

Ansich hast du Recht. Jedoch handelt es sich bei meinem Sample um die OECD-Länder, so dass die Fälle eh nicht über 35 gehen könnten. Die Prädiktoren beschränken sich zudem auf 3, die Kontrollvariablen kommen in seperaten Analysen zum Einsatz und dienen der Robustheitsanalyse der Ergebnisse.

Ich hatte noch eine wichtige Frage:
Bei der Variable Bildung habe ich ganze 11 (!) Missing Values - es handelt sich aber bei allen Werten nicht durch randomisierte Prozesse erhobene Daten. Kommt hier listenweiser, oder paarweiser Fallausschluss zum Einsatz? Stundenlange Recherche konnten mir die Antwort nicht bringen .. sind die MCAR Bedingungen nicht automatisch anwendbar bei nicht-randomisierten Daten? Denn ich bekomme teilweise sehr unterschiedlice Ergebnisse je nach Listwise/Pairwise ... obwohl die Fallanzahl bei 23 gleich bleibt. :(
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon DHA3000 » Mi 29. Mär 2017, 15:03

Kannst du mal genau erklären was du tust? Du redest von OECD-Sample und Querschnitt, also gehen davon aus, dass du eine Panelanalyse durchführen willst?
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Mehr Variablen im Modell, aber niedrigeres R-Square?

Beitragvon Anza94 » Fr 31. Mär 2017, 14:40

Habe die Sache nun so angegangen, dass ich mich einfach für den voreingestellten listenweisen Fallausschluss entschieden habe.

@DHA3000: Nein, keine Panelanalyse, sondern Durchschnittswerte des Zeitraums, und deshalb wiederholte Querschnittsanalyse.
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron