Regressionsgleichung und die Modellannahmen

Alle Verfahren der Regressionanalyse.

Regressionsgleichung und die Modellannahmen

Beitragvon lecoewf » So 3. Feb 2013, 11:53

Hallo,

ich schreibe aktuell an meiner Masterarbeit und muss hierfür eine Regressionsanalyse durchführen. Das Thema der Masterarbeit ist nachzuweisen, dass es einen Zusammenhang zwischen der Zinsdifferenz eines Landes (im Vergleich zur Benchmark Deutschland) und dem Rating eines jeweiligen Landes gibt. Die Idee dazu entstammt einem wissenschaftlichen Paper.

Mein Datensatz besteht aus 10 Ländern, bei denen jeden Monat das Rating und die entsprechende Zinsdifferenz erfasst wird.

Mein Vorgehen war wie folgt:

1. Scatterplot erstellen:

X-Achse= numerische transformierte Rating (Zahl 20= Rating "AAA" =sehr sehr gutes Rating; Zahl = Rating "D" = sehr sehr schlechtes Rating)
y-Achse= Zinsdifferenz
--> Lineare Regression (wie im ursprünglichen Paper)

2. Berechnung der Regression:

Regressionsgleichung: Zinsdifferenz= Konstanter Term + Regressionskoeffizient * Rating + Störterm

Die abhängige Variable Zinsdifferenz ist eine metrisch.
Die unabhängige Variable Rating ist in ihrer ursprünglichen Form ( Rating von "AAA" bis "D") bzw. in ihrer numerisch transformierten Form (Zahl "20" bis Zahl "0") eine ordinale Variable.

Berechnung mittels SPSS: Analysieren--> Regression--> Linear--> abhängige Variable Zinsdifferenz und unabhängige Variable Rating--> Berchnen
3. Überprüfung der Ergebnisse und der Modellprämissen:

Ich überprüfe die Modellprämissen:
1. Linearität der Parameter?--> Nach Betrachtung des Scatterplots in Schritt 1--> passt!!

2. Erwartungswert der Residuen =0? --> passt!!

3. Berücksichtigung aller relevanten Variablen? -->Würde ich sagen passt(!!!) auch als Annahme

4. Homoskedastizität der Residuen (siehe Anhang "Homoskedastizität")? Wenn ich mir die Grafik angucke erkenne ich keine klare Homoskedastizität, jedoch verwirrt mich der senkrechte parallele Verlauf der standardisierten geschätzten Werte? Muss ich mir darum Gedanken machen? Liegt die Ursache in der ordinalen unabhängigen Variablen?

5. Autokorrelation der Residuen/Störgrößen. Hierfür führe ich den Durbin-Watson-Test durch. Die Werte meiner verschiedenen Regressionen liegen alle zwischen 0,1 bis 0,4. Dies bedeutet positive Autokorrelation.

6. Störgrößen sind normalverteilt. --> passt nicht zu 100%, jedoch geht es in diese Richtung (siehe Anhang " Normalverteilung")

Soweit der Ablauf meiner Regression, hieran schließen sich meine Fragen an und ich danke erstmal Allen, die bis hierhin gelesen haben und erst recht danke ich Allen, die möglicherweise eine Antwort haben :D

1. Frage: Ist meine Vorgehen soweit korrekt?

2. Frage: Ist es möglich eine lineare Regression durchzuführen, wobei die unabhängige Variable ordinal ist und die abhängige Variable metrisch ist?

3. Frage: Ist es korrekt, dass es sich bei meiner Analyse um keine Zeitreihenanalyse handelt, obwohl ich die Zinsdifferenz und das Rating jeden Monat erfasse? Liegt der Grund dafür dass es keine Zeitreihenanalyse darin, dass in meiner Regressionsanalyse der Faktor des zeitlichen Verlaufs der abhängigen und unabhängigen Variable keine Rolle spielt und ich stattdessen über die Grundgesamtheit regressiere?

4. Frage: Liegt wirklich keine merkliche Homoskedastizität vor (siehe Anhang)? Welche Ursache hat der senkrechte parallele Verlauf der Residuen? Liegt dass an der ordinalen unabhängigen Variablen (siehe Ausführung oben)? Muss ich mir darum Gedanken machen? Welche Lösungsmöglichkeiten gibt es?

5. Frage: Bei der Berechnung der Autokorrelation erhalte das Ergebnis positive Autokorrelation (siehe oben). Welche Ursache kann das haben? Ist das Problem der Autokorrelation für mich ein überhaupt relevantes, da ich gelesen habe, dass Autokorrelation hauptsächlich bei mein Zeitreihenanalysen auftritt und ich ja keine durchführe (siehe Frage 3). Falls es doch für mich relevant ist, welche Lösungsmöglichkeiten gibt es in meinem Fall?

Vielen Dank an Alle, die eine Antwort auf eine meiner Fragen habe und mir möglicherweise mit einem Tipp/Link weiterhelfen können...
Dateianhänge
Normalverteilung und Homoskedastizität.pdf
(124.25 KiB) 128-mal heruntergeladen
lecoewf
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Fr 25. Jan 2013, 19:02
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regressionsgleichung und die Modellannahmen

Beitragvon daniel » So 3. Feb 2013, 13:34

Deine Fragen im Detail zu klären und Dein Vorgehen zu besprechen ist m.E. Aufgabe Deiner Betreuerin/Betreuers, und kann im Rahmen dieses Forums gar nicht geleistet werden. Denooch zumindest einige Anregungen. Mit einer einzigen Ausnahme, betreffend Deiner Annahme 3, beschränke ich mich auf die expliziten Fragen.

Mir ist klar, dass Du hättest, dass Annahme 3 gültig ist. Aber ist die Zinsdifferenz tatsächlich einizg und alleine vom Rating der Länder abhängt, und ist dieses Rating exogen? Ich bin kein Wirtschaftswissenschaftler und habe da wirklich keine Ahnung, aber das scheint mir etwas merkwürdig.

1. Frage: Ist meine Vorgehen soweit korrekt?


Die Frage ist als solche zu global gestellt, um sie zu beantworten. Informativ dürften diesbezüglich meine Anmerkungen zu den weiteren Fragen sein.

2. Frage: Ist es möglich eine lineare Regression durchzuführen, wobei die unabhängige Variable ordinal ist und die abhängige Variable metrisch ist?


Ja ist es. Bei der Regression ist lediglich der Unterschied zwischen quantitativen (ratio- und intervallskalierten) und qualitativen (ordinal- und nominalskalierten) Variablen relevant. Letztere werden bei k Ausprägungen als k-1 Indikatorvariable in die Regressionsgleichung aufgenommen. Wenn Du das Rating als "Rohwerte" in der Regression aufnimmst, für das nur ein Steigungsparameter geschätzt wird, dann unterstellst Du gleiche Abstände und damit ein Intervallskalennniveau dieser Variablen. Das muss nicht per se falsch sein, aber ich würde diese Annahme mal checken, indem ich die einzelenen Dummies bilde.

3. Frage: Ist es korrekt, dass es sich bei meiner Analyse um keine Zeitreihenanalyse handelt, obwohl ich die Zinsdifferenz und das Rating jeden Monat erfasse?


Ja.
Liegt der Grund dafür dass es keine Zeitreihenanalyse darin, dass in meiner Regressionsanalyse der Faktor des zeitlichen Verlaufs der abhängigen und unabhängigen Variable keine Rolle spielt und ich stattdessen über die Grundgesamtheit regressiere?


Jein. Obwohl es trivial ist, muss ich hier ein wenig ausholen. Die einfache, wenig hilfreiche Antwort ist, dass Zeitreihenanalysen typischerweise N = 1 haben. Da Du mehr als ein Land untersuchst, kannst Du laut dieser Definition keine Zeitreiehnanalyse durchführen. Das ist aber nicht das, was Dich interessiert.

Dich interessiert, ob Du die zeitliche Dimension der Daten nutzen sollst. Dazu kann ich sagen, dass die Daten niemals bestimmen, welche Analyse Du durchführst. Das tust Du, und Du allein. Du verwendest hier eine einfache lineare Regerssion, deshalb ist es keine Zeitreihenanalyse. Ob Deine Entscheidung sinnvoll ist, ist fraglich.

4. Frage: Liegt wirklich keine merkliche Homoskedastizität vor (siehe Anhang)? Welche Ursache hat der senkrechte parallele Verlauf der Residuen? Liegt dass an der ordinalen unabhängigen Variablen (siehe Ausführung oben)? Muss ich mir darum Gedanken machen? Welche Lösungsmöglichkeiten gibt es?

Ich habe mir das Bildchen nicht angesehen, aber eine ordinale Variable mit wenigen Ausprägungen, die als quasi-metrisch (i.e. mit einem Steigungsparametr) in die lineare Regression gesteckt wird, wird bei den Residuen das von Dir beschriebenen Bild (senkrechte Linien) zeigen. Wenn keine Varianzhomogenität vorliegt (und dass kann man statistisch testen, da muss man sich nicht auf Bildchen alleien verlassen, so hilfreich diese auch sein können), kannst Du entweder die Heteroskedastie modellieren, oder robuste Standardfehler schätzen. Um erstes zu tun bedarf es einer guten Idee der From der Heteroskedastie, letzteres ist meist einfach, in SPSS aber m.W. nur mit Benutzre geschriebenen Zusastzmacros möglich. Zu diesem Punkt vgl, auch meine Antwort zu nächsten Frage.

5. Frage: Bei der Berechnung der Autokorrelation erhalte das Ergebnis positive Autokorrelation (siehe oben). Welche Ursache kann das haben? Ist das Problem der Autokorrelation für mich ein überhaupt relevantes, da ich gelesen habe, dass Autokorrelation hauptsächlich bei mein Zeitreihenanalysen auftritt und ich ja keine durchführe (siehe Frage 3). Falls es doch für mich relevant ist, welche Lösungsmöglichkeiten gibt es in meinem


Dazu möchte ich auf meine Antwort zu Frage 3 hinweisen. Wenn Deine Daten eine eindeutig zeitliche Struktur haben (i.e. die Zinsdiferenzen eines Landes sind höchstwahrscheinlich mit den Zinsdifferenzen dieses Landes zu einem vorherigen Zeitpunkt korreliert), dann ist es vermutlich unklug, diese Struktur nicht zu modellieren, und ein einfaches lineares Regressionsmodell darüber zu legen. Autokorrelation ist für Dich höchst relevant, da es bei Deinen Daten offensichtlich (das bestätigt ja auch der Test) diese zeitliche Abhängigkeit gibt. Vereinfacht gesagt: ein schlecht zu den Daten passendes Modell (einfache OLS Schätzung) lässt das Problem, das in der Literatur zu Recht nur für die eigentlich passenderen Modelle (Zeitreihen, Panel) besprochen wird, nicht auf magische Art verschwinden.

Deine Möglichkeiten bestehen nun in der Berechnug sogn. cluster robuster Standardfehler, oder in der Anpassung eines geeigneten Panelmodells (fixed- bzw. random effects), vermutlich in Kombination mit robusten Standrdfehlern. Obgleich die Software Deiner Wahl, was komplexere Analysen angeht, schnell an ihre Grenzen zu stoßen scheint, sollten basale Panelmodelle implementiert sein.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste