Hallo an Alle!
ich hänge gerade an der Datenanalyse meines "kleinen" ökonometrischen Projekts für die Uni (im Bachelor).
Kurz zum Thema:
Ich will den Einfluss von Globalisierung (gemessen als Index) und Ungleichheit (GINI-Index) auf Armut mittels OLS herausfinden. Das Modell ist ein (vermeintlich) einfaches cross country Modell mit 74 Staaten, wobei hochentwickelte Länder und OECD-Staaten ausgeschlossen sind. Armut, also meine abhängige Variable, ist hierbei die bekannte Headcount-Ratio der Weltbank, also der %-Anteil der Bevölkerung eines Staates, der unter 3.10$ am Tag lebt. Zusätzlich kommen ein paar Kontollvariablen dazu, wie zum Beispiel (1) Gesundheitsausgaben pro Kopf,
(2) Prozent der Bevölkerung, die eine ausgebaute und konstante Wasserquelle zur Verfügung haben, (3) Secondary Schoolenrollment (gross %) und noch weitere Indikatoren, die die Entwicklung eines Staates kausal bedingen könnten und auf die ich kontrollieren sollte (wobei mir bewusst ist, dass ich auf Multikollinearität achten muss).
Nun habe ich schon herausgefunden, dass wenn y (abhängige Variable) in % gemessen wird, ich offenbar nicht einfach untransformiert die kleinste Quadrate Methode OLS anwenden kann bzw. die Gauss-Markov-Theoreme verletzte (MLR1 Linearität und vermutlich auch MLR4 Normalverteilung der Residuen). Laut Google scheint eine logit-transformation der y-Variable eine gängige Methode zu sein, um dependant variables, die als proportions oder in Prozent gemessen sind, sinnvoll für eine OLS-Regression verwenden zu können.
Die Logit-transformation meiner ursprünglichen Abhängigen (=Poverty3$) habe ich in Stata ausgeführt mit dem Befehl: gen Pov3_logit = logit(Poverty3$ / 100)
Soweit so gut: Tatsächlich sehen nach der logit-transformation meiner Abhängigen (="Poverty3$") die Scatterplots zwischen Poverty3$_logit und manchen Regressoren deutlich "linearer" aus (bei anderen wiederum nicht, das heißt, da müsste ich auf jene, wo die Beziehung jetzt nicht mehr linear ist, auch wieder Transformationen anwenden ). Auch die Signifikanz der meisten Koeffizienten ist gestiegen. Manche sind durch diese Transformation überhaupt er deutlich signifikant geworden. Das war für mich erstmal Grund zu Freude.
Leider verstehe ich nun aber einfach nicht, wie ich die Koeffizienten interpretiere, also wie die klassische ceteris paribus-Beziehung funktioniert. Ich will ja nicht wissen, wie sich die Logit-Werte (die ich um ehrlich zu sein auch nicht verstehe) von Poverty3$ verändern, wenn sich Regressor x1 um 1% erhöht, sondern wie sich die Ausgangsvariable Poverty3$ (in %) verändert.
Ich habe dazu folgenden kurzen Beitrag gefunden, der das Prozedere der logit-Transformation beschreibt:
http://www.bmj.com/content/352/bmj.i1114
Ab dem Abschnitt "Back-transformation" wird beschrieben und dargstellt, wie ich meine Ergebnisse wieder interpretierbar bekomme. Ich verstehe es nur einfach nicht....
Vielleicht kann mir jemand einen schlauen Rat geben bzw. erklären, wie ich meine Ergebnisse sinnvoll interpretieren kann?
Bin ich vielleicht auf der falschen Fährte? Ich habe auch Beträge gelesen, die meinen, man könne auch einfach hinnehmen, dass die Ergebnisse "schlechter", also ungenauer ausfallen, wenn ich halt nicht logit-transformiere und gut ist. Aber das will ich eigentlich nicht, wenn ich doch weiß, dass es eigentlich besser geht.
Gibt es andere Heransgehensweisen an mein Modell? Ich habe auch von fractional- und von logit-Regressionen gelesen, wobei ich dachte, dass letzteres nur bei binär codierten abhängigen Variablen angewandt wird. Trotzdem scheint eine logit-regression und die logit-transformation ja irgendwie stark zusammenzuhängen. Beides hatte ich nur leider nicht im bisherigen Studium und ich merke beim Lesen der Literatur, dass mir dafür irgendwie das theoretische Rüstzeug fehlt, weshalb ich bei logit-transformation bleiben wollte – denn die erlaubt es mir, so wie ich es verstanden habe, im OLS-Verfahren zu bleiben.
Ich habe hier mal beispielhaft den Auswurf von Stata zur Regression der logit-transformierten Poverty-Variable zu Globalisierung (Index von 1 bis 100) und Health Expenditure per Capita angehängt.
Beides signifikant und mit dem nach Theorie zu erwartendem Vorzeichen (ganz grob: Globalisierung eines Landes bedeutet eine Verringerung der Armut. Ebenso mit Gesundheitsausgaben pro Kopf. Deshalb sind die Vorzeichen der Koeffizienten negativ.). Jedoch kann ich die Effekte so nicht quantifzieren, also keine Aussage der Form "Bei einem 1%-Increase der Globaliserung, ist mit einem Sinken der Armut im Ausmaß von x% zu rechnen" machen.
Ich hoffe, ich habe die Hardfacts meiner Arbeit und meines Problems soweit ausreichend zusammengefasst, sodass ihr anhand meiner Angaben die Chance habt, mir sinnvoll zu antworten.
Wenn zur Beurteilung meiner Lage Informationen fehlen, liefere ich sie nach!
Größten Dank schon mal
(den Part, dass ich verzweifelt bin, habe ich mir mal gespart...)