In meiner Untersuchung interessieren mich 6 unabhängige Variablen. Diese sind aber auch mit zahlreichen anderen Variablen korreliert , welche ich in einer multiplen Regression durch zahlreiche kontrollvariablen berücksichtigen würde. Ist dies mit einem Re überhaupt noch notwendig - Nein, oder?
Doch. Lass mich das formal anreißen. Deine "normales" Regressionsmodell hat die Form
Um die Koeffizienten unverzerrt aus den Daten Schätzen zu können, muss
, also die Exogenität der Prädikatoren gelten. Diese Annahme ist verletzt, wenn der Fehler
mit
korreliert ist. Und das ist der Fall, wenn Du für Variablen, die sowohl mit dem outcome, als auch mit Deinen Variablen im Modell korreliert sind nicht berücksichtigst. Variablen, die nur mit den
oder korreliert sind, müssen (im linearen Modell) nicht kontrolliert werden.
Da im Panel eine Untersuchungseinheit über mehre Zeitpunkte beobachtet wird, lässt sich der Fehler
in zwei Komponenten spalten. Einen einheitsspezifischen Fehler, der zeitkonstant ist, und einen Fehler, der sowohl über Einheiten, als auch über die Zeit variiert. Lass uns das Modell formal als
schreiben, wobei
Das RE Modell behandelt die beiden Komponenten des Fehlers als Zufallsvariablen, über die Annahmen zu treffen sind. Essentiell entsprechen diese Annahmen dem bereits bekannten Fall des gepoolten Modells, v.a. die Exogenitätsannahme. Das bedeuet, dass auch im RE Modell die
unabhängig von
beiden Komponenten im Fehler sein müssen. Du musst, um unverzerrte Schätzer zu erhalten, demanchfür die gleichen Variablen kontrollieren, wie Du das im gepoolten Modell (oder im Querschnitt) machst.
Die Idee des FE Modells ist, die
explizit zu modellieren. Dazu gibt es verschiedenen Ansätze. Diesen Ansätzen ist gemein, dass sie die
konstant halten. Die Konsequenz ist, dass die
nun lediglich von den
unabhängig sein müssen, um unverzerrte Schätzer zu bekommen. Das bedeutet, dass Du einheitenspezifische Unterschiede, die per Definition nicht über die Zeit variieren (bei individuen bsp. Geschlecht, Migrationshintergrund, soziale Herkunft etc.) nicht explizit zu kontrollieren braucht. Du kannst mit diesen Modellen also
unbeobachtete Heterogenität (i.e. in den Daten gar nicht erhobene Merkmale) kontrollieren, solange die Faktoren zeitkonstant sind. Zeitveränderliche Variablen, die sowohl mit dem outcome, als auch mit Deinen
korrelieren, musst Du weiterhin explizit im Modell berücksichtigen.
Ich sehe es genauso dass wohl ein panelmodell mehr Sinn macht wenn ich Beobachtungen von mehreren Jahren habe, anstatt dummies für die Zeit in die multiple Regression einzufügen.
[...]Wenn ich es richtig verstehe kann ich aber auch zeitdummies einfügen
Wie gesagt, sind Jahres-Dummies auch im Panelmodell meist eine gute Idee. Panelmodelle kontrollieren nicht in dem Sinne von Trendeffekten für die Zeit. Es wird lediglich die (zeitliche) Abhängigkeit der Beobachtungen untereinander in die Schätzung miteinbezogen.
Als letzte Sache interessiert mich, ob ich als abhängige variable auch die Korrelation zwischen zwei messreihen Wählen kann.
Ich bin nicht sicher, was dagegen sprechen sollte. Korrelationen sind per definition auf den Wertebereich zwischen null und eins beschränkt. Es handelt sich daher nichtum eine Stutzung oder Zensiereung. Ich denke, das ist durchaus machbar, aber andere haben dazu vielleicht mehr beizutragen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.