STATISTIK-FORUM.de

rocmalibu · von **rocmalibu** » Di 8. Jan 2013, 11:30

Hallo,

ich habe eine Frage zu dem Unterschied von Paneldatenmodellen und einer multiplen Regression. Besteht dabei überhaupt ein Unterschied? Leider wird mir das aus der mir vorliegenden Literatur nicht ganz deutlich.

Ich habe Beobachtungen von 350 Firmen für die Jahre 2005-2007 vorliegen. Dabei möchte ich den Einfluss mehrerer erklärender Variablen auf eine unabhängige Variable beschreiben. Natürlich kam mir da zuerst eine einfache multiple Regression in den Sinn. Allerdings viel mir dann auf, dass ich gerade bei der Beobachtung von Firmendaten, auch die zeitlichen Effekte und die Varianzen innerhalb der Beobachtungen einer Firma kontrollieren muss. Somit wäre wohl ein Random-Effect-Modell angebracht. Ich bin leider ggw. etwas verwirrt. Worin besteht der eigentliche Unterschied einer multiplen Regression und einem Random Effects Modell?

Leider wird mir das aus der sehr mathematischen Literatur nicht wirklich klar.

Vielen Dank für eure Hilfe. Ich wünsche einen schönen Tag.

daniel · von **daniel** » Di 8. Jan 2013, 13:31

Vereinfacht gesagt (und mehr ist im Rahmen eines Forums nicht möglich) hast Du durch die wiederholte Beobachtung der gleichen Einheiten zwei Arten von Varianzen in den Daten. Die within Varianz sind Unterschiede innerhalb einer Firma über den Beobachtungszeitrau. Die between Varianz ist die Varianz zwischen Frimen (über den beobachtungszeitraum).

Schätzt Du nun ein lineares Modell mittels OLS (sogn. pooled OLS) werden beide Varianzen als gleichgewichtige Information zur Schätzung der Koeffizienten verwendet. Das Problem dabei ist, dass jede einzelen Beobachtung als "neue" Information gewertet wird, als sei sie unabhägig von anedern Beobachtungen. Dies ist im Falle zweier (oder mehr) Beobachtungen der gleichen Firma eher unrealisitsch.

Ein RE Modell (ob als GLS oder mittels ML geschätzt) gewichtet die Varianzen unterschiedlich, und in dem Sinne optimal, dass die Schätzer bei erfüllten Modellannahmen effizienter sind als im pooled OLS.

Ein FE (fixed-effects) Modell verwendet nur die within Varianz. Diese Schätzug ist deshalb nicht effizient. Der große Vorteil des FE Modells ist aber, dass dieses Modell unverzerrte Schätzer liefert, auch dann, wenn Du firmenspezifische Variablen, die zeitkonstant sind, nicht im Modell berücksichtigst. Das FE Modell bietet also (als einziges Modell) die Möglichkeit unbeobachtete Heterogenität teilweise zu kontrollieren.

Wenn es Dir um die Schätzung von Kausaleffekten geht, ist das FE Modell nahezu sicher dem RE Modell vorzuziehen.*

* Dies lässt sich (bedingt) mittels Hausman Test testen

rocmalibu · von **rocmalibu** » Do 10. Jan 2013, 10:58

Hallo Daniel,

vielen Dank für deine ausführliche Antwort.

Ich habe allerdings auch gelesen, dass bei diesem kurzen Beobachtungszeitraum Paneldatenmodelle nicht immer notwendig bzw. anwendbar sind.

In Marketing-Journals zum Beispiel wird bei Zeiträumen von 3-4 Jahren häufig eine "normale" multiple Regression gefahren. Natürlich tritt dann das von dir beschriebene Problem mit dem OLS-Schätzer auf. Ich werde aber auch einige Kontrollvariablen in der multiplen Regression berücksichtigen. Da ich neben der Regression noch Hypothesentests durchführe, möchte ich nicht unbedingt komplexe Paneldatenmodelle anwenden. Wichtig ist nur, dass ich zeitliche Effekte in der multiplen Regression berücksichtige. Das ist doch auch mit einer mulitplen Regression mit ols schätzer möglich, oder?

Mein Ansprechpartner am Statistiklehrstuhl meinte allerdings, dass es Probleme im Hinblick auf die statistische Unabhängigkeit der Jahresbeobachtungen geben könnte - natürlich hätte ich dieses Problem mit Paneldatenmodellen nicht. Meine Marketingbetreuerin meinte, als ich dieses mögliche Problem ansprach, "Das ist kein großes Problem. Du musst die Standardfehler nach Unternehmen clustern. Der Stata Befehl lautet: reg y x, robust cluster(firm). Und füge in die Regression Jahresdummies rein."
Ist das ein sinniges Vorgehen?

Vielen Dank nochmals für deinen Support.

Chris

daniel · von **daniel** » Do 10. Jan 2013, 16:31

Ich habe allerdings auch gelesen, dass bei diesem kurzen Beobachtungszeitraum Paneldatenmodelle nicht immer notwendig bzw. anwendbar sind.

Wo? Mit welcher Begründung?

In Marketing-Journals zum Beispiel wird bei Zeiträumen von 3-4 Jahren häufig eine "normale" multiple Regression gefahren.

Diese Entscheidung kann ich absolut nicht nachvollziehen. Das ist pure Verschwendung bereits vorliegender Information und birgt zusätzlich Gefahren (vgl. eigenen Kommentar). Daran würde ich mir kein Beispiel nehmen.

Natürlich tritt dann das von dir beschriebene Problem mit dem OLS-Schätzer auf. Ich werde aber auch einige Kontrollvariablen in der multiplen Regression berücksichtigen. Da ich neben der Regression noch Hypothesentests durchführe, möchte ich nicht unbedingt komplexe Paneldatenmodelle anwenden. Wichtig ist nur, dass ich zeitliche Effekte in der multiplen Regression berücksichtige. Das ist doch auch mit einer mulitplen Regression mit ols schätzer möglich, oder?

Zunächst sind Panelmodelle von der technischen Durchführung dank moderener Statistiksoftware selten aufwändiger, oder schwieriger zu schätzen. Selbst wenn das der Fall wäre, wäre es m.E. kein wissenschaftlich gültiges Argument auf diese Modelle zu verzichten. Es bringt Dir nichts Deine Hypothesen mit ungeeigneteen (weil der Komplexität der Daten nicht angemessenen) Modellen zu testen.

Ich weiß nicht genau, was Du mit "zeitliche Effekte" meinst. Wenn Du lediglichfür einen allgemeinen Trend kontrollieren willst, genügt es, Indikatiorvariablen (dummies) für die Beobachtungsjahre in der Regression zu berücksichtigen, wie Deine Betreuerin vorschlägt (gilt sowohl für pooled OLS, als auch für RE oder FE Modelle).

Mein Ansprechpartner am Statistiklehrstuhl meinte allerdings, dass es Probleme im Hinblick auf die statistische Unabhängigkeit der Jahresbeobachtungen geben könnte - natürlich hätte ich dieses Problem mit Paneldatenmodellen nicht.

Dein Ansprechpartener hat recht. Das meinet ich mit

Das Problem dabei ist, dass jede einzelen Beobachtung als "neue" Information gewertet wird, als sei sie unabhägig von anedern Beobachtungen. Dies ist im Falle zweier (oder mehr) Beobachtungen der gleichen Firma eher unrealisitsch.

Meine Marketingbetreuerin meinte, als ich dieses mögliche Problem ansprach, "Das ist kein großes Problem. Du musst die Standardfehler nach Unternehmen clustern. Der Stata Befehl lautet: reg y x, robust cluster(firm). Und füge in die Regression Jahresdummies rein." Ist das ein sinniges Vorgehen?

Jein. Cluster robuste Standardfehler "lösen" das Problem, sind allerdings ineffizient. Ich mag die Syntax

Code: Alles auswählen: reg x y ,vce(cluster firm)

lieber -- es sollte aber das gleiche Ergebnis bringen. Wenn Du Dir aber keine Soregn um verzerrte Punktschätzer machst (weil Du "einige" Kontrollvariablen berücksichtigst), dann spricht m.E. auch nichts gegen das effiziente RE Modell. Die Syntaxunterschiede (i.e. Umsetzung) sind minimal. Das RE Modell wäre

Code: Alles auswählen: xtset <id> <year> xtreg x y

Das FE Modell bekommst du mit

Code: Alles auswählen: xtset <id> <year> xtreg x y ,fe

rocmalibu · von **rocmalibu** » Sa 12. Jan 2013, 13:44

Hallo Daniel,

Entschuldigung dass auch dich noch etwas fragen muss. Leider kommt man als bwl Student nicht in den Genuss einer ökonometrie Vorlesung...einen Termin am statistiklehrstuhl habe ich bereits, allerdings erst in den2,5 Wochen.

Ich sehe es genauso dass wohl ein panelmodell mehr Sinn macht wenn ich Beobachtungen von mehreren Jahren habe, anstatt dummies für die Zeit in die multiple Regression einzufügen.

In erster Linie kontrollierte ich doch mit dem Re Modell die statistische Abhängigkeit zwischen den Firmen und zwischen den jahresbeobachtungen einer Firma - within und between. In meiner Untersuchung interessieren mich 6 unabhängige Variablen. Diese sind aber auch mit zahlreichen anderen Variablen korreliert , welche ich in einer multiplen Regression durch zahlreiche kontrollvariablen berücksichtigen würde. Ist dies mit einem Re überhaupt noch notwendig - Nein, oder?

Wenn ich es richtig verstehe kann ich aber auch zeitdummies einfügen - die Varianz des durch das Modell geschätzten wertes
wäre dann aber wesentlich höher und der schätzer qualitativ schlechter als der eines panelmodells. Meiner Betreuern sind die Berücksichtigung von zeiteffekten sehr wichtig.

Als letzte Sache interessiert mich, ob ich als abhängige variable auch die Korrelation zwischen zwei messreihen Wählen kann. Mich interessiert welche Faktoren die Höhe der Korrelation beeinflussen.es hat folgenden Grund - siehe link
test-f8/test-fur-korrelationkoeffizient-t2351.html

Ich hoffe du kannst mir noch einmal helfen. Wenn ich wüsste wie, würde ich mich gerne erkenntlich zeigen.

Sry für die nicht immer korrekte Ausdrucksweise. Wie gesagt, ich muss mich gerade selber in die Thematik einarbeiten.

Ich wünsche dir ein erholsames und schönes Wochenende.

VG, Christoph

daniel · von **daniel** » Sa 12. Jan 2013, 14:54

In meiner Untersuchung interessieren mich 6 unabhängige Variablen. Diese sind aber auch mit zahlreichen anderen Variablen korreliert , welche ich in einer multiplen Regression durch zahlreiche kontrollvariablen berücksichtigen würde. Ist dies mit einem Re überhaupt noch notwendig - Nein, oder?

Doch. Lass mich das formal anreißen. Deine "normales" Regressionsmodell hat die Form

$y = X\beta + \epsilon$

Um die Koeffizienten unverzerrt aus den Daten Schätzen zu können, muss $E[\epsilon|X] = 0$ , also die Exogenität der Prädikatoren gelten. Diese Annahme ist verletzt, wenn der Fehler $\epsilon$ mit $X$ korreliert ist. Und das ist der Fall, wenn Du für Variablen, die sowohl mit dem outcome, als auch mit Deinen Variablen im Modell korreliert sind nicht berücksichtigst. Variablen, die nur mit den $X$ oder $y$ korreliert sind, müssen (im linearen Modell) nicht kontrolliert werden.

Da im Panel eine Untersuchungseinheit über mehre Zeitpunkte beobachtet wird, lässt sich der Fehler $\epsilon$ in zwei Komponenten spalten. Einen einheitsspezifischen Fehler, der zeitkonstant ist, und einen Fehler, der sowohl über Einheiten, als auch über die Zeit variiert. Lass uns das Modell formal als

$y_{it} = X_{it}\beta + \alpha_i + \nu_{it}$

schreiben, wobei

$\alpha_i + \nu_{it} = \epsilon_{it}$

Das RE Modell behandelt die beiden Komponenten des Fehlers als Zufallsvariablen, über die Annahmen zu treffen sind. Essentiell entsprechen diese Annahmen dem bereits bekannten Fall des gepoolten Modells, v.a. die Exogenitätsannahme. Das bedeuet, dass auch im RE Modell die $X$ unabhängig von beiden Komponenten im Fehler sein müssen. Du musst, um unverzerrte Schätzer zu erhalten, demanchfür die gleichen Variablen kontrollieren, wie Du das im gepoolten Modell (oder im Querschnitt) machst.

Die Idee des FE Modells ist, die $\alpha_i$ explizit zu modellieren. Dazu gibt es verschiedenen Ansätze. Diesen Ansätzen ist gemein, dass sie die $\alpha_i$ konstant halten. Die Konsequenz ist, dass die $X$ nun lediglich von den $\nu_{it}$ unabhängig sein müssen, um unverzerrte Schätzer zu bekommen. Das bedeutet, dass Du einheitenspezifische Unterschiede, die per Definition nicht über die Zeit variieren (bei individuen bsp. Geschlecht, Migrationshintergrund, soziale Herkunft etc.) nicht explizit zu kontrollieren braucht. Du kannst mit diesen Modellen also unbeobachtete Heterogenität (i.e. in den Daten gar nicht erhobene Merkmale) kontrollieren, solange die Faktoren zeitkonstant sind. Zeitveränderliche Variablen, die sowohl mit dem outcome, als auch mit Deinen $X$ korrelieren, musst Du weiterhin explizit im Modell berücksichtigen.

Ich sehe es genauso dass wohl ein panelmodell mehr Sinn macht wenn ich Beobachtungen von mehreren Jahren habe, anstatt dummies für die Zeit in die multiple Regression einzufügen.
[...]Wenn ich es richtig verstehe kann ich aber auch zeitdummies einfügen

Wie gesagt, sind Jahres-Dummies auch im Panelmodell meist eine gute Idee. Panelmodelle kontrollieren nicht in dem Sinne von Trendeffekten für die Zeit. Es wird lediglich die (zeitliche) Abhängigkeit der Beobachtungen untereinander in die Schätzung miteinbezogen.

Als letzte Sache interessiert mich, ob ich als abhängige variable auch die Korrelation zwischen zwei messreihen Wählen kann.

Ich bin nicht sicher, was dagegen sprechen sollte. Korrelationen sind per definition auf den Wertebereich zwischen null und eins beschränkt. Es handelt sich daher nichtum eine Stutzung oder Zensiereung. Ich denke, das ist durchaus machbar, aber andere haben dazu vielleicht mehr beizutragen.

STATISTIK-FORUM.de

Paneldatenmodelle VS Multiple Regression

Paneldatenmodelle VS Multiple Regression

Re: Paneldatenmodelle VS Multiple Regression

Re: Paneldatenmodelle VS Multiple Regression

Re: Paneldatenmodelle VS Multiple Regression

Re: Paneldatenmodelle VS Multiple Regression

Re: Paneldatenmodelle VS Multiple Regression

Wer ist online?