Panel Daten und Poolen

Alle Verfahren der Regressionanalyse.

Panel Daten und Poolen

Beitragvon Giraffe » Di 10. Sep 2013, 10:50

Hallo,

zunächst einmal hoffe ich meine Frage im richtigen Unterforum zu stellen, da ich mit statistischen Verfahren etwas wenig bewandert bin.

Ich bin neu hier im Forum und habe leider gleich mal eine etwas umfangreichere Frage.

Nun zu meinem Problem:
Ich möchte eine multiple Regression durchführen. Diese soll den Zusammenhang von Aktienkurs und Investition in "humanitäre Projekte" untersuchen. Hierzu verfüge ich über Beobachtungspaare für einen Zeitraum von 10 Jahren zu insgesamt 40 Unternehmen. Hierbei ist jeweils die abhängige Variable der Aktienkurs des Unternehmens. Zu jedem Unternehmen liegen weiterhin 3 Unabhängige Variablen zu jedem Jahr vor welche Indikatoren für deren Engagement in Bezug auf "humanitäre Prjekte" darstellen (3 da unterschiedliche Arten), diese Indikatoren nehmen jeweils ganze positive Zahlenwerte an.

Modell wäre also folgender Art: y = b0 + b1*x1+b2*x2+b3*x3

Nun setzt sich der Datensatz aus insgesamt 400 Beobachtungspaaren zusammen (40 unternehmen * 10 Beobachtungspaare). Da sich die Kurse der unterschiedlichen Unternehmen auf teilweise völlig verschiedenen Niveaus befinden und daher nur im Kontext des jeweiligen Unternehmens zu sehen sind, stellt sich mir die Frage wie ich den Zusammenhang am besten untersuche?
Neben den 40 Einzel-Regressionen zu jedem Unternehmen wollte ich versuchen den Zusammenhang über alle Unternehmen hinweg zu untersuchen, also inwiefern die Investition in diese Projekte mit einer Kurrstseigerun/Kursabfall einhergeht. Hierzu sollte doch die Betrachtung des gesamtzen "Marktes" (in Form der Stichprobe von 40 UNternehmen) eine höhere Aussagekraft haben als die Einzel-Regressionen.
Hier habe ich das Problem, dass ich nicht verstehe wie die abhängigen variablen behandelt werden sollen, da sie ja nur im Kontext des jeweiligen Unternehmens Aussagekraft haben und daher nicht für alle Unternehmen in einen Topf geworfen werden können. Oder sehe ich da etwas falsch?
Gibt es hierzu eine Möglichkeit?

Ich dachte zunächst daran die über den Zeitraum gemittelten Werte jedes Unternehmens zu Aktienkurs und abhängiger Variablen zu verwenden um dann eine Regression des Mittleren Kurses auf die mittleren abhängigen Variablen durchzuführen.
Gibt es hierbei eine elegantere bzw. bessere Herangehensweise?
Ich habe von Regressionsverfahren zu Panel-Daten gelesen...handelt es sich bei meinem Datensatz um Panel Daten?

Ich hoffe meine Problemschilderung war einigermaßen verständlich und der ein oder andere hat eine Idee wie ich mit dem Datensatz umgehen kann.

Vielen Dank schonmal

Grüße
DIe Giraffe
Zuletzt geändert von Giraffe am Mi 11. Sep 2013, 09:46, insgesamt 2-mal geändert.
Giraffe
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Di 10. Sep 2013, 09:51
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Zusammenführen von Beobachtungspaaren untersch. Objekte

Beitragvon DHA3000 » Di 10. Sep 2013, 14:05

Mit einzelnen Regressionen kommst du bei 10 Zeitpunkten nicht weit.

Ja, dein Datensatz ist ein Panel. Alles weitere solltest du auch so angehen.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Zusammenführen von Beobachtungspaaren untersch. Objekte

Beitragvon Giraffe » Di 10. Sep 2013, 16:46

Vielen Dank erstmal, das hat mir schon geholfen das Problem einzugrenzen.
Habe nun eine fixed effects Panel Regression mittels GRETL durchgeführt. Im Ergebnis gibt mir die Auswertung nur für eine der drei Konstanten einen auf Signifikanz hindeutenden p-Wert zurück.
Lasse ich in der Auswertung die Verwendung von Zeitreihendummys zu wird ein andere Konstante plötzlich signifikant?!?!?!
Was bedeuten diese Zeitreihendummys genau? Liegt es daran, dass ich einen nicht ausbalancierten Datensatz habe?
Giraffe
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Di 10. Sep 2013, 09:51
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Panel Daten und Poolen

Beitragvon Giraffe » Mi 11. Sep 2013, 09:49

Ich hab vorab den Datensatz gepoolt um eine erste Betrachtung vorzunehmen. Ein White Test hat die Nullhypothese der Homoskedastizität verworfen. Wie ich gelesen habe soll hier eine Transformation der abhängigen Variable mittels Logarithmus Abhilfe schaffen können. Nachdem ich eine solche Transformation vorgenommen habe hat sich der Wert der CHI^2 Statisitk jedoch erhöht anstatt zu sinken. Ist das nicht genau das Gegenteil der Absicht der "Glättung"?
Jemand eine Idee

Vielen Dank

Gruß
Giraffe
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Di 10. Sep 2013, 09:51
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Panel Daten und Poolen

Beitragvon daniel » Mi 11. Sep 2013, 11:46

Im Ergebnis gibt mir die Auswertung nur für eine der drei Konstanten einen auf Signifikanz hindeutenden p-Wert zurück.


Meinst Du einen der drei Steigungsparameter? Als Konstante wird eigentlich der Schnittpunkt mit der y-Achse bezeichnet, und die gibt es in FE Modellen eigentlich auch nicht.

Lasse ich in der Auswertung die Verwendung von Zeitreihendummys zu wird ein andere Konstante plötzlich signifikant?!?!?!


Es ist immer wieder erstaunlich, dass Leute derart fasziniert zu sein scheinen, wenn unterschiedliche Modelle unterschiedliche Ergebnisse liefern. Wie sieht denn Dein Modell genau aus? Was verstehst Du unter Zeitreiehndummies?

Liegt es daran, dass ich einen nicht ausbalancierten Datensatz habe?


Nicht das es extrem relevant ist, aber aus Deiner ersten Beschreibung hört sich das Panelö balanciert an. Weshalb soll es unbalanciert sein?
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Panel Daten und Poolen

Beitragvon DHA3000 » Mi 11. Sep 2013, 12:09

Ja, verstehe ich auch nicht. Zumal du schreibst, dass du 400 Beobachtungen hast.
Mit Zeitreihendummies meint er vermutlich nen Dummy für jedes Jahr, um für "Time effects" zu kontrollieren. Panel-Analyse ist allerdings etwas
anspruchsvoller und gerade wenn man mit Programmen wie GRETL arbeitet und keine Ahnung hat, neigt man dazu, einfach herumzuklicken.

Es stellt sich erst einmal die Frage, ob "Fixed Effects" oder doch "Random Effects" modelliert werden sollen. Und ob jetzt der White-Test der richtige ist,
insbesondere weil auch Autokorrelation auftauchen kann und das Panel recht klein ist, muss auch verifiziert werden.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Panel Daten und Poolen

Beitragvon Giraffe » Mi 11. Sep 2013, 13:24

Nicht das es extrem relevant ist, aber aus Deiner ersten Beschreibung hört sich das Panelö balanciert an. Weshalb soll es unbalanciert sein?


Sorry leider habe ich wohl vergessen zu erwähnen, dass ich nicht zu allen Unternehmen den vollen zehnjährigen Datensatz habe. Insgesamt sind es 375 Beobachtungen. Mein Fehler

Meinst Du einen der drei Steigungsparameter? Als Konstante wird eigentlich der Schnittpunkt mit der y-Achse bezeichnet, und die gibt es in FE Modellen eigentlich auch nicht.


sorry etwas unsauber formuliert. Ja ich meinte einen Steigungsparameter.



Es ist immer wieder erstaunlich, dass Leute derart fasziniert zu sein scheinen, wenn unterschiedliche Modelle unterschiedliche Ergebnisse liefern. Wie sieht denn Dein Modell genau aus? Was verstehst Du unter Zeitreiehndummies?


In GRETL gibts die Option Zeitreihendummies mit einzubeziehen, und ja leider neige ich dazu etwas rumzuklicken. Es fällt mir nur schwer zu entscheiden welches Modell dann den Zusammenhang besser erklärt. Vor allem weil es die Signifikanz eines anderen Parameters ausweist und der im Modell ohne diese Zeitdummies signifikante Wert nun nicht mehr signifikant ist. Wobei ich auch tatsächlich nicht weiss was diese Zeitreihendummies tatsächlich "bewirken".

Wie sieht denn Dein Modell genau aus?


Im Prinzip verwende ich immernoch das obige Modell: y = b0 + b1*x1+b2*x2+b3*x3
Habe mich auch daran versucht logarithmisch zu transformieren, hat das Problem der Heteroskedastizität im gepoolten Datensatz jedoch auch nicht behoben. Im Gegensatz: die Prüfgröße des White Tests ist noch gestiegen.
Habe auch versucht für den gepoolten Datensatz weitere unabhängige Variablen als dummies einzufügen wie:

d_geringerKurs*unabhängige Variable1 als Überprüfung eines höheren/niedrigeren Einflusses bei geringem Kursmittel (hierzu habe ich die Mittelwerte der Kurse über 10 Jahre der einzelnen Unternehmen gebildet und eine Einteilung bezüglich hohem,mittleren und niedrigerem Kurs vorgenommen)

Mit Referenz eines mittleren Kurses ergibt sich das Modell dann zu:

y = b0 + b1*x1+b2*x2+b3*x3+b4*d_geringerKurs*x1+b5*d_geringerKurs*x2+b6*d_geringerKurs*x3+b7*d_hoherKurs*x1+b8*d_hoherKurs*x2+b9*d_hoherKurs*x3

ähnliches habe ich auch versucht mit dummies für jedes Jahr:
d_2003*x1....etc.

Im Ergebnis habe ich damit die heteroskedastizität im gepoolten Datensatz (dem White Test nach) weg bekommen. Warum verstehe ich nicht wirkklich. Nur befürchte ich mit der Einbeziehung von zu vielen unabhängigen variablen das ganze überzuspezifizieren und somit eine vermeintlich gute Spezifikation zu haben, jedoch nur aufgrund des "überladenen'" Modells.

Im Endeffekt ist es unter ausschliesslicher Einbeziehung der 3 ursprünglichen unabh. variablen (für die ich beabsichtige den Zusammenhang zu überprüfen) so, dass mein Modell Heteroskedasizität bejaht. Nehme ich die oben beschriebenen Dummies hinzu, ist das Problem der Heteroskedastizität entfernt, meine erklärenden Variablen werden jedoch insignifikant(b1,b2 und b3). Dafür haben die Parameter der Dummyvaribalen einen signifikanten Einfluss (zumindest zum Teil).

Es stellt sich erst einmal die Frage, ob "Fixed Effects" oder doch "Random Effects" modelliert werden sollen. Und ob jetzt der White-Test der richtige ist,
insbesondere weil auch Autokorrelation auftauchen kann und das Panel recht klein ist, muss auch verifiziert werden.


In GRETL ist für die gepoolte KQ-Schätzung eine Paneldiagnose integriert. Verwende ich diese. Wird zunächst gemäß fixed-Effect Schätzer die Nullhypothese einer angemessenen KQ Schätzung verworfen zugunsten FE, gleiches beim Breusch-Pagan-Test zugunsten Random effects. Schliesslich besagt die Hausmann-Matrix, dass die Annahme der Konsistenz von Random effects zugusten FE verworfen wird.
Ich habe bisher daraus geschlossen, dass fixed effects der richtige Ansatz ist.

Meine ursprüngliche Planung war: ein einigermaßen statistisch aussagekräftiges gepooltes Modell zu untersuchen und im Anschluss unter Verwendung von fixed effects eine Paneldiagnose durchzuführen.


Vieln Dank für eure Mühe
Hoffe man kann meine Ausführungen einigermaßen nachvollziehen. Bin leider ein statistischer trottel............kann man als empirisch bewiesen ansehen.

Gruß
Giraffe
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Di 10. Sep 2013, 09:51
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Panel Daten und Poolen

Beitragvon daniel » Mi 11. Sep 2013, 14:29

Ich will ehrlich sein. Deine Beschreibung klingt etwas nach "gefährlichem Halbwissen".

Meine Ratschläge

Es fällt mir nur schwer zu entscheiden welches Modell dann den Zusammenhang besser erklärt.
[...]
3 ursprünglichen unabh. variablen (für die ich beabsichtige den Zusammenhang zu überprüfen)


Werde Dir über das Ziel Deiner Analyse klar. Geht es darum, ein für diesen spezifischen Datensatz best passendes Modell zu wählen (typisch bei vielen Arbeiten, im Grunde nicht das, wofür Regressionsanlysen gedacht sind), oder geht es um kausakle Effekte einzelner Faktoren?

Meine ursprüngliche Planung war: ein einigermaßen statistisch aussagekräftiges gepooltes Modell zu untersuchen und im Anschluss unter Verwendung von fixed effects eine Paneldiagnose durchzuführen.


Was soll eine Paneldiagnose sein?

Die Wahl des Modells sollte hauptsächlich vom Ziel Deiner Untersuchung bestimmt sein. Geht es um "gute Vorhersagen" innerhalb des vorliegendn Datensatzes, spielt es womöglich gar keine allzugroße Rolle, ob die Paramater verzerrt (im Sinne eines Kausaleffekts) gechätzt werden, weil z.B. unbeobchtete Heterogenität vorliegt, oder ob die Standradfehler verzerrt sind. In diesem Fall ist ein gepooltes Modell, evtl. mit korrigierten Fehlern vieleicht eine gute Wahl. Geht es um kauslale Inferenz, ist es dagegen unerlässlich unverzerrte Parameter zu schätzen, und ein FE Modell mit Kontrolle der Zeitpunkte scheint hier ein guter Ansatz zu sein.

Nehme ich die oben beschriebenen Dummies hinzu, ist das Problem der Heteroskedastizität entfernt, meine erklärenden Variablen werden jedoch insignifikant(b1,b2 und b3). Dafür haben die Parameter der Dummyvaribalen einen signifikanten Einfluss (zumindest zum Teil).


Ich habe die Beschreibung nur überflogen, aber ich verstehe, dass es sich um Interaktionseffekte handelt. Wie Du diese interpretieren musst, ist Dir offenbar völlig schleierhaft. Das kannst Du hier nachlesen: regressionanalyse-f11/interpretation-interaktion-moderierte-regression-t2455.html

Ob, und welche Interaktionen Du aufnimmst, hängt wieder mit Deinem Erkenntnisinteresse zusammen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Panel Daten und Poolen

Beitragvon DHA3000 » Mi 11. Sep 2013, 14:35

Sind denn die "Time Dummies" signifikant? -> Wald-Test
Halte das Modell möglichst klein. Also erstmal nur die drei Variablen und gut ist.
Der Hausman-Test macht nichts weiter als die Korrelation der Residuen mit den erklärenden Variablen zu testen. Ist diese vorhanden, ist Random Effects verezerrt und inkonsistent, Fixed Effects aber immer noch konsistent.
So ist die Argumentation. Hätte mich aber auch gewundert, wenn bei dir nicht Fixed Effects herausgekommen wäre.

Kannst du das Model mit robusten Standradfehlern schätzen? Das sollte dein Het.-Problem lösen.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Panel Daten und Poolen

Beitragvon Giraffe » Mi 11. Sep 2013, 15:06

Gefährliches Halbwissen triffts ganz gut. Deshalb bin ich ja hier und hoffe was zu lernen. :-)

Ich habe die Beschreibung nur überflogen, aber ich verstehe, dass es sich um Interaktionseffekte handelt. Wie Du diese interpretieren musst, ist Dir offenbar völlig schleierhaft.


Das Thema mit den Interaktionstermen habe ich jetzt (glaube ich zumindest) verstanden. Ich lehn mich mal aus dem Fenster und sage mein insignifikanter X1 Koeffizient bezieht sich nur auf die Referenz wo die dummyvariable den Wert 0 annimmt und ist daher nicht als durchweg insignifikant anzusehen. Vor Allem da er bei Dummywert=1 "signifikant wird".

Die Wahl des Modells sollte hauptsächlich vom Ziel Deiner Untersuchung bestimmt sein.

Ziel ist eigentlich eine Kausalität zwischen abhängiger Var. und unabhängiger Variable zu untersuchen.

Sind denn die "Time Dummies" signifikant? -> Wald-Test

Die Time Dummies welche mir GRETL generiert werde in der fixed effect Auswertung mit signifikantem p-wert angezeigt. Der Wald Test errechnet jedoch eine Teststatistik die weit über dem kritischen Chi^2 Wert liegt.

Kannst du das Model mit robusten Standradfehlern schätzen? Das sollte dein Het.-Problem lösen.

Es gibt die Option eine robuste Schätzung mit "kleinsten absoluten Abweichungen" vorzunehmen. Hier habe ich jedoch bedenken wie ich die Ergebnisse interpretieren soll.
Giraffe
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Di 10. Sep 2013, 09:51
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron