Two-Stage-LS Regression (2SLS) mit Paneldaten

Alle Verfahren der Regressionanalyse.

Two-Stage-LS Regression (2SLS) mit Paneldaten

Beitragvon Thomas.K » Fr 4. Jul 2014, 11:46

Hallo an alle,

ich beschäftige mich derzeit zwecks meiner Abschlussarbeit mit einer Panelregression, "leider" nur mit einem Grundverständnis für Statistik und kaum ökonometrischer Vorbildung. Sofern hat alles auch gut geklappt, nur stecke ich nun etwas fest und bin mir sicher, dass ich hier auf kompetente Hilfe treffen kann.

Um es kurz zu fassen: ich untersuche die Auswirkung von CSR auf das Unternehmensrisiko. Hierzu habe ich Paneldaten erhoben ("unbalanced", d.h. ich habe zu etwa 25 Unternehmen Beobachtungen von je 2-4 Jahren, je nach Verfügbarkeit); insgesamt sind es etwa 90 Beobachtungen (etwa 2-4 pro Unternehmen). Ich habe nun ein Regressionsmodell konstruiert, grob nach der Form RISK=a+b1(CSR)+b2(ROA)+b3.... Was ab b2 folgt sind praktisch Kontrollvariablen.

Ich habe das Ganze zunächst mit OLS approximiert, glücklicherweise auch mit erfreulichen signifikanten Ergebnissen. Ich habe nach Jahr und Industrie kontrolliert (also fixed effects), da diese Dimensionen auch intuitiv auf den ersten Blick einen Unterschied machen (hierzu habe ich einfach jeweils Jahr- und Industrie-Dummies eingefügt). Soweit so gut.

In der Literatur wird an dieser Stelle nun weiter noch auf Endogenität geprüft, und auch ich würde das unbedingt gerne machen (vor allem auf Simultanität da ich vermute, dass Unternehmen mit höherem Risiko von Anfang an auch schon mehr in CSR investieren). Hierzu wird in der Literatur oft ein 2SLS bzw. 3SLS Gleichungssystem aufgestellt. Ich hatte zu diesen Verfahren zuvor GAR keine Ahnung, habe mich allerdings eingelesen und das Ganze hoffentlich gut verstanden.
Ich weiß, dass ich eine instrumentelle Variable finden muss, die mit meiner unabhängigen und verdächtig endogenen Variable - in diesem Fall CSR - signifikant korreliert und diese verlässlich vorausberechnen kann, aber NICHT mit meiner abhängigen Variable RISK korrelieren darf. Ich glaube, diese auch gefunden zu haben (ein Dummy).
Nun habe ich in einem ersten Schritt Erwartungswerte für CSR berechnet (mit allen Kontrollvariablen und exogenen Variablen der Ausgangsregression bis auf RISK auf der rechten Seite), wieder nach Jahr und Industrie kontrolliert. Nachdem ich nun allerdings mit diesen Erwartungswerten die Ausgangsregression nochmals durch OLS approximiert habe, war CSR nicht mehr signifikant. Ich kann natürlich auch einfach nur Pech haben (entweder unglückliche IV oder tatsächlich Endogenität).

Was mich allerdings wundert, und leider reicht hier mein Statistikwissen nicht aus:

1) Entgegen der Ausgangsregression scheine ich nun auf extreme Multikollinearität der CSR Variable zu treffen (VIF>25), und ich kann mir nicht erklären wieso. Der einzige Unterschied ist, dass ich nun mit Erwartungswerten für CSR arbeite; alle restlichen Variablen sind gleich. "Womit" korreliert denn CSR plötzlich so stark? Und Kann dies der Grund dafür sein, dass meine Variable nun nicht mehr signifikant ist?

2) In der Studie, die als Grundlage meines Modells dient, kontrollieren die Autoren bei der 2SLS Approximierung im 2. Schritt NICHT nach Industrie. Das fand ich höchst seltsam und tat selbiges. Ergebnis: plötzlich ist meine CSR Variable (mit den Erwartungswerten, nicht den empirischen) hoch signifikant :shock: . Was kann denn der Grund hierzu sein? Mir fehlt das ökonometrische Verständnis, um zu verstehen, wieso man jetzt nun plötzlich nicht mehr nach Industrie kontrollieren sollte (ist das willkürlich?) aber INSBESONDERE wieso CSR plötzlich signifikant ist. WICHTIG: Wenn ich mit den "echten" empirischen CSR Daten arbeite, ist - wenn ich NICHT nach Industrie kontrolliere - die Variable NICHT signifikant. Wie kann ich mir erklären, dass sie jetzt mit den Erwartungswerten plötzlich signifikant ist?
Spaßeshalber habe ich das Ganze noch einmal probiert und im 2. Schritt mit den CSR Erwartungswerten gearbeitet, dieses mal zwar nach Industrie kontrolliert aber NICHT nach den Jahren. Und wieder: p<0.1% . Liegt dem ein statistisches Prinzip zu Grunde, wonach rein logisch Signifikanz entsteht (und somit umbeachtlich ist), oder MUSS ich eventuell sogar im 2. Schritt auf die Jahres- oder Industrie-Kontrolle verzichten? :-/

Ich hoffe, jemand kann mir vielleicht weiterhelfen!

VG Thomas
Thomas.K
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Jul 2014, 22:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Two-Stage-LS Regression (2SLS) mit Paneldaten

Beitragvon DHA3000 » Fr 4. Jul 2014, 14:29

Also, generell:

1) das ist ein Statistik-Forum. Du kannst dir sicherlich denken, dass dir Helfende sicherlich gerne etwas mehr über den Datensatz wissen wollen. Ich weiß nicht, was CSR ist oder ROA und vielle Kontrollvariablen (und welche) du mit einbeziehst. Das ist schonmal ermüdent.

2 Du scheinst nicht verstanden zu haben, was "fixed effects" sind. Was du als fixed beschreibst, ist nen Dummy und Time Effects.

3) Damit würde sich auch ein Teil deines Instrumentanvariablen-Ansatzes gelöst werden.

4) Dein Multikollinearitätsproblem kann auch von Kontrollvariablen hervorherufen werden, die du nicht nennst.

5) Nur am Rande: Eine Three-Stage-Least Squares Panel Regression mit nem Unbalanced Panel und 90 (!) Beobachtungen ist zum scheitern verurteilt. Egal, was für Werte dabei herauskommen, sie werden höchst Instabil sein und jegliche Ergebnisse nicht interpretierbar. Das gilt auch schon für ein normales Panel mit Fixed Effects.
Wenn, dann solltest du es so einfach wie möglich halten. Wenn möglich in Differenzen schätzen, sodass die Fixed Effects herausfliegen. Alles andere kostet dich zu viele Freiheitsgrade. Solche Modelle werden normalerweise mit mindestens ein paar tausend Beobachtungen geschätzt.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Two-Stage-LS Regression (2SLS) mit Paneldaten

Beitragvon daniel » Fr 4. Jul 2014, 23:01

In Punkt 1 muss ich DHA3000 zustimmen. Mit CSR und ähnlichen Abkürzungen kann man als nicht-Ökonom (ja, die gibt es zahlreich) inhaltlich nichts anfangen. Inhalt mag aber relevant sein für viele Fragestellungen. Eine davon ist ganz sicher IV (für nicht Ökonomen: gemeint ist Instrumetvariablen-Schätzung - nicht independend variable), denn ein Instrument zu beurteilen sollte doch sicher etwas mit inhaltlicher Argumentation zu tun haben (auch wenn das Problem rein "technischer Natur" ist).

Auch mit Punkt 3 hat DHA3000 recht. Mit 90 Beobachtungen werden (auch lineare) Modelle relativ schnell "instabil".

Widersprechen - oder zumindest nachfragen - muss ich bei Punkt 2. FE ist letztlich mathematisch nichts anderes als Dummies einzusetzen. Nur weil diese Indikatorvariablen nicht in der Liste der Prädiktoren auftauchen, sondern mathematisch herausgerechnet werden, muss man dennoch für die Freiheitsgrade korrigieren. Ansonsten sind die Signifikanztetst nicht valide.

Allerdings sollest Du vielleicht wirklich mal ein FE Modell mit den 25 Beobachtungen schätzen. Damit entfallen potentiell zumindest einige Deiner "Konrollvariablen" - auch wenn wir dazu nur mehr sagen könnten, wenn wir mehr vom Inhalt wüssten.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Two-Stage-LS Regression (2SLS) mit Paneldaten

Beitragvon Thomas.K » Sa 5. Jul 2014, 12:53

Das muss ich wirklich zu geben - da ich mich seit Wochen in die Thematik einlese und das auch mein Hintergrund ist, habe ich das nicht bedacht, das tut mir Leid (zugegebenermaßen habe ich auch die Relevanz unterschätzt und war davon ausgegangen, dass eine inhaltliche Erläuterung nicht wirklich interessiert ;) ).
Also noch einmal genauer gesagt untersuche in den Zusammenhang zwischen der Güte der Corporate Governance - dem Ordnungsrahmen für die Leitung und Überwachung von Unternehmen - und dem Unternehmensrisiko, definiert durch das Ausmaß der Schwankungen der Rendite am Aktienmarkt. Bei besagten Kontrollvariablen, die das Risiko ebenfalls beeinflussen können, handelt es sich um die Effizienz (return on asset), der Verschuldungsquote, der Größe des Unternehmens (als log der Aktiva), dem Umsatzwachstum, dem Verhältnis von Marktbewertung/Buchwert des Vermögens sowie der Liquidität.

Die begrenzte Anzahl der Beobachtungen (das Problem ist mir bewusst) liegt ganz einfach daran, dass Messungen der Corporate Governance in meinem Zielland erst seit 2007 stattfinden und ich somit erst ab diesem Jahr Daten habe (eben auch nicht für alle gelistete Unternehmen). Das Ganze wird noch dadurch geschmälert, dass Unternehmen im Finanzsektor nicht berücksichtigt werden können, da hier ein völlig anderer Zusammenhang zwischen Risiko und den Kontrollvariablen vorherrscht.

Für die anscheinend falsche oder ungenaue Benutzung des Begriffs "fixed effect" entschuldige ich mich (wie gesagt, ich beschäftige mich zum ersten Mal mit diesen Konzepten). Wie gesagt habe ich lediglich nach Jahren und Industrie kontrolliert, indem ich t-1 Jahresdummies sowie i-1 Industriedummies eingefügt habe (was bei der begrenzten Spanne zu weniger als 10 dummies geführt hat, also völlig machbar war...)
Thomas.K
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 3. Jul 2014, 22:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron