Hallo liebes Forum,
ich schreibe gerade an einer Studienarbeit und untersuche dabei Unternehmensdaten (Bilanzen) im Zeitraum von 2008-2012 von ca. 500 Unternehmen, wobei nicht für alle Jahre zu jedem Unternehmen Infos vorliegen. Ich würde den Datensatz als unbalanciertes Panel charakterisieren.
Ich gehe der Frage nach, ob der Verschuldungsgrad als AV von strukturellen Faktoren wie bspw. der Unternehmensgröße, der Region (Ost/West), der Branche, Eigentümer (privat/öffentlich) abhängt. Diese UV sind allesamt diskret, auch Unternehmensgröße habe ich in Klassen eingeteilt. Um den Zusammenhang statistisch zu prüfen, möchte ich ein multivariates Regressionsmodell berechnen und schauen, ob die UV signifikant sind und wie stark der Einfluss ist, also Betrag des Koeffizienten.
Momentan ist mein Problem, dass ich mir nicht sicher bin, wie ich mit dem Panelstruktur der Daten umgehen soll. Folgende Überlegung habe ich: Ich habe Paneldaten, da mehrere Messpunkte der gleichen Unternehmen über die Zeit auftauchen. Somit darf ich nicht einfach so tun, als wäre das kein Problem und ein gepooltes OLS-Modell laufen lassen. Regressionsmodelle für Paneldaten sind FE und RE. Eine Modellauswahl sollte immer unter Berücksichtigung der Fragestellung erfolgen. Ich möchte hier wie bereits erläutert den Zusammenhang von strukturellen Faktoren, die in meinem Datensatz alle zeitkonstant sind (weder Eigentümer, noch Größe ändern sich im Untersuchungszeitraum) , bestimmen. Das ist eine klassische Querschnittsfragestellung, denn ich möchte einfach nur wissen, ob z.B. kleine Unternehmen höher verschuldet sind oder ob nicht die Größe, sondern eher die Region entscheidend für die Verschuldung ist. Somit habe ich für mich das FE Modell ausgeschlossen, weil es zeitinvariate Effekte durch Transformation eliminiert.
Beim RE Modell bin ich mir nicht sicher aufgrund der restriktiven Annahme, dass die Fehlerterme nicht mit den Variablen korrelieren. Ich Frage mich, ob es nicht "überdimensioniert" ist, ein Panelverfahren zu nutzen, obwohl ich nur zeitinvariate Einflüsse untersuchen möchte. Ich möchte alle Jahre des Datensatzes nutzen, um die Stichprobe zu vergrößern und alle Informationen effizient zu verwerten. Alternativ ist mir der Gedanke gekommen, einfach nur ein Jahr herauszugreifen und es mit einem gewöhnlichen OLS-Modell zu untersuchen. Wie würdet ihr vorgehen?
Besten Dank und viele Grüße