STATISTIK-FORUM.de

quarliko · von **quarliko** » Do 28. Mär 2013, 04:48

Hallo zusammen,

Ich habe eine Frage bezueglich der Aussagekraft eines Models. Vorweg bitte ich um Entschuldigung dass ich englische Begriffe benutze, aber leider sind mir die deutschen Fachbegriffe nicht immer bekannt...

Ich habe verschiedene Logistic Regression Modelle ausgefuehrt. Dabei habe ich als Model 1 die "control variables" benutzt und dann in Model 2 die "independent variables" eingefuegt. In Model 3 dann die "moderating variables" und in Model 4 den "interaction term". Alle Modelle sind aussagekraeftig (p< 0.001). Was ich jetzt aber gerne wissen moechte ist ob die Einfuehrung der Variablen im naechsten Model die Aussagekraft signifikant erhoeht. D.h., ob die Steigerung der Aussagekraft von Model 1 zu Model 2 (Steigerung der "log liklihood") signifikant ist oder nicht. Ich hoffe ich habe mich so klar wie moeglich ausgedrueckt...

Konkret: Welchen Test kann ich durchfuehren um das zu testen? (es waere klasse, wenn mir jemand die dazugehoerigen STATA commands geben koennte).

Vielen Dank im Voraus fuer eure Hilfe!

daniel · von **daniel** » Do 28. Mär 2013, 10:44

http://www.ats.ucla.edu/stat/stata/faq/nested_tests.htm

Die englischen Begriffe störe mich nicht, aber von der (semantischen) Gleichsetzung statistischer Signifikanz mit "Aussagekraft" rate ich dringend ab.

Hier dennoch die Übersetzungen

logistic regression - logistische Regression
controll variables - Kontrollvariablen, Kovariaten
independent variables - unabhängige Variablen, Prädikatoren
moderating variables - Moderatorvariablen
interaction term - Interaktion(sterm)

quarliko · von **quarliko** » Di 2. Apr 2013, 00:04

Danke fuer die Antwort! Das hat mir schon mal weitergeholfen.

Ich habe da noch eine weitere Frage - wenn es besser ist, dafuer einen eigenen Thread zu eroeffnen, dann kann ich das auch gerne machen.

Fuer meine fixed effect logistische Regression wurde einige Beobachtungen (Observations) nicht beruecksichtigt ("342 groups (910 obs) dropped because of all positive or all negative outcomes"). Dazu habe ich zwei Fragen:
1.) Muss ich einen T-Test durchfuehren zwischen den beruecksichtigten und nicht beruecksichtigten Beobachtungen oder kann ich einfach nur die Ergebnisse fuer die beruecksichtigten Beobachtungen nehmen?
2.) Wie kann ich die "descriptive statistics" fuer das "reduced sample" in STATA bekommen ("summarize" command zeigt mir immer die Infos fuer den ganzen Datensatz an).

Und vlt noch eine grundsaetzliche Frage.
Mein Datensatz besteht aus Acquisitionen und Allianzen die Firmen eingegangen sind. Da einige Firmen mehr als 1 Acquisition oder/und Allianz eingegangen sind, kommen etliche Firmen mehrmals im Datensatz vor. Daher bin ich der Meinung, dass ich meine Daten nicht als "pooled cross-sectional" Datensatz ansehen kann, sondern als "untrue paneldata". Ich habe einen Hausman-Test gemacht und der sagt mir, dass ich fixed effects benutzen soll. Einige haben aber auch vorgeschlagen, dass ich einfach ein random effects model nehmen kann und den "cluster" command nehme um die error-terms zu clustern (firm-level). Welche Vorgehensweise ist jetzt besser? Fixed effects oder random effects mit dem cluster command?

Danke nochmals fuer eure Hilfe!

daniel · von **daniel** » Di 2. Apr 2013, 10:58

ad 1)

Mit dem t-Test willst Du untersuchen, ob sich die ausgeschlossenen Fälle systematisch von den Fällen im Analysesample unterscheiden? Das kann man sicher tun, ob man muss hängt vermutlich u.a. von den Reviewern/Dozenten ab, die die Arbeit beurteilen.

ad 2)

Stata speichert die verwendeten Beobachtungen nach der Regression in e(sample). Eine grobe Skizze wäre also

Code: Alles auswählen: logit x y g byte mysample = e(sample) su y x if mysample

Mit der Beschreibung der Datenstruktur kann ich nicht viel anfangen, ebensowenig mit dem Begriff "untrue panel". Ich kenne unbalancierte Panels, die aber in den seltensten Fällen ein Problem darstellen.

Wenn Du den Hausman-Test ernst nimmst, und ihn so interpretierst, dass es unbeobachtete Firmenspezifische Heterogenität gibt, dann kommt nur das FE-Modell in Frage. Sowohl RE als auch geclusterte Standrdfehler führen in diesem Fall zu verzerrten Schätzern.

Ich kann nicht beurteilen wie stark die Verzerrung ist, da ich die Daten nicht sehe. Ebernsowenig möchte ich jetzt ausschweifend erklären, dass nicht lineare Modelle immer dem Problem unbeobachteter Heterogenität unterliegen, die auch in FE Modellen problematisch sein kann. Diese Eigenschaft folgt aus der Fixierung des Fehlers im statisitschen Modell, und kann m.W. nicht behoben werden, weshalb dieser kurze Hinweis genügen soll. Der interessierte Leser sei auf Mood (2010) und die dort zitierte Literatur verwiesen. Ich habe das Thema hier angerissen: regressionanalyse-f11/logistische-regression-uber-kindersterblichkeit-mit-stata-t1103-10.html

btw. Doppelpostings sollten immer explizit berichtet werden, auch wenn es sich um ein englischsprachiges Forum handelt:
http://www.talkstats.com/showthread.php ... Regression

Die Mods werden sonst, zurecht, sauer.

Mood, Carina. (2010) Mood, Carina (2010). Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review 26(1). 67-82.

quarliko · von **quarliko** » Mi 10. Apr 2013, 05:13

Danke fuer die Hilfe! Ich bin mir sicher, dass ich noch mehr Fragen haben werde - aber jetzt weiss ich wo es eine gute Platform fuer diese gibt!

Danke nochmals.

STATISTIK-FORUM.de

Steigerung der Aussagekraft von Model 1 zu Model 2

Steigerung der Aussagekraft von Model 1 zu Model 2

Re: Steigerung der Aussagekraft von Model 1 zu Model 2

Re: Steigerung der Aussagekraft von Model 1 zu Model 2

Re: Steigerung der Aussagekraft von Model 1 zu Model 2

Re: Steigerung der Aussagekraft von Model 1 zu Model 2

Wer ist online?