Begründung dafür, warum ich die UVs logarithmiere, habe ich höchstens die, dass wenn ich mir die Schaubilder anschaue, ich vermute, dass Zusammenhang am ehesten einer Potenzfunktion ähnelt..
Abnehmender Grenznutzen bzw. geringere Effekte in den Extremwerten der Variablen verglichen mit Änderungen um die Mitte wären, wie erwähnt, eher inhaltliche Überlegungen.
Damit komme ich wirklich auf eine große Anzahl, deshalb kann mir gut vorstellen, dass es viel zu viele sind.. jetzt weiß ich allerdings nicht, welche ich dann rausschmeißen soll.
Das ist eine Frage des Erkenntnisinteresses und davon, welche Variablen, wie mit welchen anderen Zusammenhängen (Stichwort omitted variable bias).
Wenn ich die logarithmierten UVs gegen die AVs plotte und das ganze relativ linear aussieht. Kann ich dann das zumindest als Hinweis darauf annehmen, dass das der richtige Weg sein könnte?
Zusammen mit theoretischen Überlegungen (vgl. oben) klingt das doch insgesamt plausibel.
Für den Ansatz aus den metrischen Prädiktoren dichotome zu machen, muss ich wahrscheinlich erstmal irgendwie darauf kommen, welches die besten Kategorien wären oder?
Ja. Inhaltlliche Überlegungen sollten hier hilfreich sein. Beispielsweise kann es sinntragend sein, zwischen positiver und negativer Kritik zu unterscheiden. Auch (bivariate) Grafiken können Anhaltspunkte bieten.
Hab ich das richtig verstanden, dass sie dann zu einer Dummy Variable wird..? Vermutlich würde man von mir dann erwarten, dass ich eine Varianzanalyse mache..
Vereinfacht gesagt ist die Regression eine Varianzanalyse "plus". Das statistische Modell ist das selbe. Die Varianzanalyse impliziert häufig eine absurde Kausalrichtung.
Ich hab halt leider auch das Problem, dass meine Möglichkeiten auch begrenzt sind. Robuste Standardfehler scheinen hier irgendwie nicht zur gebräuchlichen Praxis zu gehören. Ich weiß natürlich, dass das bedeutet, dass die Praxis wahrscheinlich qualtativ nicht die beste ist, aber ich weiß nicht, ob ich in meine Abschlussarbeit etwas schreiben soll, womit keiner Erfahrung hat...
Wenn ich das mit dem Makro hinbekomme würde ich es aber mal probieren. Das letzte Mal gab es da irgendein Problem, so dass ich fürs erste aufgegeben hatte damit.
Hm. Vielleicht bringt man Euch das nicht in Lehrveranstaltungen bei, aber robuste Standardfehler sind wirklich nichts exotisches und ich bin sehr optimisitsch, dass Dein(e) Betreuer(in) weiß, was das ist. Quellenangabe mit Minimalerläuterung sollte da genügen.
Ich habe jetzt noch eine Beobachtung gemacht, die ich nicht nachvollziehen kann. Wenn ich eine univariate Regression mache nur mit der UV lnStarkopien und AV lnBesuchern. Dann sieht alles gut aus. Bei der Hinzunahme einer einzigen Variablen (oder auch bei allen) weist das Schaubild der Residuen der Variable lnStarkopien stark auf Autokorrelation hin. Durbin Watson ist aber bei 1,95. Uns wurde nur mal gesagt wenns nahe an 2 ist wäre es meist OK.. ich weiß das ist wahrscheinlich wieder eine Halbwahrtheit.. Aber wenn in meiner multiplen Regression alle Residuenbilder in Ordnung aussehen und eins auf Autokorrelation hinweist, ist dann wieder alles im Eimer?
Robuste Standardfehler wäre hier die passende Antwort. Ob Deine Querschnittsdaten überhaupt Autokorrelation aufweisen können mag ich bezweifeln, weiß aber auch nichts näheres über die Stichprobe.
Noch eine dumme allgemeine Frage zu denen ich zwei konträre Aussagen in Büchern gefunden habe: Bei der multiplen Regression, hat das Schaubild in dem die standardisierten Residuen gegen den standardisierten geschätzten Wert geplottet sind Aussagekraft, oder schaut man nur auf die partiellen Diagramme für jede Variable?
Ich schaue mir beides an, aber definitiv zuerst den Residualplot. Da erkennt man m.E. schon viel.
Und eine ganz praktische Frage: Wie kann es sein dass sich die Werte im Schaubild bei Dummy Variablen so verteilen? Es gibt ja eigentlich nur den Wert null und eins. Sie liegen zwischen Minus eins und eins und manchmal mit Lücken, manchmal schön mit Übergängen.
Welche Werte meinst Du? Vorhersagewerte, Residuen? Von denen würde man sicher nicht erwarten, dass sie null oder eins sind.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.