Hi Leute,
für meine Masterarbeit verwende ich einen Paneldatensatz. Da dieser leider keine Zeitvariable hatte, habe ich den Datensatz von wide in long transformiert. Nun hat sich natürlich die Fallzahl deutlich vergrößert, von ca. 3000 auf ca. 30000. Nun die erste Frage: Ist dies ein Problem für anschließende Regressionsanalysen? Bzw. muss ich dann die Fallzahl wieder verringern?
Daneben ist dann ja so, dass sich Variablen sozusagen verschmelzen, also zu einer Variable werden. Beispiel: Im wide-Format hatte ich z.B. die Variablen Immigration1, Immigration2, Immigration 3 usw. Dies war eine Variable, die Einstellungen zu Immigration abfragt und die Zahlen hinter Immigration zeigen die Wellen an, in welche diese abgefragt wurden. Sprich Immigration1 wurde in Welle 1 abgefragt, Immigration2 in Welle 2 usw. Nun ist das eben eine Variable, Immigration. Auch hier die Frage: Wenn ich diese als unabhängige Variable in die Regression aufnehme, ist dies ein Problem? Oder genau das richtige für eine Panelregression?
Nächste Frage: Meine abhängige Variable ist das Wahlverhalten bzw. die beabsichtigte Stimmabgabe. Auch diese wurde analog zu Immigration in jeder Welle abgefragt, also Wahl1, Wahl2, Wahl3 etc. Wenn ich dann eben eine Panelregression mache, macht es Sinn, diese Variable analog zur Immigrationsvariable in einer Variable zusammenzufassen oder sollte ich die letzte Variable, also Wahl7 (es gibt 7 Wellen im Datensatz) als abhängige Variable benutzen? Was macht da Sinn?
Dann letzte Frage: Problematisch wird es dann aber auch, wenn ich nach xtset id time z.B. xtlogit var1 var2 etc. mache. Oftmals werden dann Variablen omitted. Kennt da jemand einen Trick? -->was ich jetzt gemacht habe: eine ganz normale logistische Regression, also logit, und dann eben in der Regression noch die Variable time integriert. Geht das so auch? Oder muss ich xtset und dann xtlogit machen?
(Sorry für die vielen Fragen, wenn diese mir nicht alle auf einmal beantwortet werden ist das okay.)