STATISTIK-FORUM.de

uiolo · von **uiolo** » Mi 18. Sep 2019, 10:28

Hi Leute,

für meine Masterarbeit verwende ich einen Paneldatensatz. Da dieser leider keine Zeitvariable hatte, habe ich den Datensatz von wide in long transformiert. Nun hat sich natürlich die Fallzahl deutlich vergrößert, von ca. 3000 auf ca. 30000. Nun die erste Frage: Ist dies ein Problem für anschließende Regressionsanalysen? Bzw. muss ich dann die Fallzahl wieder verringern?

Daneben ist dann ja so, dass sich Variablen sozusagen verschmelzen, also zu einer Variable werden. Beispiel: Im wide-Format hatte ich z.B. die Variablen Immigration1, Immigration2, Immigration 3 usw. Dies war eine Variable, die Einstellungen zu Immigration abfragt und die Zahlen hinter Immigration zeigen die Wellen an, in welche diese abgefragt wurden. Sprich Immigration1 wurde in Welle 1 abgefragt, Immigration2 in Welle 2 usw. Nun ist das eben eine Variable, Immigration. Auch hier die Frage: Wenn ich diese als unabhängige Variable in die Regression aufnehme, ist dies ein Problem? Oder genau das richtige für eine Panelregression?

Nächste Frage: Meine abhängige Variable ist das Wahlverhalten bzw. die beabsichtigte Stimmabgabe. Auch diese wurde analog zu Immigration in jeder Welle abgefragt, also Wahl1, Wahl2, Wahl3 etc. Wenn ich dann eben eine Panelregression mache, macht es Sinn, diese Variable analog zur Immigrationsvariable in einer Variable zusammenzufassen oder sollte ich die letzte Variable, also Wahl7 (es gibt 7 Wellen im Datensatz) als abhängige Variable benutzen? Was macht da Sinn?

Dann letzte Frage: Problematisch wird es dann aber auch, wenn ich nach xtset id time z.B. xtlogit var1 var2 etc. mache. Oftmals werden dann Variablen omitted. Kennt da jemand einen Trick? -->was ich jetzt gemacht habe: eine ganz normale logistische Regression, also logit, und dann eben in der Regression noch die Variable time integriert. Geht das so auch? Oder muss ich xtset und dann xtlogit machen?

(Sorry für die vielen Fragen, wenn diese mir nicht alle auf einmal beantwortet werden ist das okay.)

PonderStibbons · von **PonderStibbons** » Mi 18. Sep 2019, 10:39

für meine Masterarbeit verwende ich einen Paneldatensatz.

Es wurden immer dieselben Leute befragt oder zu jedem Zeitpunkt unterschiedliche?

Da dieser leider keine Zeitvariable hatte,

Was ist damit gemeint?

Mit freundlichen Grüßen

PonderStibbons

uiolo · von **uiolo** » Mi 18. Sep 2019, 10:50

1. Es wurden immer die gleichen Personen befragt.
2. Mit der Zeitvariable meine ich eine Variable, die mir anzeigt, wann die Befragten befragt wurden. Also z.B. eine Variable mit den Ausprägungen 2013, 2014, 2015 usw. Die ist eben im Datensatz nicht vorhanden und die habe ich durch die Transformation in das Long-Format erstellt.

PonderStibbons · von **PonderStibbons** » Mi 18. Sep 2019, 11:03

Wenn dieselben Personen befragt wurden, liegen abhängige Daten vor, was bei der
Analyse zu berücksichtigen ist, sonst werden die Vorhersagefehler falsch geschätzt.
Die Daten über mehrere Zeitpunkte sind den Personen jeweils zuzuordnen, man weiß,
wie ein Individuum zu Zeitpunkt1, zu Zeitpunkt2 etc. geantwortet hat?

2. Mit der Zeitvariable meine ich eine Variable, die mir anzeigt, wann die Befragten befragt wurden. Also z.B. eine Variable mit den Ausprägungen 2013, 2014, 2015 usw. Die ist eben im Datensatz nicht vorhanden und die habe ich durch die Transformation in das Long-Format erstellt.

Die Zeitvariable ist Deiner Beschreibung zufolge in den Variablennamen drin,
Immigration1, Immigration2, Immigration3 etc.

Mit freundlichen Grüßen

PonderStibbons

uiolo · von **uiolo** » Mi 18. Sep 2019, 11:09

Wenn dieselben Personen befragt wurden, liegen abhängige Daten vor, was bei der Analyse zu berücksichtigen ist, sonst werden die Vorhersagefehler falsch geschätzt.
-->was meinst du mit abhängige Daten?

Die Daten über mehrere Zeitpunkte sind den Personen jeweils zuzuordnen, man weiß,wie ein Individuum zu Zeitpunkt1, zu Zeitpunkt2 etc. geantwortet hat?
-->ja, das weiß man

Die Zeitvariable ist Deiner Beschreibung zufolge in den Variablennamen drin, Immigration1, Immigration2, Immigration3 etc.
-->ja, das stimmt schon. Aber für xtset brauche ich ja eine Variable, in der die Zeit angegeben ist. Habe auch Kontakt aufgenommen mit denjenigen, die den Datensatz erstellt haben und auch sie meinten, es gibt keine Zeitvariable, die muss ich erst erstellen, indem ich den Datensatz in das Long-Format transformiere. Von daher stimmt es aus meiner Sicht erstmal, das ich es ins Long-Format übertragen habe.

PonderStibbons · von **PonderStibbons** » Mi 18. Sep 2019, 12:16

-->was meinst du mit abhängige Daten?

Es liegen Messwiederholungen vor. Dieselben Messungen wurden mehrmals
am selben Objekt (an derselben Person) durchgeführt. Damit sind diese
Messungen nicht mehr unabhängig voneinander.

Normalerweise würde ich ein Mehrebenenmodell für passend halten,
da ein solches berücksichtigt, wenn Daten innerhalb von Personen
"geclustert" sind. Aber vielleicht gibt es auch eigens zugeschnittene
Verfahren für Paneldatenanalysen mit Messwiederholungen.

Mit freundlichen Grüßen

PonderStibbons

Holgonaut · von **Holgonaut** » Do 19. Sep 2019, 13:25

Hi uiolo,

wie PonderStibbons sagte, die Zeit ist in der Variablen-Bezeichnung enthalten. Wenn du die Variablen nun in ein long-format bringst, musst du eine Zeit-Variable anlegen, die angibt, ob es die 1., 2. oder 3. Welle ist.
Das sieht dann so aus
ID..Time..Immigration..Wahl
1....1........4..............0
1....2........3..............1
1....3........2.5............1
2....1........1..............1
2....2........3..............0
2....3........3.5............0
etc.

Analysemethode dieses Formats ist ein multi-level growth-curve model
siehe
Bolger, N., & Laurenceau, J.-P. (2013). Intensive longitudinal methods: An introduction to diary and experience sampling research: Guilford Press.

Voraussetzung ist, dass alle Personen in den selben Zeit-Intervallen analysiert wurden--d.h. das die Differenz zwischen time=1 und time=2 für alle gleich ist. Und idealerweise sollte time=1 etc. auch für alle Personen gleich sein.

Wenn das nicht der Fall ist, sind folgende Ansätze sinnvoller

Voelkle, M. C., Gische, C., Driver, C. C., & Lindenberger, U. (2018). The role of time in the quest for understanding psychological mechanisms. Multivariate Behavioral Research, 53(6), 782-805. doi:10.1080/00273171.2018.1496813

Driver, C. C., & Voelkle, M. C. (2018). Hierarchical Bayesian continuous time dynamic modeling. Psychological Methods, 23(4), 774-799. doi:10.1037/met0000168

Es gibt dafür ein mächtiges R-Paket (ctsem).

Auch das neue brms-Paket von Paul Bürkner scheint das zu können (beschäftige mich gerade selbst mit diesen Problemen)

Bürkner, P.-C. (2017). Advanced Bayesian multilevel modeling with the R package brms. arXiv preprint arXiv:1705.11123.

Nalborczyk, L., Batailler, C., Lœvenbruck, H., Vilain, A., & Bürkner, P.-C. (2019). An Introduction to Bayesian Multilevel Models Using brms: A Case Study of Gender Effects on Vowel Variability in Standard Indonesian. Journal of Speech, Language, and Hearing Research, 62(5), 1225-1242.

Grüße
Holger

uiolo · von **uiolo** » Do 19. Sep 2019, 13:42

@Holgonaut
Vielen Dank für die Antwort. Sie wie du es am Anfang gezeigt hast sieht es bei mir aus. Das was du dann vorschlägst, finde ich für mich sehr kompliziert.

Daher eine andere (eventuell doofe Frage): Wäre es auch möglich, für jede Welle sozusagen ein Querschnittsmodell zu rechnen und den Effekt über die Zeit mittels Margins zu verknüpfen? Sprich für Welle 1 mache ich ein Regressionsmodell, für Welle 2 ebenso eins, für Welle 3 auch usw. Für jedes Modell berechne ich dann eben Margins und verknüpfe diese mittels Marginsplot. Wäre diese auch eine Möglichkeit?

Holgonaut · von **Holgonaut** » Fr 20. Sep 2019, 07:34

Uiolo,

ich weiß nicht, was das bringen soll. Gib dir nen Ruck und lies erst mal ein bisschen. Du bist master-Student, da muss eine läppiche multi-level-Regression machbar sein. Besorg dir das Buch von Bolger und Laurenceau, da ist sogar SPSS Code drin

Grüße
Holger

uiolo · von **uiolo** » Fr 20. Sep 2019, 09:28

Ich weiß wie eine Mehrebenenanalyse geht, habe auch schon einige für Hausarbeiten gemacht. Nur eben noch nie mit Paneldaten. Wollte da eben wissen, ob es dafür einen eigenen Befehl gibt oder ich den ganz normalen Nutze von Stata (z.B. meqrlogit)

STATISTIK-FORUM.de

Paneldaten

Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Re: Paneldaten

Wer ist online?