Hallo zusammen,
für die Erklärung einer abhängigen Variable, die metrisch skaliert ist, liegen neben 4 unabhängigen und ebenfalls metrisch skalierten Variablen zusätzlich etwa 40 kategoriale Variablen (verschiedene Länder wie Deutschland, Schweden, ...) vor. Könnt ihr bitte kurz sagen, ob dieses Vorgehen sinnig ist:
1. Ich habe von den 40 kategorialen Variablen etwa 15 dummy-codiert. Das Kriterium hierfür war die Häufigkeit, mit welcher die Variablen im Datensatz vorkommen. Hier wäre zunächst zu klären, ob es korrekt ist, Dummy-Variablen nach dem Kriterium Häufigkeit zu erstellen oder ob dies bereits eine Verfälschung oder Verzerrung darstellt.
2. Von den 40 kategorialen Variablen habe ich wie erwähnt 15 Variablen als Dummy-Variablen in die Regressionsanalyse einfließen lassen. Die restlichen 25 Variablen dienen als Referenzkategorie und stellen quasi die "sonstigen Länder" dar. Ist dass Zusammenfassen von 25 Ländern in eine Kategorie aus statistischer Sicht in meinem Fall in Ordnung?
3. Zu den 15 Dummy-Variablen kommen noch die 4 bereits erwähnten metrisch skalierten Variablen hinzu. Nun bin ich nicht ganz sicher, wann ich die Entscheidung fällen soll, keine weiteren Variablen mehr aufzunehmen und wann ich die Regression mit 19 (15+4) Variablen bilden soll. Woran sollte ich mich hierbei orientieren?
4. Es bestünde die Möglichkeit neben den 15 Länder-Dummy-Variablen noch weitere kategoriale Variablen als Dummy-Variablen einzubeziehen. R-Quadrat würde sich hierbei verbessern. Worauf muss eine derartige Entscheidung fußen?
Liebe Grüße
Stefan