Hallo zusammen,
ich bin neu hier und hoffe ihr könnt mir helfen. Ich habe ein Problem, was mich ziemlich verzweifeln lässt.
Für meine Masterarbeit wollte/habe ich eine logistische Regression mit der abhängigen Variable "Arbeitszufriedenheit" und mit 12 unabhängigen Variablen gerechnet (alle UVs entweder kategorial oder als Dummy kodiert)...Ich weiß, dass ist ein ziemlich großes Modell. Es hat sich aus der Theorie heraus so entwickelt...
Ich habe den erstellten Datensatz (2995 Fälle) den ich aus den originalen Daten gebildet habe nochmals gefiltert sodass ich eine Stichprobe für alle Personen im Home-Office erhalten habe (1271 Fälle) und eine Stichprobe für alle Personen im Büro (1724 Fälle).
Die Probleme, welche hier bestehen sind:
- Bei beiden Stichproben ist die abhängige Variable sehr ungleich verteilt. Die kleinere Gruppe macht jeweils nur einen sehr geringen Teil der Stichprobe aus (Bsp.: 86 zu 1185).
- Auch die Dummy-Variablen sind sehr ungleich verteilt. Die Referenzkategorie ist immer größer und die Unterschiede sind sehr stark (Bsp.: 1161 zu 110)...die Mindestfallzahl von 10 ist in allen Kategorien gegeben aber ich habe hier in einem
anderen Beitrag gelesen, dass dies von der Gesamtzahl der Stichprobe abhängt. Die verwendeten Variablen wären jedoch für meine Arbeit alle wichtig.
Ich vermute jetzt einfach mal, dass die Regression so keinen Sinn macht...ich bin mit meinem Latein allerdings am Ende und meine statistischen Kenntnisse sind auch nicht die Besten...oder es ist die absolute Panik vor einem möglichen durchrasseln bei der Masterarbeit.
Was kann ich hier tun? An den Daten kann ich nichts verändern, da ich einen Datensatz verwende und keine eigene Erhebung gemacht habe.
Vielen Dank schonmal an jeden der mir hier helfen kann
Viele Grüße
L.