Hallo!
Dieses Board hat mir zwar schon öfter weitergeholfen, ich sitze jetzt aber an meiner Magisterarbeit/Diplomarbeit und benötige doch konkretere Hilfe. Kurz worum es geht: Es geht im weiteren Sinn um politische Partizipation bzw. bestimmte politische Nutzungsformen im Social Web. Ich arbeite hauptsächlich mit klassischen politischen Partizipationsmodellen und mein Ziel ist im Grunde ein Modell mit dieser Nutzung des Social Web als abhängige Variable und diversen Prädiktoren (z. B. sozioökonomische Variablen, politisches Interesse etc.). Die Stichprobengröße liegt bei ~3.000.
Das Problem ist, dass meine abhängigen Variablen sehr viele Nicht-NutzerInnen haben. Bei den gesamten habe ich 30 % mit 0, nur aktive Nutzung sind es z. B. sogar 58 %. Die Verteilung sieht in etwa so aus:
https://www.dropbox.com/s/k1b69eoy2r8kenu/gesamt1.jpg
Bei nur aktiv:
https://www.dropbox.com/sh/e51a7zks53vptn1/5LvciLLU7-/aktiv1.jpg
Ich weiß, dass die lineare Regression keine Normalverteilung der abhängigen Variable voraussetzt, dennoch scheinen mir meine Daten suboptimal zu sein. Ich kann zwar lineare Regressionsmodelle rechnen und die Voraussetzungen dann überprüfen, aber mein Verständnis reicht nicht so weit, abzuschätzen, was genau meine Datenverteilung bedeutet. Daher, bevor ich beginne das lineare Modell zu berechnen: Ist das von vornherein zum Scheitern verurteilt?
Von meinem Professor habe ich einmal gehört, dass eine Faustregel besagt, dass es kritisch wird, wenn rund 80 % oder mehr der Fälle die gleiche Ausprägung haben (bei mir 0). Weil dann kaum noch Varianz aufgeklärt werden kann. Klingt das sinnvoll? Findet sich dazu Literatur?
Mit Alternativen kenne ich mich leider auch nicht wirklich aus, Variablentransformation oder andere Regressionsverfahren habe ich noch nie durchgeführt. Einzig bei Heteroskedastizität habe ich Modelle dann mit robusten Schätzer gerechnet (ohne wirklich genau zu verstehen, was die anders machen).