Hallo kurz zum Hintergrund:
Ich möchte eine multiple logistische Regression rechnen mit einem Prädiktor und mehreren Interaktionsvariablen, sowie vorher theoretisch festgelegten Kontrollvariablen. Bei der Forschungsfrage geht es darum, dass Nudges einen positiven Einfluss auf das nachhaltige Kaufverhalten haben sollen (Abhängige Variable: Kauf eines nachhaltigen Produktes Ja/Nein). Dazu habe ich auch die Nachhaltigkeit mittels einer erprobten Skala erhoben.
Nun ist es so, dass meine Stichprobe eine sehr seltsame Geschlechterverteilung hat, denn es haben 70% Frauen daran teilgenommen und die sind sehr nachhaltig. Dementsprechend kaufen selbst in der Kontrollgruppe viele das nachhaltige Produkt. Ich habe auch bereits einen T-Test gemacht und der Unterschied bezüglich der Nachhaltigkeitseinschätzung unterscheidet sich sig. zwischen Frauen und Männern.
Muss ich das Geschlecht nun als Kontrollvariable mit in die logistische Regression aufnehmen? Das Problem ist, dass ich bereits 19 Variablen (Prädiktoren, Kontrollvariablen, Interaktionsvariablen) im Modell drin habe und meine Stichprobe sich nur auf 280 Personen beläuft. Ich will das Modell auch nicht zu vollladen und damit künstlich das R2 erhöhen.
Eine andere Sache sind außerdem die Ausreißer (standardisierte Residuen). Wenn ich welche ausschließe und dann wieder eine Regression rechne, dann habe ich wieder neue Ausreißer. Wann erreicht man da eine Grenze?? Die Meinungen gehen da irgendwie sehr auseinander. Die einen sagen, man muss Ausreißer auch logisch begründen und nicht nur statistisch. Andere wiederum meinen alle st. Residuen größer 3 müssen auf jeden Fall raus, da das sonst gegen die Voraussetzungen der Regression verstößt. Soll man sie nun rausnehmen oder nicht?
Hoffe das ist verständlich und bin für jede Hilfe dankbar