Liebes Forum,
für einen Artikel habe ich Items aus einem etablierten sozialpsychologische Index (sagen wir bspw. mal zu Job Commitment) genommen und alle einzelnen Items des Index in eine binäre lineare Regression aufgenommen, um die Selbsteinschätzung der Befragten (Sind Sie committed im Job: Ja/nein) zu schätzen (fiktives Beispiel). Ich habe nicht nur das Outcome, sondern auch die Prädiktoren in binäre Variablen umgeformt. Mir ist bewusst, dass normalerweise eine binäre logistische Regression das übliche Verfahren wäre, da ich aber vor allem an Interaktionseffekten interessiert bin, habe ich mich dagegen entschieden (Ich teste das logistische Modell aber auch in den Robustheits-Checks.).
Während der oder die eine Reviewer/-in schon weitgehend den Daumen gehoben hat, kritisiert die andere Person, dass es grundsätzlich nicht möglich sei, eine Regressionsgleichung aufzustellen, wie ich es gemacht habe - also mit den einzelnen Items eines Index anstatt dem Summenindex. Ich sehe hier jedoch gerade den Mehrwert meiner Untersuchung, da das Rechnen mit einem Index ja auch immer mit einem Informationsverlust einhergeht. Ich möchte Euch fragen, wie Ihr die Lage einschätzt und ob Ihr ggf. Artikel kennt, die sich mit dieser Problematik beschäftigen oder ein entsprechendes Vorgehen anwenden - die ich als Referenzen zur Rechtfertigung meines Vorgehens verwenden könnte.
Ich beschreiben noch einmal genauer mein Szenario: Ich habe eine lineare Regressionsgleichung mit einem binären Prädiktor und 47 (!) Prädiktoren. Daraus können meines Erachtens Probleme bei Multikollinearität und ein Overfitting resultieren. Beides habe ich gecheckt mit dem Ergebnis, dass mir beides unproblematisch erscheint. Insbesondere habe ich einen großen Datensatz mit mehreren Tausend Fällen und entspreche der Daumenregel, dass ich jedes Event der einzelnen binären Variablen mit mindestens 10 Fällen hinterlegen kann.
Danke für Eure Zeit!
Beste Grüße
Max