Overfitting: Items anstatt eines Index nutzen?

Alle Verfahren der Regressionanalyse.

Overfitting: Items anstatt eines Index nutzen?

Beitragvon MaxSander » Mi 5. Jan 2022, 13:20

Liebes Forum,

für einen Artikel habe ich Items aus einem etablierten sozialpsychologische Index (sagen wir bspw. mal zu Job Commitment) genommen und alle einzelnen Items des Index in eine binäre lineare Regression aufgenommen, um die Selbsteinschätzung der Befragten (Sind Sie committed im Job: Ja/nein) zu schätzen (fiktives Beispiel). Ich habe nicht nur das Outcome, sondern auch die Prädiktoren in binäre Variablen umgeformt. Mir ist bewusst, dass normalerweise eine binäre logistische Regression das übliche Verfahren wäre, da ich aber vor allem an Interaktionseffekten interessiert bin, habe ich mich dagegen entschieden (Ich teste das logistische Modell aber auch in den Robustheits-Checks.).

Während der oder die eine Reviewer/-in schon weitgehend den Daumen gehoben hat, kritisiert die andere Person, dass es grundsätzlich nicht möglich sei, eine Regressionsgleichung aufzustellen, wie ich es gemacht habe - also mit den einzelnen Items eines Index anstatt dem Summenindex. Ich sehe hier jedoch gerade den Mehrwert meiner Untersuchung, da das Rechnen mit einem Index ja auch immer mit einem Informationsverlust einhergeht. Ich möchte Euch fragen, wie Ihr die Lage einschätzt und ob Ihr ggf. Artikel kennt, die sich mit dieser Problematik beschäftigen oder ein entsprechendes Vorgehen anwenden - die ich als Referenzen zur Rechtfertigung meines Vorgehens verwenden könnte.

Ich beschreiben noch einmal genauer mein Szenario: Ich habe eine lineare Regressionsgleichung mit einem binären Prädiktor und 47 (!) Prädiktoren. Daraus können meines Erachtens Probleme bei Multikollinearität und ein Overfitting resultieren. Beides habe ich gecheckt mit dem Ergebnis, dass mir beides unproblematisch erscheint. Insbesondere habe ich einen großen Datensatz mit mehreren Tausend Fällen und entspreche der Daumenregel, dass ich jedes Event der einzelnen binären Variablen mit mindestens 10 Fällen hinterlegen kann.

Danke für Eure Zeit!

Beste Grüße
Max
MaxSander
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 5. Jan 2022, 13:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Overfitting: Items anstatt eines Index nutzen?

Beitragvon bele » Mi 5. Jan 2022, 17:33

Hallo Max!

MaxSander hat geschrieben: alle einzelnen Items des Index in eine binäre lineare Regression aufgenommen,

Was ist eine binäre lineare Regression? Eine OLS Regression deren abhängige Variable eine Dummyvariable ist? Oder etwas anderes?

sondern auch die Prädiktoren in binäre Variablen umgeformt

Was bedeutet das? Waren das Items mit eine 5 stufigen Antwortformat von "trifft gar nicht zu" bis "trifft sehr zu" und Du hast daraus 0 und 1 gemacht? Wenn ja, was ist die Motivation dahinter?

dass normalerweise eine binäre logistische Regression das übliche Verfahren wäre, da ich aber vor allem an Interaktionseffekten interessiert bin, habe ich mich dagegen entschieden

Das erscheint mir nicht logisch. Warum stehen Interaktionseffekte im Widerspruch zu einer logistischen Regression?

kritisiert die andere Person, dass es grundsätzlich nicht möglich sei, eine Regressionsgleichung aufzustellen, wie ich es gemacht habe - also mit den einzelnen Items eines Index anstatt dem Summenindex. Ich sehe hier jedoch gerade den Mehrwert meiner Untersuchung, da das Rechnen mit einem Index ja auch immer mit einem Informationsverlust einhergeht.

Soweit verstehe ich weder die vermeintliche Unmöglichkeit noch den Mehrwert. Natürlich kann man erhobene Werte als Prädiktoren benutzen; das Skalenniveau muss man dabei im Blick behalten. Wenn Du zuerst einen Summenindex bildest, dann ist jedes Item gleich stark gewichtet und unter dieser Vorstellung ist der Fragebogen evaluiert und publiziert worden. Die Autoren des Instruments hätten auch eine Gewichtung (nach Faktorladung) vorsehen können aber das ist nicht üblich? Warum? Soweit ich es verstanden habe, weil die Faktorladungen nichts stabiles sind, was sich von einer zur nächsten Population gleich verhält. Aber ich bin kein Psychometriker und bestimmt können andere das besser erklären.
Indem Du die Items einzeln einsetzt erzwingst Du nun keine Gleichgewichtung aller Items, sondern erlaubst eine individuelle Gewichtung vor der Summenbildung. Da Du tausende von Fällen hast mag das trotz der zu erwartenden positiven Korrelationen zwischen den Items gut gehen. Was der Mehrwert ist, ist damit aber noch nicht erklärt.

ob Ihr ggf. Artikel kennt, die sich mit dieser Problematik beschäftigen oder ein entsprechendes Vorgehen anwenden - die ich als Referenzen zur Rechtfertigung meines Vorgehens verwenden könnte.

Wenn Du den oben behaupteten Mehrwert dieses Vorgehens plausibel beschreiben kannst erscheint mir das gewichtiger als die Frage ob ein anderer an anderer Stelle sowas schon mal gemacht hat.

eine lineare Regressionsgleichung mit einem binären Prädiktor und 47 (!) Prädiktoren. [...] und entspreche der Daumenregel, dass ich jedes Event der einzelnen binären Variablen mit mindestens 10 Fällen hinterlegen kann.

Wenn die 47 einerseits hoch korrellierte Werte und andererseits deren Interaktionseffekte (also auch wieder korrelliert) sind, dann ist das schon ein spezieller Fall. Dann würde ich mich auf Daumenregeln eher nicht verlassen, aber Du scheinst Dir zu dem Thema bereits Gedanken gemacht zu haben.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5906
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1395 mal in 1381 Posts

Re: Overfitting: Items anstatt eines Index nutzen?

Beitragvon MaxSander » Fr 7. Jan 2022, 12:05

Lieber Bernhard,

herzlichen Dank für Deine Zeit! Ganz kurz zu Deinen Rückfragen:

1. Ja, eine OLS-Regression mit Dummys ist gemeint. Ich hatte hier den "SPSS-Sprech" übernommen, wo es unter lineare Regression läuft.
2. Die Ordinalskala wurde transformiert, da das Antwortmuster der Befragten mitunter diffus war. Bei manchen Items gab es keinen linearen Zusammenhang zwischen den Items und der AV, bei anderen schon. Im Kontext meiner Fragestellung erschien eine Binärisierung grundsätzlich möglich und aus genannten Gründen auch sinnvoll.
3. Ich möchte die Interaktionseffekte direkt über die geschätzten Parameter interpretieren. Anhand der Methodenliteratur bin ich zu der Einschätzung gekommen, dass das bei einer OLS-Regression zugänglicher ist als bei einer logistischen Regression.

Deine Meinung hat mir auf jeden Fall geholfen. Sie hat mich erstens darin bestätigt, dass gegen das von mir geplante Vorgehen grundsätzlich erst einmal nichts dagegen spricht und führt mich dazu, jetzt noch einmal den Mehrwert des Vorgehens in meinem Artikel näher zu erläutern. Deine Ausführungen zu Summenindizes haben mir noch einmal vergegenwärtigt, dass deren Nutzung bei den von mir erforschten Konstrukten tatsächlich wenig Sinn macht - was sich in der Praxis aber hartnäckig hält.

Die besten Grüße
Max
MaxSander
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 5. Jan 2022, 13:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Overfitting: Items anstatt eines Index nutzen?

Beitragvon bele » Fr 7. Jan 2022, 15:16

Hallo Max,

dass es gute Gründe gibt, warum man bei 0 / 1 Antworten in aller Regel die logistische Regression der "einfachen" linearen Regression vorzieht hast Du sicher gelernt, deshalb werde ich da jetzt nicht drauf herumreiten, auch wenn ich Punkt 3 nicht richtig verstehe. Deine Arbeit, Deine Entscheidung. Wenn mein Beitrag Dir geholfen hat, dann freut mich das.

Anscheinend bist Du mit dem üblichen Umgang mit Fragebogenitems in Deinem speziellen Kontext nicht wirklich zufrieden und wünschst Dir das logischer und konsistenter. Wenn das so ist, dann solltest Du Dich im Verlauf mal mit der "Item Response Theory (IRT)" beschäftigen. Ich empfehle nicht, eine von den Reviewern weitgehend abgenickte Arbeit jetzt völlig umzuschreiben, aber nach Abschluss dieser Arbeit könnte das ein Thema sein, das sich für Dich lohnt.

Viel Erfolg,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5906
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1395 mal in 1381 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 20 Gäste