Hallo liebe Forumsmitglieder/innen,
ich habe folgendes Regressions-Problem und würde mich freuen, wenn mir jemand helfen könnte:
Ich habe einen Datensatz mit 40 Fällen und sieben Variablen.
Die Voraussetzungen für die Durchführung multipler linearer Regressionen sind soweit erfüllt, allerdings sind jeweils zwei mal zwei Variablen (nennen wir sie x1 und x2 sowie x2 und x3) bivariat etwas höher miteinander korreliert: rs = 0.65 bzw. rs = - 0.60, p < 0.001. Zunächst habe ich Interaktionsterme der entsprechenden Variablen in die Modelle aufgenommen (also x1 + x2 + x1*x2 + x3 + x2*x3, aber auch die Interaktionsterme jeweils einzeln) und die Variablen rückwärts basiered auf AIC selektiert. Dabei sind die Interaktionsterme immer "rausgeflogen", die Variablen x1 und x2 aber im finalen Model enthalten, b1 mit positivem Vorzeichen, b2 mit negativem. Der VIF liegt jeweils unter 3.
Um besser zu verstehen, ob die Ergebnisse trotz der recht niedrigen VIFs durch Multikollinearität beeinflusst wurden und diesen Einfluss ggf. zu beheben, habe ich folgendes probiert:
jeweils x1 / x2 aus den Modellen entfernt, x1 entfernt: x2 fliegt raus (b2 wäre nicht sig. positiv), R^2 von 0.5 auf 0.3 erniedrigt/x2 entfernt: b1 verändert sich nur leicht, R^2 von 0.5 auf 0.4 erniedrigt
Variablenausprägungen am jeweiligen Mittelwert zentriert (halte ohnehin nicht viel von dem Vorgehen): keine Auswirkungen auf VIF
Lasso-Regression: x2 fliegt raus, ansonsten gleiche Variablen-Selektion wie basierend auf AIC
Ich bin nun unsicher wie ich am besten vorgehe: x2 aus dem finalen Model rausnehmen oder drinlassen und Problematik diskutieren?
Inhaltlich wäre ein negativer b2-Koeffizient erklärbar.
Es wäre super, wenn mir hier jemand Rat geben könnte.
Vielen Dank im Voraus!