Hallo,
ja, automatischer Variablenausschluss. Ich habe die Methode gewählt, da diese, laut Theorie, ganz gut mit Multikollinearität umgehen kann. Bei mir ist es in der Tat manchmal der Fall, dass zwischen den Prädiktoren untereinander eine höhere Korrelation vorliegt als zur abhängigen Variable.
Ursprünglich habe ich 7 unabhängige Variablen, wovon am Ende 4 übrig blieben. Die Stichprobengröße beträgt 256.
Meine Frage nun: Ein lineares Modell scheint für meinen Datensatz scheinbar nicht geeignet zu sein.
Woran siehst Du das bzw. welche Voraussetzungen siehst Du verletzt?
Verletzt sehe ich die Normalverteilungsannahme der Residuen. Weiterhin ist im obigen Plot ja eine deutliche Struktur zu erkennen, weswegen die zufällige Streuung und Linearität meiner Meinung nach auch verletzt ist.
Ich habe weiterhin auch Scatterplotmatrizen zwischen der abhängigen Variablen und der einzelnen Prädiktoren erstellt. Bereits da zeigt sich rein optisch keine lineare Beziehung bzw. kann ich ehrlich gesagt überhaupt keine Struktur erkennen.
Hier ein paar Beispielplots zwischen der abhängigen Variable und Prädiktoren:
Es geht nochmal um den in einem vorherigen Beitrag diskutierten Tennisdatensatz.
Ich habe die Daten einzelner Spieler (unabhängige Variablen: Aufschlaggeschwindigkeit, Anzahl an unerreichbaren Schlägen (Winners), Anzahl unerzwungerner Fehler...) aus den ersten beiden Runden gemittelt und versuche nun anhand dieser Daten vorherzusagen, wie weit es der jeweilige Spieler im Turnier schafft, also wie viele Runden er erreicht.
Meine abhängige Variable ist daher die Anzahl der erreichten Runden und kann die Werte 1,2,3,4,5,6,7,8 annehmen.
Hier mal ein meine Ergebnisse des linearen Modells:
Ich habe es auch mit einer ordinalen Regression probiert. Da erhalte ich annähernd die gleichen Ergebnisse für meine Beta-Koeffizienten.