Mit "einflussreich" meine ich Fälle, die das Schätzergebnis des Modells stark verzerren, weil sie z.B. einen hohen Hebeleffekt haben. Daher will ich sie ja auch erkennen und aus dem Modell rauswerfen. Der Datensatz wird nicht "manipuliert", da ich in meiner Arbeit die Ergebnisse mit und ohne Ausreißer kontrastiere.
Die Frage ist halt nun: Wie werden einflussreiche Fälle im multiplen OLS-Regressionsmodell am besten diagnostiziert?
1. Mittels Einflussmaß (Cooks D)?
2. Durch die Hebeleffekte (Leverage Value)?
3.Oder doch Diskrepanz / Distanz (studentisierte Residuuen)?
4. Oder ein Mix aus allem?
Es scheint so zu sein, dass ein einflussreicher Fall durch einen hohen Leverage, als auch durch eine große Distanz zur Regressionsgeraden (Diskrepanz) als Ausreißer auffällt. Nach dieser Logik: Fall mit hohem Leverage-Value Ausreißer, mit niedrigem Cooks D Value kein Ausreißer => Kein einflussreicher Fall.
Wenn nun aber auch auffällig großer Wert in Cooks D, dann => einflussreicher Fall, weil in beiden Maßen als Ausreißer auffällig.
Inwiefern trifft diese Logik zu, oder verstehe ich sie falsch?
Ich habe es bislang so gemacht, dass ich den einflussreichsten Fall nach Cooks D aussortiert habe, weil ich dachte der ist aussagekräftig genug. Es hat sich auch auf das Modell fast immer positiv ausgewirkt, niedrigerer Standartfehler und Kollinearität.
Die robuste Regression als ausreißerresistentes Verfahren ist eine gute Idee, leider lohnt sich die gewichtete Regression nicht bei meiner niedrigen Ausreißeranzahl. Es werden ja nur maximal 1 bis 2 Fälle aussortiert.
Eine neue Methode wollte ich jetzt nicht entwickeln, weiß nicht wie du darauf kommst?
Das traue ich mir bei weitem nicht zu.
LG