von Holgonaut » Di 15. Sep 2020, 09:04
Hallo Leute,
outlier weisen auf 3 mögliche Probleme hin
a) Datenfehler (z.B. aus dem Fragebogen "55" anstatt der 5 abgetippt)
b) Unpassende Fehlerverteilung (z.B. werden für count-Daten OLS Regressionen gerechnet)
c) Die Stichprobe ist eine mixture aus verschiedenen Gruppen
Lösungen
Zu a. Fehler identifzieren und "behandeln". Am besten Fehler korrigieren, oder --wenn man den wahren Werte nicht kennt trimmen, z.B. auf den interquartils-Abstand. Löschen geht natürlich auch, ist aber immer mit der Reduzierung des N, power und Effizienz verbunden. Alternative ist einen robusten Schätzer zu nehmen, der die Residuen durch eine entsprechende Gewichtung in ihrem leverage bremst
Zu b: Entsprechend der Theorie die richtige Verteilung nehmen und eine Residuendiagnostik machen (--> Stichwort generalized linear models)
zu c: wenn es viele outlier gibt, kann es sein, dass es zwei Subgruppen gibt mit unterschiedlichen Effekten. Wenn das N groß genug ist, könnte man daher mal mixture models versuchen.
Werte können auch als outlier erscheinen, wenn die zugrundeliegende Funktion nicht-linear ist. Dann könnten polynomiale Regressionen (x^2 oder x^3) oder besser generlized additive models sinnvoll sein.
Grüße
Holger