Aber: Nehmen wir mal an, du möchtest mit einem Regressionsmodell den Preis einer Wohnung anhand der qm erklären und daraus schließlich eine Schätzfunktion bilden.
Du schaust dir den Datensatz an und siehst, dass die Daten eine lineare Beziehung aufweisen. Eine Wohnung allerdings ist sehr weit entfernt von den übrigen Punkten - z.B. kostet diese 5000€ bei einer qm-Zahl von 40.
Hebelwerte, Cooks, Mahalanobis schlagen aus. Was machst du mit dem Fall? Erklären kannst du dir die Zahlen nicht. Aber plausibler als das es sich um eine 40qm-Wohnung mit goldenen Wassenhähnen handelt, ist, dass sich der HIWI Schlaftrunken bei der Eingabe der Daten vertippt hat.
Plausibilitätskontrollen haben auch etwas mit Pragmatismus zu tun. Was nützt es, ein Modell mit dem Ausreißer zu bekommen, dass nur 20% Varianzaufklärung hat, wenn es ohne den Fall 90% wären. Mit dem Modell kann ich dann vielleicht nicht alle Wohnungen erklären, aber vielleicht 99% aller Fälle. Und das hilft doch schon mal ordentlich weiter

Ich möchte noch einmal betonen - in einem der vorigen Posts habe ich das schon mal erwähnt - dass eliminieren nicht heißt, die Fälle verschwinden.
P.S. DHA3000: Ich möchte dich auf den Threat Bootstrapping aufmerksam machen. Da gibts was neues
