Frage zum Umgang mit Ausreißern

Alle Verfahren der Regressionanalyse.

Frage zum Umgang mit Ausreißern

Beitragvon Apollo_M » Mi 9. Sep 2020, 16:36

Hallo,

ich führe gerade für einen kleinen Datensatz (20 Probanden) eine Regressionsanalyse durch. Hier (https://statistikguru.de/spss/multiple- ... isser.html) ist der Umgang mit Ausreißern beschrieben. Ich habe nach Huber 3 Ausreißer (LEV_1-Wert > .2). Ich habe diese nun entfernt, die ganze Berechnung neu gemacht und habe jetzt wieder Ausreißer. Hätte ich die Probanden nicht komplett löschen dürfen oder kann das so sein?

Danke und liebe Grüße.
Apollo_M
Beobachter
Beobachter
 
Beiträge: 17
Registriert: Do 3. Sep 2020, 18:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Frage zum Umgang mit Ausreißern

Beitragvon bele » Mi 9. Sep 2020, 16:46

Hallo Apollo,

auf der Seite steht "Wenn wir Ausreißer in unserem Datensatz haben, können wir überlegen, ob wir sie von der weiteren Datenanalyse ausschließen möchten". Man muss sich das also im Einzelfall überlegen und kann nicht mechanisch alles löschen, was einem nicht in den Kram passt.

Schau Dir auch mal diesen Thread an (vorrangig natürlich meinen Beitrag in dem Thread ;-) allgemeine-fragen-f5/reihenfolge-t7226.html?hilit=fukushima

Ja, wenn Du aus Deinen Daten die Punkte löschst, die extrem sind, dann können andere Punkte im Vergleich zum verbliebenen Rest extrem wirken. Das ist in aller Regel aber keine Rechtfertigung für extremes Datenmanipulieren.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: Frage zum Umgang mit Ausreißern

Beitragvon Apollo_M » Mi 9. Sep 2020, 17:06

Okay, danke dir. Ich hatte die Werte gelöscht, weil ich gelesen habe, dass Regression ziemlich empfindlich ist, was Ausreißer angeht. Aber dann lasse ich sie vielleicht mal drin und schau erst mal, wie es weiter gehen würde und ob brauchbare Ergebnisse rauskommen.
Apollo_M
Beobachter
Beobachter
 
Beiträge: 17
Registriert: Do 3. Sep 2020, 18:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Frage zum Umgang mit Ausreißern

Beitragvon matrixboy7 » So 13. Sep 2020, 17:37

Apollo_M hat geschrieben:Okay, danke dir. Ich hatte die Werte gelöscht, weil ich gelesen habe, dass Regression ziemlich empfindlich ist, was Ausreißer angeht. Aber dann lasse ich sie vielleicht mal drin und schau erst mal, wie es weiter gehen würde und ob brauchbare Ergebnisse rauskommen.


Und eine Lösung gefunden für die Ausreißer? :)
matrixboy7
User
User
 
Beiträge: 36
Registriert: So 6. Sep 2020, 12:16
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Frage zum Umgang mit Ausreißern

Beitragvon Apollo_M » So 13. Sep 2020, 17:58

Ich hab sie jeweils drin gelassen, weil die jeweiligen Cook-Distanzen sehr klein waren. Ich hoffe, dass somit die Argumentation in meiner Arbeit passt :-)
Apollo_M
Beobachter
Beobachter
 
Beiträge: 17
Registriert: Do 3. Sep 2020, 18:50
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Frage zum Umgang mit Ausreißern

Beitragvon matrixboy7 » Mo 14. Sep 2020, 19:44

Apollo_M hat geschrieben:Ich hab sie jeweils drin gelassen, weil die jeweiligen Cook-Distanzen sehr klein waren. Ich hoffe, dass somit die Argumentation in meiner Arbeit passt :-)


Würde die einfach sachgemäß auch drinlassen, aber wüsste nicht wie ich es argumentieren sollte :D
matrixboy7
User
User
 
Beiträge: 36
Registriert: So 6. Sep 2020, 12:16
Danke gegeben: 14
Danke bekommen: 0 mal in 0 Post

Re: Frage zum Umgang mit Ausreißern

Beitragvon Holgonaut » Di 15. Sep 2020, 09:04

Hallo Leute,

outlier weisen auf 3 mögliche Probleme hin
a) Datenfehler (z.B. aus dem Fragebogen "55" anstatt der 5 abgetippt)
b) Unpassende Fehlerverteilung (z.B. werden für count-Daten OLS Regressionen gerechnet)
c) Die Stichprobe ist eine mixture aus verschiedenen Gruppen

Lösungen
Zu a. Fehler identifzieren und "behandeln". Am besten Fehler korrigieren, oder --wenn man den wahren Werte nicht kennt trimmen, z.B. auf den interquartils-Abstand. Löschen geht natürlich auch, ist aber immer mit der Reduzierung des N, power und Effizienz verbunden. Alternative ist einen robusten Schätzer zu nehmen, der die Residuen durch eine entsprechende Gewichtung in ihrem leverage bremst
Zu b: Entsprechend der Theorie die richtige Verteilung nehmen und eine Residuendiagnostik machen (--> Stichwort generalized linear models)
zu c: wenn es viele outlier gibt, kann es sein, dass es zwei Subgruppen gibt mit unterschiedlichen Effekten. Wenn das N groß genug ist, könnte man daher mal mixture models versuchen.

Werte können auch als outlier erscheinen, wenn die zugrundeliegende Funktion nicht-linear ist. Dann könnten polynomiale Regressionen (x^2 oder x^3) oder besser generlized additive models sinnvoll sein.

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron