Ausreißer identifizieren

Alle Verfahren der Regressionanalyse.

Ausreißer identifizieren

Beitragvon Anza94 » Fr 31. Mär 2017, 14:44

Moin Leute,

ich hätte mal eine ganz allgemeine Frage. In einem multiplen, linearen Regressionsmodell nach der Methode der kleinsten Quadrate, möchte ich gerne Ausreißer identifiziere nund aussortieren. Fallanzahl ist relativ klein, schwankt zwischen n = 23 - 30.

Nun habe ich gelesen, dass einflussreiche Fälle diejenigen darstellen, die sowohl eine hohe Diskrepanz (studentisierte Residuen), als auch einen hohen Hebeleffekt (Leverage) haben. Muss ich jetzt diese Werte miteinander vergleichen, oder reicht ein Distanzmaß wie Cooks D dafür aus? Bin bisschen verwirrt ...

LG,

Anza94
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer identifizieren

Beitragvon PonderStibbons » Fr 31. Mär 2017, 16:17

möchte ich gerne Ausreißer identifiziere nund aussortieren.

Was meinst Du genau mit Ausreißer, und wieso willst Du sie identifizieren und Deinen Datensatz durch ihre Herausnahme manipulieren?
Nun habe ich gelesen, dass einflussreiche Fälle diejenigen darstellen, die sowohl eine hohe Diskrepanz (studentisierte Residuen), als auch einen hohen Hebeleffekt (Leverage) haben.

Einflussreiche Fälle, ist das mit Ausreißer gemeint? Aber wieso sollen die raus?

LG,
[/quote]
wtf

Mit freundlichen Grüßen

Ponderstibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Ausreißer identifizieren

Beitragvon bele » Fr 31. Mär 2017, 16:17

Hallo Anza94,

wäre es vielleicht der passendere Ansatz, ein bereits etabliertes Verfahren der robusten linearen Regression zu verwenden, statt eines selbst erfinden zu wollen? Oft haben schlauere Leute schon bessere Lösungen gefunden und sich auf deren Arbeiten zu beziehen verkürzt dann den Material&Methoden-Teil der Arbeit. Wenn man dann noch eine bereits fertig programmierte Lösung in seiner Statistiksoftware hat, ist die Fehlerwahrscheinlichkeit allemal geringer, als bei selbstgestrickten Lösungen.

Lineare Regression mit Weglassen störender Werte bietet zum Beispiel Least trimmed squares Regression:
https://en.wikipedia.org/wiki/Least_trimmed_squares

Ähnliches dazu: https://en.wikipedia.org/wiki/Robust_regression

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

Re: Ausreißer identifizieren

Beitragvon Anza94 » Sa 1. Apr 2017, 15:55

Mit "einflussreich" meine ich Fälle, die das Schätzergebnis des Modells stark verzerren, weil sie z.B. einen hohen Hebeleffekt haben. Daher will ich sie ja auch erkennen und aus dem Modell rauswerfen. Der Datensatz wird nicht "manipuliert", da ich in meiner Arbeit die Ergebnisse mit und ohne Ausreißer kontrastiere. ;)

Die Frage ist halt nun: Wie werden einflussreiche Fälle im multiplen OLS-Regressionsmodell am besten diagnostiziert?
1. Mittels Einflussmaß (Cooks D)?
2. Durch die Hebeleffekte (Leverage Value)?
3.Oder doch Diskrepanz / Distanz (studentisierte Residuuen)?
4. Oder ein Mix aus allem?

Es scheint so zu sein, dass ein einflussreicher Fall durch einen hohen Leverage, als auch durch eine große Distanz zur Regressionsgeraden (Diskrepanz) als Ausreißer auffällt. Nach dieser Logik: Fall mit hohem Leverage-Value Ausreißer, mit niedrigem Cooks D Value kein Ausreißer => Kein einflussreicher Fall.
Wenn nun aber auch auffällig großer Wert in Cooks D, dann => einflussreicher Fall, weil in beiden Maßen als Ausreißer auffällig.

Inwiefern trifft diese Logik zu, oder verstehe ich sie falsch?

Ich habe es bislang so gemacht, dass ich den einflussreichsten Fall nach Cooks D aussortiert habe, weil ich dachte der ist aussagekräftig genug. Es hat sich auch auf das Modell fast immer positiv ausgewirkt, niedrigerer Standartfehler und Kollinearität.
Die robuste Regression als ausreißerresistentes Verfahren ist eine gute Idee, leider lohnt sich die gewichtete Regression nicht bei meiner niedrigen Ausreißeranzahl. Es werden ja nur maximal 1 bis 2 Fälle aussortiert.

Eine neue Methode wollte ich jetzt nicht entwickeln, weiß nicht wie du darauf kommst? :D Das traue ich mir bei weitem nicht zu.

LG
Anza94
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 23. Jan 2017, 11:35
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste

cron