Umgang mit Ausreißern - Einfache lineare Regression

Alle Verfahren der Regressionanalyse.

Umgang mit Ausreißern - Einfache lineare Regression

Beitragvon Stilo » Di 5. Mär 2024, 21:42

Hallo Zusammen,

ich wäre dankbar bzgl. eines Ratschlages zum Umgang mit Ausreißern. Im Zuge meiner Arbeit untersuche den Einfluss verschiedener technischer Input-Faktoren auf die Wirtschaftlichkeit einer Anwendung. Hierbei habe ich eine Metastudie angewendet, indem ich alle Daten aus Papern entnommen habe. Das große Problem ist hierbei, dass ich oftmals mit Missing Values zu kämpfen hatte und deshalb kein multiples Regressionsmodell rechnen konnte. Stattdessen muss ich nun die einzelnen Regressionskoeffizienten - mit Input-Faktoren als unabhängige Variable ggü. der abhängigen Variablen Revenue bzw. Profit - mithilfe einer einfachen linearen Regression bestimmen.

Dabei kommt es oftmals zu Outlinern und ich diese beeinflussen mein Modell erheblich. Ich hatte gedacht mithilfe der Cooks Distanz diese aus dem Datensatz entfernen zu können, jedoch bleiben die Outliner erhalten. Gäbe es andere Verfahren, um diese zu entfernen oder mit ihnen umzugehen.

Vielen Dank vorab und ich bin für jeden Tipp dankbar :D

Bild

Bild
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Umgang mit Ausreißern - Einfache lineare Regression

Beitragvon PonderStibbons » Di 5. Mär 2024, 23:09

Den Abbildungen kann ich nicht auf Anhieb entnehmen, was Du als Ausreißer bezeichnest. Und warum Du Daten entfernen willst.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Umgang mit Ausreißern - Einfache lineare Regression

Beitragvon Stilo » Mi 6. Mär 2024, 11:10

Hallo PonderStibbons,

erstmal danke Dir für die Antwort :)

Als Ausreißer würde ich hierbei die Werte auf der x-Achse bezeichnen (Charging Power bzw. Roundtrip Efficiency (RTE)). Man kann erkennen, dass diese einzelne Datenpunkte enthalten, welche weit von den restlichen Datenpunkten entfernt sind (z.B. 100kW). Das Problem hieran ist, dass diese einen erheblichen Einfluss haben - z.B. RTE bezeichnet die Effizienz eines System, welche mit zunehmenden RTE eigentlich auch einen höheren Umsatz verspricht, jedoch ist der Trend genau umgekehrt.

Ich frage mich, ob es hierzu Methodiken gibt, um mit diesen Ausreißern umzugehen.

Viele Grüße
Stilo
Stilo
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Di 5. Mär 2024, 16:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Umgang mit Ausreißern - Einfache lineare Regression

Beitragvon bele » Mi 6. Mär 2024, 11:40

Hallo Stilo,

Du musst Dir halt überlegen, was Dich an diesen Punkten stört. Sind 100 Charging_Power oder 100 Roundtrip_efficency Messfehler, die nicht stimmen, weil jemand das Komma falsch gesetzt hat? Sind solche Werte insgesamt so selten, dass Du eigentlich eine Betrachtung machen möchtest, die sich auf solche hohe Werte nicht bezieht? Oder sind das echte, valide Punkte aber Du kannst nicht die Annahme treffen, dass der Zusammenhang über einen so weiten Wertebereich linear ist? Danach würde sich dann auch die Herangehensweise ändern. Ausreißer (engl. [i]outlier[/i], nicht outliner) sein allein rechtfertigt noch keinen speziellen Umgang, z. B. Löschung.

Stilo hat geschrieben:Ich frage mich, ob es hierzu Methodiken gibt, um mit diesen Ausreißern umzugehen.


Nur dem Bild folgend (das ist keine ausreichende Begründung) würde ich überlegen, ob man Effizienz nicht vielleicht dem Logarithmus der Revenue gegenüberstellen sollte, vielleicht sähe der Graph dann nicht mehr ganz so wild aus.
Wenn man nur drei Datenpunkte mit Werten von 100 auf der x-Achse hat, kann man überlegen, ob man die weglässt. Dann beziehen sich aber auch alle weiteren Ergebnisse nur auf den Teil der Systeme, die weit weg von 100 sind.
Wenn man einfach nur Angst hat, dass weit entfernte Punkte zuviel Einfluss auf den Kurvenverlauf haben, dann gibt es sog. "robuste Regressionsverfahren" die solchen Punkten weniger Gewicht zuschreiben. Dann muss man die Punkte nicht löschen, aber der Schwanz kann nicht mehr so doll mit dem Hund wackeln.
Es gibt kein Gesetz, dass durch jede Punktwolke immer eine Gerade passen muss. Man könnte Regressionsverfahren verwenden, die in der Lage sind, sich kurvenförmig zu verhalten, beispielsweise in niedrigen x-Bereichen aufsteigend und in hohen x-Bereichen absteigend zu sein. Dann würde ich einem solchen Verfahren in kleinen x-Bereichen mehr trauen, weil da mehr Punkte sind, aber immerhin kann es in tiefen Bereichen steigen, selbst wenn ein paar hohe x-Koordinaten nur kleine y-Koordinaten haben. Im einfachsten Falle betrachtet man eine LOESS-Kurve, man kann der linearen Regression einen quadratischen und einen cubischen Term hinzufügen oder man kann mit cubischen Splines regredieren (z. B. GAM).

Methoden gibt es viele, eine gute inhaltliche Analyse Deines Problems ist die Voraussetzung um eine zu auszuwählen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron