Hallo Stilo,
Du musst Dir halt überlegen, was Dich an diesen Punkten stört. Sind 100 Charging_Power oder 100 Roundtrip_efficency Messfehler, die nicht stimmen, weil jemand das Komma falsch gesetzt hat? Sind solche Werte insgesamt so selten, dass Du eigentlich eine Betrachtung machen möchtest, die sich auf solche hohe Werte nicht bezieht? Oder sind das echte, valide Punkte aber Du kannst nicht die Annahme treffen, dass der Zusammenhang über einen so weiten Wertebereich linear ist? Danach würde sich dann auch die Herangehensweise ändern. Ausreißer (engl.
[i]outlier[/i], nicht
outliner) sein allein rechtfertigt noch keinen speziellen Umgang, z. B. Löschung.
Stilo hat geschrieben:Ich frage mich, ob es hierzu Methodiken gibt, um mit diesen Ausreißern umzugehen.
Nur dem Bild folgend (das ist keine ausreichende Begründung) würde ich überlegen, ob man Effizienz nicht vielleicht dem Logarithmus der Revenue gegenüberstellen sollte, vielleicht sähe der Graph dann nicht mehr ganz so wild aus.
Wenn man nur drei Datenpunkte mit Werten von 100 auf der x-Achse hat, kann man überlegen, ob man die weglässt. Dann beziehen sich aber auch alle weiteren Ergebnisse nur auf den Teil der Systeme, die weit weg von 100 sind.
Wenn man einfach nur Angst hat, dass weit entfernte Punkte zuviel Einfluss auf den Kurvenverlauf haben, dann gibt es sog. "robuste Regressionsverfahren" die solchen Punkten weniger Gewicht zuschreiben. Dann muss man die Punkte nicht löschen, aber der Schwanz kann nicht mehr so doll mit dem Hund wackeln.
Es gibt kein Gesetz, dass durch jede Punktwolke immer eine Gerade passen muss. Man könnte Regressionsverfahren verwenden, die in der Lage sind, sich kurvenförmig zu verhalten, beispielsweise in niedrigen x-Bereichen aufsteigend und in hohen x-Bereichen absteigend zu sein. Dann würde ich einem solchen Verfahren in kleinen x-Bereichen mehr trauen, weil da mehr Punkte sind, aber immerhin kann es in tiefen Bereichen steigen, selbst wenn ein paar hohe x-Koordinaten nur kleine y-Koordinaten haben. Im einfachsten Falle betrachtet man eine LOESS-Kurve, man kann der linearen Regression einen quadratischen und einen cubischen Term hinzufügen oder man kann mit cubischen Splines regredieren (z. B. GAM).
Methoden gibt es viele, eine gute inhaltliche Analyse Deines Problems ist die Voraussetzung um eine zu auszuwählen.
LG,
Bernhard