Ausreißer im Nachinein entfernen

Alle Verfahren der Regressionanalyse.

Ausreißer im Nachinein entfernen

Beitragvon Maggoo » Mi 7. Sep 2011, 09:47

Hallo zusammen,

folgendes Problem:
Ich schreibe zur Zeit meine Diplomarbeit und habe eine Datenbasis, die ich auswerte.
Die Datenbasis ist nicht von mir selber erstellt worden und umschreibt ein komplettes Experimentaldesign.

Nun habe ich eine (multiple) Regressionsanalyse vorgenommen und ein R² von 0,89 erhalten. Soweit so gut.
Als ich die Experimentellen und Berechneten Daten gegeneinander geplottet habe, viel mir auf, dass ein Datenpunkt eine starke Abweichung besitzt (über 20% zwischen dem experimentellen und berechnetem Wert).
Wenn ich diesen aus der Regressionsrechnung rausnehme, bekomme ich ein neues R² von 0,97 also viel besser.

Leider kann ich den Datensatz nicht anhand seiner Rohdaten ausschließen, da dieser keine wirklichen Aufälligkeiten zeigt.

Also es wäre schön, wenn ich irgendwie für meine Diplomarbeit begründen könnte, dass ich den Datensatz rauslasse. Meine DA schreibe ich in einem Unternehmen und die wollen vor allem, dass die Ergebnisse stimmen ;-)

Hat jemand eine Idee?

Vielen Dank
Maggoo
Maggoo
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 7. Sep 2011, 09:29
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer im Nachinein entfernen

Beitragvon daniel » Mi 7. Sep 2011, 10:53

Maggoo hat geschrieben:Also es wäre schön, wenn ich irgendwie für meine Diplomarbeit begründen könnte, dass ich den Datensatz rauslasse. Meine DA schreibe ich in einem Unternehmen und die wollen vor allem, dass die Ergebnisse stimmen ;-)

Naja was soll man zu solch einem Pfusch groß sagen?

Ich schätze für all diejenigen, die dennoch gerne beim unwissenschaftlichen Zurechtbiegen und der Manupulation von Ergebnissen helfen möchten, wäre es sinnvoll etwas mehr vom Inhalt der Studie zu erfahren. Das Löschen von real existierenden Fällen ist m.E. aussschließlich durch inhaltliche Begründung möglich, und selbst dann ist es die schlechteste aller Möglichkeiten.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Ausreißer im Nachinein entfernen

Beitragvon bele » Mi 7. Sep 2011, 12:16

Du nennst es Pfusch, ein anderer nennt es vielleicht den gesunden Menschenverstand. Es gibt Messfehler, es gibt Erhebungs- und Übertragungsfehler und deshalb haben die Statistiker Maße wie den getrimmten Mittelwert überhaupt erst erfunden. Und warum raten wir denn dazu alle Daten visuell zu überprüfen wenn wir nachher dem visuellen Befund keine Bedeutung beimessen und einfach nach Schema weiter auswerten?

Hier gibt es m. E. zwei widersprüchliche Ziele: Eine Diplomarbeit soll wissenschaftlichen Ansprüchen genügen, und da wird man erwarten dass Du Dir die Daten nicht zurecht biegst. Die Firma wird vllt. der These eines singulären Messfehlers die größte Likelihood zusprechen und ihre Entscheidungen lieber aufgrund der Daten ohne den "Messfehler" fällen wollen.

Ohne die Situation im Einzelnen zu kennen schlage ich folgendes Vorgehen vor, dass Du aber noch für Dich prüfen musst: Beweise Deine Kenntnisse über die korrekte wissenschaftliche Vorgehensweise durch Auswertung des Experiments einschließlich des Ausreißers und zeige Deine sachbezogene Bewertung der Situation durch zusätzliche Darstellung der Ergebnisse wie sie ohne den Ausreißer gewesen wären: Ich würde beides darstellen und klar beschreiben, welche Auswertung für welchen Zweck gedacht ist.

Gruß,
Bernhard



Es bestehen weder verbindliche Richtlinien für den Umgang mit Ausreißern noch festgelegte Standardverfahren, um diese überhaupt erst zu identifizieren. Vielmehr ist es entscheidend, zu verstehen, ob die extremen Werte eher Fehler oder Ausnahmen darstellen, die man entweder korrigieren oder eliminieren sollte oder ob man sie schlichtweg nicht beachtet.
[...]
Sollte all dies nicht dazu führen, dass die Probleme mit den Ausreißern gelöst werden
können, so ist eine reine Elimination der Beobachtungen denkbar. Sie sollte jedoch das
letzte Mittel bleiben und gut dokumentiert werden
aus: http://tinyurl.com/goerke-ausreisserwerte
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

folgende User möchten sich bei bele bedanken:
Maggoo

Re: Ausreißer im Nachinein entfernen

Beitragvon PonderStibbons » Mi 7. Sep 2011, 12:34

Nun habe ich eine (multiple) Regressionsanalyse vorgenommen und ein R² von 0,89 erhalten. (...) Wenn ich diesen aus der Regressionsrechnung rausnehme, bekomme ich ein neues R² von 0,97 also viel besser.

Was ist denn daran "viel besser"? Das ist doch völlig marginal. Dafür willst Du den Datensatz extra ändern?

Was viel mehr Sorge bereitet: wenn Dein R² tatsächlich 0,89 oder gar 0,97 beträgt, dann ist Deine Arbeit im Normalfall entweder völlig banal (weil solche extrem engen Zusammenhänge in der Regel bereits bekannt sind), oder Du hast viel zu viele Prädiktoren bei viel zu wenigen Beobachtungen und Deine Ergebnisse sind weder wissenschaftlich noch praktisch sonderlich verwendbar, da das Modell überdefniert und kaum übertragbar/generalisierbar wäre.

Da zu Fragestellung, Design und Fallzahl nichts verlautet wurde, ist da kaum Rat zu geben.

Gruß

P.
---
Gottseidank...Kanon für 36
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Ausreißer im Nachinein entfernen

Beitragvon daniel » Mi 7. Sep 2011, 17:07

bele hat geschrieben:Es gibt Messfehler, es gibt Erhebungs- und Übertragungsfehler und deshalb haben die Statistiker Maße wie den getrimmten Mittelwert überhaupt erst erfunden. Und warum raten wir denn dazu alle Daten visuell zu überprüfen wenn wir nachher dem visuellen Befund keine Bedeutung beimessen und einfach nach Schema weiter auswerten?

Ich stimme bis hier vollkommen zu. Ebenso allerdings auch der von Dir zitierten Aussage
[...] eine reine Elimination der Beobachtungen [...] sollte jedoch das letzte Mittel bleiben [...]
(Hervorhebungen nicht im Original)


Und aus der Argumentation
Wenn ich diesen aus der Regressionsrechnung rausnehme, bekomme ich ein neues R² von 0,97 also viel besser.

Leider kann ich den Datensatz nicht anhand seiner Rohdaten ausschließen, da dieser keine wirklichen Aufälligkeiten zeigt.

Also es wäre schön, wenn ich irgendwie für meine Diplomarbeit begründen könnte, dass ich den Datensatz rauslasse. Meine DA schreibe ich in einem Unternehmen und die wollen vor allem, dass die Ergebnisse stimmen ;-)


muss ich schließen, dass die Rohwerte (was immer das heißen mag) des "Ausreißers" keinesfalls auffällig sind. Ein Übetragungsfehler oder offensichtlicher Messfehler liegen demnach wohl nicht unbedingt vor, bzw. ist kaum plausibel zu begründen. An Fehlspezifikation oder Vernachlässigung eines Prädikators, dessen Inklusion den Ausreißer erklären könnte wurde offenbar noch gar nicht gedacht. Beim "letzten Mittel" ist der Verfasser daher m.E. noch lange nicht angekommen.
Die Begründung die jetzt da steht ("höheres R2", "die Ergebnisse sollen stimmen") ist und bleibt für mich Pfusch, sorry.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: Ausreißer im Nachinein entfernen

Beitragvon Maggoo » Mi 7. Sep 2011, 17:55

Hallo nochmal,

erstmal danke für die Antworten.
So...dann zum Pfusch :-)
@Daniel: Mir ist es durchaus bewusst, dass aus wissenschaftlicher Sicht eine spätere "Anpassung" der Daten nicht möglich ist. Ich sogar auf dem Weg bin, mir eine künstliche Anpassungsgüte zu erschleichen.
Aber was bringt mit das tollste Experiment, wenn das Ergebnis am Ende nicht weiterverwendet werden kann?
Wie Bele schon richtig angemerkt hat, ist dies der Spagat, den ich zurzeit zwischen Wissenschaft und Praxis bewältigen muss (der mir auch nicht gefällt).
Aber Momentan "gefallen" die Ergebnisse nicht und mehr zählt leider für die Praxis nicht...

@bele: Danke...an die Zweigleisigkeit der Ergebnisse hatte ich auch schon gedacht. Wahrscheinlich werde ich es auch so umsetzen.

@PonderStibbons: Im ersten Fall (ohne spätere Anpassung) hatten die berechneten Werte teilweise die experimentell ermittelten um bis zu 20 % unterschieden.

Vielleicht noch etwas mehr zum Hintergrund:
Meine DA behandelt ein Produkt. Die Firma kann verschiedene Faktoren anpassen um die Leistung des Produkts zu erhöhen. Meine Regressionsrechnung hat zur Zeit drei unabhängige Variablen (durch SPSS mittels Schrittweiser Regression ermittelt), welche zwei bis drei Ausprägungen haben und eben als abhängige Variable die Leistung des Produkts.
Ziel soll eine Vorhersage sein, wieviel Leistung das Produkt bei geänderten Variablen erreicht. Zumindest bis zum derzeitigen Stand.

Mit allen Daten kam es, wie gesagt, teilweise zu 20% Abweichung. Und glaubt mir, wenn ich nachher in der Firma meine Methode vorstelle und das eigene Produkt viel zu schlecht oder zu gut bewertet wird, heißt es gleich "Ablage Rund" :-)

Vielleicht das zu meinem "kleinen" Dilemma.

Gruß
Maggoo
Maggoo
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mi 7. Sep 2011, 09:29
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer im Nachinein entfernen

Beitragvon STATWORX » Mi 7. Sep 2011, 18:11

Wenn es um die exakte Prognose von Messwerten im naturwissenschaftlichen/technischen Bereich geht, kann man m.E. das gewählte Vorgehen durchaus vertreten. Stark abweichende Messpunkte, bspw. durch Fehler in den Messinstrumenten oder zufällige Schwankungen der Messparameter, können u.U. den Fit der Regressionsgeraden stark verzerren, sodass die daraus resultierenden Prognosen nicht mehr brauchbar sind. Es muss selbstverständlich kritisch evaluiert werden, was der Grund für die starke Abweichung der Messung zu den restlichen ist.

VG
STATWORX
Foreninhaber
Foreninhaber
 
Beiträge: 85
Registriert: Di 14. Jun 2011, 19:45
Danke gegeben: 0
Danke bekommen: 18 mal in 18 Posts

Re: Ausreißer im Nachinein entfernen

Beitragvon PonderStibbons » Mi 7. Sep 2011, 21:50

Der springende Punkt ist eben, wenn so gut wie gar nichts zum Gegenstand und zum Design einer Studie verlautbart ist, kann man es kaum triftig kommentieren. Häufig z.B. kann man Analysen, die "stepwise" zur Variablenselektion verwenden, ohne Umschweife in die Tonne kloppen, weil sie weder wissenschaftlich-theoretisch noch angewandt-praktisch aussagekräftig sind.

Gruß

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Ausreißer im Nachinein entfernen

Beitragvon bele » Mo 12. Sep 2011, 22:10

Maggoo hat geschrieben:So...dann zum Pfusch :-)
[...]
Mit allen Daten kam es, wie gesagt, teilweise zu 20% Abweichung. Und glaubt mir, wenn ich nachher in der Firma meine Methode vorstelle und das eigene Produkt viel zu schlecht oder zu gut bewertet wird, heißt es gleich "Ablage Rund" :-)

Vielleicht das zu meinem "kleinen" Dilemma.


Ok, damit hast Du mich von daniels Auffassung überzeugt: Es geht eben doch um Pfusch. Auch wenn wir zu den Details Deiner Studie nichts wissen, wir wissen jetzt was über Deine Motivation. Bei meiner Argumentation bin ich wie Statworx davon ausgegangen, dass Du Deine Auftraggeber mit einer möglichst exakten Prognose versorgen willst. Dazu solltest Du die beste verfügbare Statistik wählen. Selbst wenn sie unkonventionell ist.

Wenn Du aber nur verhindern willst, dass Deine Daten in der ungewünschten Ablage landen, wenn das der Antrieb zur Manipulation des Datensatzes ist, dann ist das in meinen Begriffen Pfusch.

Gruß,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron