Ausreisser ausschließen, wie vorgehen?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Ausreisser ausschließen, wie vorgehen?

Beitragvon Sayaman » Mo 23. Feb 2015, 11:53

Hallo,

Ich suche nach einem verfahren, dass mir nervige Ausreisser aus meinem Datensatz killt.

Ich habe etwa 30 Zeitmessungen durchgeführt und habe genau 3 Messungen, die jenseits von gut und böse sind, auch visuell stark über den anderen zu finden.

Jetzt gibt es evtl. 2 Möglichkeiten damit umzugehen:

a) Entweder ich kille meine 5 größten und die 5 kleinsten Werte und sage ich habe damit die Werte vereinheitlicht.

b) oder ich definier einen relevanten und unrelevanten Raum (z.B. sage ich, ich schaue mir nicht die Werte an die im unteren UND obersten Quantil oder sowas liegen)

Das ganze mache ich nicht im Rahmen einer wissenschaftlichen Arbeit sondern nur im Rahmen eines Nebenjobs, es muss also keiner wissenschaftlichen Prüfung stand halten sondern eben nur nicht komplett willkürlich sein...

Daher suche ich nach Methoden/Verfahren mit diesen Ausreissern umzugehen. Habt ihr vielleicht Tipps? Würdet ihr zu Vorgehensweise a) oder b) greifen?
Sayaman
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mo 23. Feb 2015, 11:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreisser ausschließen, wie vorgehen?

Beitragvon PonderStibbons » Mo 23. Feb 2015, 12:01

Ich suche nach einem verfahren, dass mir nervige Ausreisser aus meinem Datensatz killt.

Inwiefern sind die "nervig" und zu welchem Zweck willst Du sie entfernen?
Ich habe etwa 30 Zeitmessungen durchgeführt und habe genau 3 Messungen, die jenseits von gut und böse sind, auch visuell stark über den anderen zu finden.

Worum geht es denn da konkret bei den Messungen? Was bedeutet "jenseits von
gut und böse" konkret? Gibt es einen Grund für deren jenseits-von-gut-und-böse-
Sein wie zum Beispiel Bedienfehler, oder ist es unbekannt?
a) Entweder ich kille meine 5 größten und die 5 kleinsten Werte und sage ich habe damit die Werte vereinheitlicht.
b) oder ich definier einen relevanten und unrelevanten Raum (z.B. sage ich, ich schaue mir nicht die Werte an die im unteren UND obersten Quantil oder sowas liegen)

Das ergibt beides auf den ersten Blick wenig Sinn, aber über die Daten,
die Studie und den Zweck hast Du bisher auch noch nichts geschrieben.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Ausreisser ausschließen, wie vorgehen?

Beitragvon Sayaman » Mo 23. Feb 2015, 12:15

Ich messe, wielange eine Internetseite zum Aufbau benötigt mit F12 (HTTP-Anforderung), insgesamt 30 mal.(1. Messung)
Anschließend ändere ich etwas und messe wieder 30 mal, wie sich die Zeiten verändert haben (2. Messung)

Die Zeitmessungen (1. Messung) bewegen sich im Bereich von 2,9 bis 3.1 Sekunden. Lediglich 3 Zeitmessungen sind nicht innerhalb dieses Bereichs, (3,8 Sekunden, oder 4,1 Sekunden...)...

Da ich in erster Linie die Änderung zur 2. Messung (noch nicht durchgeführt) darstellen möchte, stören solche Ausreißer. Die Gründe für die Ausreisser sind zu Komplex, sowas kann halt ab und zu vorkommen.

Ich brauche eine statstisch sinnvolle Begründung, warum ich diese Ausreißer nicht betrachte....
Sayaman
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Mo 23. Feb 2015, 11:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreisser ausschließen, wie vorgehen?

Beitragvon PonderStibbons » Mo 23. Feb 2015, 12:41

Ich brauche eine statstisch sinnvolle Begründung, warum ich diese Ausreißer nicht betrachte....

Die ist nicht in Sicht. Es ist nicht so recht nachvollziehbar, wieso
Du 10% der Werte rausschmeißen willst. Deiner Beschreibung nach
sind das vollgültige Messungen, keine Fehler. Die Herausnahme
verfälscht, wie es aussieht, willkürlich die Daten.

Ein robuster Kennwert für schiefe Verteilungen bzw. für Verteilungen
mit "Ausreißern" wäre der Median statt dem Mittelwert. Robuste Schätzer
für den Mittelwert bei Vorliegen von "Ausreißern" sind M-Schätzer.
Die stehen in einigen Statistikprogrammen zur Verfügung.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 4 Gäste