Ausreißer (ersetzen)

Fragen, die sich auf kein spezielles Verfahren beziehen.

Ausreißer (ersetzen)

Beitragvon paula1 » Fr 10. Apr 2015, 09:50

Ich habe ziemlich viele Ausreißer bei einer kleinen Stichprobe (29 Versuchspersonen), weshalb ich ungern alle Ausreißer löschen würde.
Zudem empfielt field (2009) die Ausreißer nicht zu löschen, sondern durch geeignete Werte zu ersetzen.
Hierfür macht er Vorschläge, die ich nicht verstehe bzw. mir für mein Problem nicht angemessen erscheinen.

1) Die Ausreißer durch den nächst höchsten Werte zu ersetzen und mit eins zu addieren
(Ich rechne mir Rohwerten und verschiedenen Messinstrumenten. Der Wert "eins" hat bei den verschiedenen Messinstrumenten einen unterschiedlichen Wert und ich denke, dann sind sie nicht mehr gut miteinander vergleichbar. Zudem habe ich teilweise auf einer Variablen mehrere Ausreißer, die hätten dann alle den gleichen Wert. Abgesehen davon, dass ich das schon komisch fänd wird dann wohl auch keine Normalverteilung zustande kommen

2) Bei der nächsten Option bin ich mir nichht sicher, ob ich sie richtig verstanden habe.
Nach meinen Englischkenntnissen. Soll ich 3 mal die Standardabweichung rechnen und zu dem Mittelwert addieren.
Aber: Dann bekomme ich doch von der Definition her einen Ausreißer? Und genau das ist auch passiert: der so errechnete
Wert ist größer als mein Ausreißer. Ich verstehe das nicht. Daher den Vorschlag von Field im Original:

Convert back from a z-score: A z-score of 3.29 constitutes an outlier (see Jane
Superbrain Box 4.1) so we can calculate what score would give rise to a z-score
of 3.29 (or perhaps 3) by rearranging the z-score equation in section 1.7.4, which
gives us X = (z × s) + X-. All this means is that we calculate the mean (X-) and
standard deviation (s) of the data; we know that z is 3 (or 3.29 if you want to be
exact) so we just add three times the standard deviation to the mean, and replace
our outliers with that score.

Kann mir das jemand erklären?

Ich wäre für jede Hilfe sehr dankbar!
paula1
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Mi 4. Feb 2015, 18:15
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer (ersetzen)

Beitragvon PonderStibbons » Fr 10. Apr 2015, 10:46

Zudem empfielt field (2009) die Ausreißer nicht zu löschen, sondern durch geeignete Werte zu ersetzen.

Oder unangetastet zu lassen. Wenn Du bei n=29 "viele" sogenannte Ausreißer hast ,
manipulierst Du sonst massiv Deine Daten.

Weswegen interessieren Dich denn überhaupt sogenannte Ausreißer in Deinen Daten,
wieso und zu welchem Zweck willst Du Daten verändern?

Mit freundlichen rüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Ausreißer (ersetzen)

Beitragvon paula1 » Fr 10. Apr 2015, 15:53

Ja, da hast du auch recht.
Um ehrlich zu sein, hatte ich gehofft dadurch eine Normalverteilung zu erreichen.
(Transformationen haben nichts gebracht) Aber so verfahre ich dann wahrscheinlich
auch nicht besonders elegant...Hast du eine literaturempfehlung zum Umgang mit
Ausreißern? ich habe bisher nichts gefunden, was mit wirklich weiterhilft und
finde es schwierig die Situation selber einzuschätzen.

Vielen Dank und liebe Grüße!
paula1
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Mi 4. Feb 2015, 18:15
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer (ersetzen)

Beitragvon PonderStibbons » Fr 10. Apr 2015, 15:57

Hast du eine literaturempfehlung zum Umgang mit Ausreißern?

Da Du nicht schreibst, wieso Dich Ausreißer bekümmern bzw. wozu es gut sein
soll, durch Datenmanipulation eine Normalverteilung zu erzeugen, ist es
sehr schwierig, etwas zu empfehlen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Ausreißer (ersetzen)

Beitragvon paula1 » So 12. Apr 2015, 12:23

Ich möchte eine MANOVA rechnen und dafür brauche ich
eine Normalverteilung meiner Daten.

Vielen Dank!
paula1
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Mi 4. Feb 2015, 18:15
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer (ersetzen)

Beitragvon PonderStibbons » Mo 13. Apr 2015, 09:16

Ich möchte eine MANOVA rechnen und dafür brauche ich
eine Normalverteilung meiner Daten.

Nein, Daten müssen für varianzanalytische Verfahren nicht normalverteilt sein.
Allenfalls die Residuen sollten normalverteilt sein (korrekt formuliert: aus
normalverteilten Grundgesamtheiten stammen). Andere Voraussetzungen sind
bei der MANOVA ohnedies weitaus wichtiger.

Wie wäre es denn damit, auf MANOVA zu verzichten und eine Reihe von
"nonparametrischen" Verfahren zu rechnen. Eine Vielzahl von Problemen
ließe sich damit umgehen.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Ausreißer (ersetzen)

Beitragvon paula1 » Mo 13. Apr 2015, 11:49

Für die MANOVA muss man meiner Meinung nach eine Normalverteilung der Variablen nachweisen,
für andere varianzanalytische Methoden sind es die Risiduen.
Wahrscheinlich ist es besser ein nonparametrisches Verfahren zu nutzen. Aber ich wollte untersuchen,
ob die Voraussetzung auch wirklich verletzt sind, bevor ich mich für ein nonparametrisches Verfahren entscheide
(denn sonst nehme ich ja ein schlechteren test in Kauf). Kennst du geeignete nonparametrsiche Verfahren?
Als problematisch sehe ich in diesem Fall, dass ich mehrere Variablen habe und so den Alpha-Fehler kommulieren
würde. Wie siehst du das? Oder gibt es auch ein nonparametrsiches Verfahren bei dem ich mehrere Variablen
gleichzeitig berechnen kann?

Vielen vielen Dank für deine Hilfe und Antwort!
paula1
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Mi 4. Feb 2015, 18:15
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer (ersetzen)

Beitragvon strukturmarionette » Mo 13. Apr 2015, 12:16

Hi,

- du könntest zunächst einmal Deine Untersuchung darstellen und mitteilen, welche Fragestellungen Du beantworten willst. Auch: Warum MANOVA?
- des Weiteren eine Variablenbeschreibung aller relevanten Messwerte mitteilen (incl Stichproben- und Teilstichprobenumfänge)

- Gleichwertige nichtparametrsiche Verfahren zu varianzanalytischen Prozeduren existieren nicht.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4356
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 587 mal in 584 Posts

Re: Ausreißer (ersetzen)

Beitragvon DHA3000 » Mo 13. Apr 2015, 12:19

Nein, man muss die NV nicht zwingend nachweisen. Der ZGS postuliert dies bei ~20 Beobachtungen für deine Variable.
Ob die Outlier evtl. einen Einfluss haben, kannst du testen. Ansonsten bietet es sich auch noch an, einen nicht-parametrischen
Test durchzuführen, um deine bisherigen Ergebnisse zu unterstützen.

Du schreibst leider nicht, wieviele Outlier du hast und wie du diese definierst. Ich halte aber von irgendwelchen Transformationen
ebenso wenig etwas. Vor allem bei n=29.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Ausreißer (ersetzen)

Beitragvon paula1 » Di 14. Apr 2015, 17:43

Hi!

Vielen Dank für die Antworten! Das hat mich sehr gefreut! Natürlich sollte ich meine Studie erst mal ein bisschen genauer erklären…
Es handelt sich um eine kleine Untersuchung innerhalb einer größeren Studie. Es sollen zwei Therapieprogramme (gegen ADHS) getestet werden. Dafür soll ich drei Messinstrumente (Conners, Qb-Test, KiTAP) verwenden (hat meine Anleiterin so vorgesehen). Diese messen alle (teilweise) unterschiedliche ADHS-Symptome. Conners: allgemein ADHS-Symptomatik, Peer- und schulische Probleme (zwei weitere Variablen, die mich neben der ADHS-Symptomatik interessieren); Qb-test: drei Kernsymptome der ADHS (Impulsivität, Unaufmerksamkeit und Hyperaktivität); Kitap: verschiedene Maßen von Aufmerksamkeit (Daueraufmerksamkeit, Geteilte Aufmerksamkeit und selektive Aufmerksamkeit).

Daraus ergeben sich folgende Variablen jeweils zu T1 und T2:

Unaufmerksamkeit (Qb-test)
Impulsivität (Qb-test)
Hyperaktivität (Qb-test)
Daueraufmerksamkeit (Kitap)
Geteilte Aufmerksamkeit (Kitap)
selektive Aufmerksamkeit (Kitap)
ADHS-Index 1 (Conners)
Schulische Probleme (Conners)
Peerbezogene Probleme (Conners)

Von allen Variablen habe ich zwei Messzeitpunkte. Die Mittelwerte beiden Therapiebedingungen möchte ich zu beiden Messzeitpunkten miteinander vergleichen. Also: 1)Verbessert sich die ADHS-Symptomatik für die jeweilige Therapie
2)Verbessert eine Therapie die ADHS-Symptomatik stärker als die andere.

Dafür möchte ich eine MANOVA rechnen, weil man so Mittelwerte mit einander vergleichen kann. Das multivariate Verfahren ermöglicht mir meherer Variablen gleichzeitig zu untersuchen und so eine Alpha-Fehler-Kummulierung zu vermeiden.

Da die Studie Teil einer größeren Untersuchung ist, die noch nicht abgeschlossen wurde, fehlt für viele Versuchspersonen mindestens ein Messinstrument. Insgesamt sind es 73 Versuchspersonen, wenn ich nur diejenigen drin lasse, die zu allen Zeitpunkten alle Messinstrumente gemacht haben, sind es 29 Versuchspersonen. Deshalb möchte ich paarweisen Fallausschuss machen (habe ich das richtig verstanden?  Für jede Variable werden alle Versuchspersonen analysiert, die auf dieser Variable einen Wert haben).
Dann hätte ich für die verschiedenen Tests jeweils eine Stichprobe von 38-46 Versuchspersonen.

Die Ausreißer (14 Werte) habe ich durch einen plausiblen Werte mittels Winsonierung ersetzt (der Ausreißer wird durch den Wert derjenigen Variable ersetzt, die den nächst höheren Wert hat).

Dennoch bleiben relativ viele Variablen nicht normal verteilt (auch nicht nach einer Logarithmierung). Das sind insgesamt 12 Variablen nach dem Kolmogrov-Smirnov test. Da dieser sehr streng ist, sollen zusätzlich weitere Testverfahren genutzt werden. Ich habe die Normalverteilung mittels Q-Q-Diagrammen sowie Kurtosis und Schiefe bestimmt. Der letzte Test hat für 5 Variablen angegeben, dass diese normal verteilt sind (vier davon wurden auch bereits von dem Kolmogrov-Smirnov test als normalverteilt betrachtet).

Ich würde wie folgt Argumentieren: Der Kolmogrov-Smirnov test ist sehr streng, daher wurden zusätzlich weitere Testverfahren betrachtet. Es werden nur Variablen als nicht normalverteilt betrachtet, bei denen sowohl der Kolmogrov-Smirnov test signifikant wird, als auch die Werte für Kurtosis und/oder Schiefe auf einer Normalverteilung hinweisen. Das betrifft insgesamt vier Variablen. Diese Variablen wurden von zwei unterschiedlichen Messinstrumenten gemessen (Qb und KiTAP), aufgrund des paarweisen Fallausschuss haben beide eine unterschiedlich große Stichprobe die ein (40 und 46 Versuchspersonen). Ab einer Stichprobe von größer/gleich 40 Versuchspersonen ist die MANOVA robust gegen die Voraussetzungen einer Normalverteilung. (Als Belegt könnte ich eine Studie zitieren, die belegt, dass die MANOVA bei 40 Versuchspersonen robust gegenüber der Verletzung der Normalverteilungsannahme ist. Ich weiß allerdings nicht, ob das ausreicht. Habe den Verweiß in einer anderen Diplomarbeit gelesen, aber bin mir nicht sicher, ob man das wirklich so machen kann).

Mit der Prüfung der anderen Voraussetzungen fange ich jetzt gleich an  !

Meine Fragen bis jetzt:
1. Ist mein bisheriges Vorgehen in Ordnung? Habt ihr einen anderen Vorschlag? Ich habe das Gefühl, dass ich mir das mit der Normalverteilung alles so ziemlich zusammen bastele (ist ja auch so), glaube aber auch das es oft so gemacht wird und denke, dass es vielleicht so in Ordnung ist, was meint ihr?

2. Ich habe ziemlich viele Variablen, sollte ich die noch weiter zusammenfassen? Ich habe lediglich Hypothesen über die ADHS-Symptomatik im allgemeinen und nicht die verschiedenen ADHS Symptome (Unaufmerksamkeit, Impulsivität und Hyperaktivität oder die verschiedenen Aufmerksamkeitskomponenten: Dauerausfmerksamkeit, Geteilte Ausfmerkskeit usw.) Sofern die Variablen korrelieren könne ich diese Zusammenfassen. Dann hätte ich:
Einen Wert für die ADHS-Symptomatik (ConnersFragebogen)
Einen Wert für die ADHS-Symptomatik (Qbneurologisches Testverfahren)
Einen Wert für Aufmerksamkeit (KiTAPneurologisches Testverfahren)
Einen Wert für Peer-Beziehungen (ConnersFragebogen)
Einen Wert für schulische Probleme (ConnersFragebogen)

3. Ich habe noch ein paar Fragen an den Kommentar von DHA3000.

Was ist die ZGS und gibt es einen Literaturhinweis dafür?
Wie kann ich testen, ob die Ausreißer einen Einfluss haben?
Sollte ich sowohl ein parametrisches als auch nonparametrisches Verfahren rechnen?

Vielen Dank für die Hilfe bis jetzt, das ist wirklich sehr sehr nett und hat mir schon gut weiter geholfen!
paula1
Beobachter
Beobachter
 
Beiträge: 11
Registriert: Mi 4. Feb 2015, 18:15
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste

cron