Fehlende Werte durch Elimination von Outliern

Fragen, die sich auf kein spezielles Verfahren beziehen.

Fehlende Werte durch Elimination von Outliern

Beitragvon Petrus » So 3. Aug 2014, 18:31

Hallo Forum!

Ich arbeite im Moment im Rahmen meiner Abschlussarbeit mit einem Datensatz, der N = 40 enthält, aufgeteilt in n = 20 pro Gruppe

Ich habe zuerst fehelnde Werte ersetzt (EM-Algo.), dann Outlier gesucht und entweder eliminiert oder "winsorized", je nach Plausibilität. Damit bin ich im Reinen.

Problem ist nun, dass durch die Elimination bei bestimmten Variablen quasi neue fehlende Werte enstanden sind. Muss ich diese nun erneut schätzen und ersetzen, bevor ich die Normalverteilung prüfen kann? Oder wäre es in Ordnung, dass die Teilstichproben dann einfach um jeweils 2 - 3 n kleiner werden (denn mehr Outlier waren es in keinem Fall!)?

So wie es jetzt aussieht (ohne Outlier) wird nämlich einiges signifikant, was ich gerne so lassen würde. Wenn ich die neu entstandenen fehlenden Werte (entstanden durch Löschen der Outlier) mittels EM schätze, sieht es schlechter aus.

In Lehrbüchern / sonst im Netz findet man zu fehlenden Werten, die durch Elimination von Outliern enstehen, sonst leider gar nichts.

Viele Grüße und Danke!
Petrus
Beobachter
Beobachter
 
Beiträge: 11
Registriert: So 3. Aug 2014, 18:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon Lukki » Mo 4. Aug 2014, 11:42

ich versteh die Beschreibung nicht ganz.

Du hast also Outliner, die du eliminierst? Die folgende Statistik stützt sich dann auf die Daten ohne Outliner, du testest deine Normalverteilung also auch ohne die Outliner und machst deine statistischen Testverfahren auch ohne Outliner. Beantwortet das deine Frage?

Das knackige ist eigentlich die sinnvolle Begründung warum du denn den und den Outliner rausschmeißt. Nur eine Grafik mit der Darstellung der Outliner reicht meiner Meinung nach da nicht aus, weil ja nur dargestellt wird, dass Outliner vermutet werden, aber nicht warum an dem und dem Punkt ein Outliner auftritt.

Hoffe das hilft dir weiter?

beste Grüße,
Lukki
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

folgende User möchten sich bei Lukki bedanken:
Petrus

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon Petrus » Mo 4. Aug 2014, 16:25

Hi,

genau, ich habe Outlier eliminiert, weil sie die Daten total verzerrt haben. Das kann ich inhaltlich rechtfertigen (es handelt sich um Messfehler, die Daten wurden von einer Hilfskraft z.T. falsch abgeleitet (elektronische Signale)).

Durch diese Eliminierung sind die Teildatensätze nicht mehr vollständig, es sind also je Gruppe nur noch 18 oder 17 Messwerte bei bestimmten Abhängigen Variablen. Einzelne Werte fehlen jetzt, diese würde ich gerne durch geschätzte ersetzen, sodass es pro Gruppe wieder 20 Messwerte sind. Ich frage mich jedoch, ob das zulässig ist? Schließlich habe ich dann de facto Werte aus
den Daten durch geschätzte Werte ersetzt.

Noch eine Frage, die gerade aufkommt: Ich habe festgestellt, dass ich meine Daten mittels Transformation normalsieren (also zur Normalverteilung bringen) kann. Kann es sein, dass die Signifikanzen eines T-Tests nach der Transformation anders sind, als vorher? Eine Transformation sollte ja eigentlich nichts an den Abständen zwischen den Datenpunkten ändern, sondern nur an der Verteilung?

Danke!
Petrus
Beobachter
Beobachter
 
Beiträge: 11
Registriert: So 3. Aug 2014, 18:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon Lukki » Mo 4. Aug 2014, 17:10

ich würde es eher als "nicht vorhandene Werte" (die Outliner gehören ja nicht mehr zu deinen Daten) durch "geschätzte Werte" ersetzt beschreiben.

Ob das 100% legitim ist weiß ich nicht, aber ich mache das genauso, wenn ich Outliner eliminiere: z.B. Lichtmessungen, 10 gemessene Werte je Fläche, 2 davon sind Outliner --> Ersetzen durch den MW aus den verbleibenden Werten (der jeweiligen Fläche).

Wichtig ist halt zu bedenken, dass du da bisschen aufpassen musst z.B. mit Kategorien, also du hast zwei Gruppen und da evtl die Kategorie Mann/Frau oder Alter usw. Dann darfst du auch nur innerhalb der Kategorien deinen MW bilden, sonst verzerrt es dir deinen MW durch die unterschiedlichen Messwerte in den Kategorien.

Ich halte diese Lösung für in Ordnung, ich würde das aber mit dem Abschlussarbeitsbetreuer absprechen!

Ein t-Wert ist ja der Mittelwertsunterschied durch die Standartfehlerunterschiede. Durch deine Transformation ändern sich ja die Mittelwertsunterschiede und somit auch der t-Wert, was soviel bedeutet: Ja, Signifikanzen können sich durch Transformation ändern. Wenn du R! benutzt hier ein kleines, triviales Beispiel mit zufällig normalverteilten Daten, die Log-transformiert werden (egal obs jetzt Sinn macht zu transformieren oder nicht^^):
Code: Alles auswählen
test1 <- rnorm(10, 8, 1)
test1
t.test(test1)
test2 <- log(test1)
test2
t.test(test2)


hoffe das hilft dir weiter ;)

beste Grüße,
Lukki
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

folgende User möchten sich bei Lukki bedanken:
Petrus

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon bele » Di 5. Aug 2014, 13:57

Hallo Petrus,

das etwas willkürlich anmutende Streichen von Outliern kann gerechtfertigt sein oder nicht - in jedem Fall gehört das in der Arbeit sehr gut begründet. Das Hinzuerfinden von Daten (Imputation) bedarf auch einer Begründung. Wenn Du ursprünglich einen t-Test zwischen zwei Gruppen à 20 rechnen wolltest, dann rechne doch jetzt einen zwischen kleineren Gruppen (ohne die falschen Daten). Du hast nicht mehr die Information von 20 Daten pro Gruppe und solltest den t-Test daher auch nicht mit 2x20 Daten füttern. Der geht sonst von der falschen Zahl von Freiheitsgraden aus.

Bei multivariaten Datensätzen kann es Gründe für die Imputation geben - beim t-Test m. E. nicht.
Wenn Du so kleine Stichproben hast und die Daten nicht normalverteilt sind, dann solltest Du anstelle von Transformationen auch nichtparametrische Tests ins Auge fassen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Petrus

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon Petrus » Di 5. Aug 2014, 19:41

Hallo!

Danke für euren Input. Das ist mir echt eine Hilfe.

Ich habe mich inzwischen entschieden, die "neuen fehlenden Werte" nicht zu ersetzen, weil ich denke, dass so die Daten zu sehr verzerrt werden. Ich erfinde dann ja quasi neue Fälle bei AVs, die es so gar nicht gab und setze sie für die Outlier ein. Eine Frage noch, die mir sehr wichtig ist. Es geht um die Reihenfolge meines Screenings. Nach Tabachnik (2013) habe ich alle Schritte befolgt, nur die Reihenfolge ist dort nicht beschrieben. Gibt es da Leitlinien?

Die Reihenfolge meines Screenings war folgendermaßen:

1. Fehlende Werte ersetzt, EM-Algorithmus. MCAR war nicht signifikant, also sollte das klar gehen! Problem hier: Manche Werte sind außerhalb des Wertebereichs der AV geschätzt worden (z.B. negativ oder über dem Maximalwert). Diese Werte habe ich dann per Gleitmittelwert ersetzt.
2. Outlier Eliminiert (bei bestimmten Skalen kann ich das inhaltlich rechtfertigen, daher okay) oder winsorized (nächster Werte, der noch in der Verteilung ist annehmen) bei Fragebögen.
3. Normalverteilung geprüft, nach dem Entfernen der Outlier waren die meisten AVs normalverteilt. Falls keine vorlag habe ich Box-Cox angewendet, was meistens funktioniert hat.
4. Varianzhomogenitätstests (Levene)

Meine moralische Hürde ist im Moment, dass mir auch ein anderer Weg zur Verfügung stünde. Ich könnte nämlich auch zuerst alle nicht normalverteilten Variablen transformieren, dann wären kaum Outlier vorhanden, die vorherigen Ausreißer würden mit in die Berechnungen fließen und die Ergebnisse wären komplett dahin, nichts wäre mehr signifikant.

Die beiden Wege sind also:

1. Verteilung prüfen, transformieren, Outlier raus (die wenig übrigen) --> Nichts signifikant
2. Outlier raus, Verteilung prüfen, transformieren --> Viel signifikant

Kann mir jemand sagen, ob es in Ordnung ist, den zweiten Weg zu gehen? Inhaltlich kann ich ja rechtfertigen warum die Outlier fehlerhaft zustande kamen.Zur Alternative mit nicht-parametrischen Tests: Sind nicht-parametrisch Tests denn nicht empfindlich für Outlier? Kann man diese dort ignorieren?

Danke und Viele Grüße!
Petrus
Beobachter
Beobachter
 
Beiträge: 11
Registriert: So 3. Aug 2014, 18:22
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fehlende Werte durch Elimination von Outliern

Beitragvon Lukki » Di 5. Aug 2014, 20:17

Nach Schritt eins sollte Schritt zwei mit den ursprünglichen, nicht transformierten Daten so wie von dir beschrieben legitim sein. Schritt eins muss aber als Vorlaufprozess dokumentiert werden. Bei Schritt 1: Verteilung prüfen, transformieren, Outlier sehen, auf Signifikanzen prüfen; das als Begründung für: Outliner raus, Verteilung prüfen, transformieren, auf Signifikanzen prüfen, nehmen. Warum es Outlier sind und weshalb du sie entfernst musst du gesondert prüfen und begründen.

beste Grüße,
Lukki
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 3 Gäste

cron