Welches Vorgehen für missing data / fehlende Werte?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Welches Vorgehen für missing data / fehlende Werte?

Beitragvon Nanina » Fr 26. Nov 2021, 01:56

Hallo :-)

Um mich für ein Vorgehen hinsichtlich missing data zu entscheiden, habe ich nun zahlreiche Paper, Webseiten und Videos konsumiert und bin zwar schlauer als vorher, aber noch nicht sicher, welches Verfahren für meine Daten am besten geeignet ist. Ich nutze SPSS 27.

Ich habe in der Studie 5 Stichproben mit jeweils 75-80 Personen. In jeder Stichprobe wurden die gleichen Fragen und Fragebögen beantwortet, die Stichproben unterscheiden sich nur hinsichtlich der Teilnehmer. Vier klinische Gruppen mit unterschiedlichen Diagnosen (USA und DE) und zwei gesunde Kontrollgruppen (USA und DE). Ich mache die Datenbereinigung aktuell innerhalb jeder Stichprobe einzeln, da einzelne Stichproben schon abgeschlossen sind und andere noch nicht.

Insgesamt hat jedes Datenset 250 Variablen. Es fehlen hier und da einzelne Werte, offensichtlich wurden diese von den Teilnehmern bei der Beantwortung übersehen. Little's Test zeigt an, dass die fehlenden Werte "missing completely at random" erfüllen, was sich sowohl aus der Analyse der fehlenden Werte als auch augenscheinlich auch so präsentiert. Es sind allgemein auch nur wenige fehlende Werte, aus ~19.000 Werten fehlen insgesamt knapp 100 (0,005%).

Dennoch sind einige Werte davon wichtig, um aus Reihen von einzelnen Items Summen für die Skalen und Gesamtscores der Fragebögen zu berechnen. Da immer nur mal zwischendurch ein Wert fehlt, macht es für mich inhaltlich am meisten Sinn, diesen fehlenden Wert *pro Teilnehmer* am *Wert der übrigen Antworten zu der spezifischen Fragebogen-Skala bzw. Subskala für diese Person* zu orientieren, da diese in der Regel hoch korreliert sind.

Soweit ich mich nun belesen habe, kommt dafür "person mean imputation" (inhaltlich sinnvoll, subskalenorientiert) und "expectation-maximization" (inhaltlich sinnvoll, subskalenorentiert, wie im Video von how2stats hier: https://www.youtube.com/watch?v=4yhpYKzW98M und https://www.youtube.com/watch?v=xEkJxl6mmQ0) in Frage. Um ehrlich zu sein, bin ich auch nur begrenzt willens, sehr komplizierte Prozeduren anzuwenden für 0,005% der Werte :roll: , da kommen mir diese beiden scheinbar einfacheren Möglichkeiten doch sehr entgegen.

Frage ist nun: Kann man das so machen? Spricht etwas gegen die eine oder andere Methode, was ich bisher nicht bedacht habe? Ist das alles Quatsch, und ich muss unbedingt ein extrem involviertes Verfahren nutzen, in das ich mich erstmal gründlich einlesen sollte? :)

Vielen Dank und schöne Grüße!
Nanina
Nanina
User
User
 
Beiträge: 49
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Welches Vorgehen für missing data / fehlende Werte?

Beitragvon strukturmarionette » Fr 26. Nov 2021, 15:58

Hi,

bei:
"missing completely at random"

sind modellbasierte Verfaren erste Wahl

- bspw bei SAS. Lisrel oder AMOS implementiert

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste

cron