Hallo liebe Statistiker,
In einem Artikel von Maccullum (2002)* habe ich mich über die Nachteile des Medianssplit-Verfahrens aufklären lassen, wenn man es zur Dichotomisierung einer Variable nutzt. Ich möchte in den mir vorliegenden Daten gerne eine alternative wählen, um Gruppen zu bilden, die ich dann miteinander vergleichen kann. Es wäre toll, wenn die Gruppeneinteilung über statistische Verfahren (Cluster-Analyse, Taxonometrische Verfahren, Faktorenanaylse...) möglich ist. Die Daten stammen aus einem Exp. mit within-participant-design und ein Spatial Ability Test wurde erhoben, um einen vermuteten (H1) zusammenhang zwischen dieser UV und den AVs nachzuweisen.
Daten (n=33):
UV: Spatial Ability Test-Score [1,2,3..-15] (ordinal)
Bei den AVs handelt es sich um Häufigkeiten. Probanden haben in jedem Exp.Trial eine 1(ja) oder eine 0(nein) für alle 4 AVs erhalten. Die Werte die ich nun für die Analyse verwenden möchte, sind agglomerationen über das gesamte Experiment. Ist AV1 von Proband x also 4, so hat er/sie in z.B. 32 Prozent der Trials dieses Merkmal erhalten, sein wert wäre dann 0.32. Er gibt also an wie häufig eine VP eine bestimmte response innerhalb des gesamten experiments gegeben hat. Die AVs schließen sich dabei nicht gegenseitig aus, d.h. es ist möglich das ein Proband in einem Trial x in allen AVs eine 1 hat, weil sein Verhalten alle Merkmale aufweist.
AV1: x [Häufigkeit: prozent z.b 0.23] (interval)
AV2: y [Häufigkeit: prozent z.b 0.23] (interval)
AV3: z [Häufigkeit: prozent z.b 0.23] (interval)
AV4: k [Häufigkeit: prozent z.b 0.23] (interval)
Züruck zur Frage nach dem Zusammenhang zwischen AV und UV. Welches ist hier das beste Verfahren um einen Zusammenhang nachzuweisen? Meine erste Intuition ist eine einfache Spearman-Korrelations Matrix. Hier ist jedoch die Frage, ob das genug ist? Schließlich können die Korrelationen eine koinzidenz sein oder über eine andere (unbekannte) variable vermittelt werden. Was schlagt ihr hier vor?
Die zweite Frage ist nun, ob es einen empirischen Mehrwert hat, wenn ich die Probanden in Gruppen einteilen, um daraufhin mit einem signifikanztest (kruskal wallis bzw. man-whitney) zu überprüfen ob sie aus der gleichen population stammen.
Nun kommen wir zu der oben gestellten Frage. Dazu müsste ich alle Probanden in 2-3 Gruppen einteilen, wobei ein Mediansplit völlig unerklärbar wäre (siehe artikel Maccullum für genaueres). Kann ich über eine Cluster-Analyse oder ein anderes Verfahren eine bessere Einteilung aller Probanden in Gruppen vornehmen? Oder macht es eurer Meinung nach keinen Sinn hier eine Gruppeneinteilung vorzunehmen?
Ich wäre sehr dankbar über Hinweise, Tipps , Kritik und alles was euch einfällt.
Grüsse,
Euer Roboter
*(MacCallum, R. C., Zhang, S., Preacher, K. J., & Rucker, D. D. (2002). On the practice of dichotomization of quantitative variables. Psychological methods, 7(1), 19.)