Hallo Miteinander,
ich bin gerade dabei für meine Abschlussarbeit mein Experiment auszuwerten und würde sicherheitshalber gern die Meinung von Euch Experten zu den gewählten Tests wissen.
Versuchsaufbau:
Ich möchte untersuchen, ob Probanden in der Lage sind eine Aufgabe besser zu lösen, wenn sie eine Unterstützung erhalten. Hierfür bekommen die Probanden im 1. Durchlauf eine Aufgabe, die sie ohne Unterstützung (Treatment 1) bearbeiten. Im 2. Durchlauf erhalten sie eine vergleichbare Aufgabe, die sie nun aber MIT Unterstützung (Treatment 2) bearbeiten. In Durchlauf 1 und 2 werden unterschiedliche Aufgaben eingesetzt, damit kein Lerneffekt entsteht. Der Typ der Aufgabe ist jedoch ähnlich. Außerdem erhalten alle Probanden erst im zweiten Durchlauf die Unterstützung, damit kein Überlagerungseffekt entsteht und evtl. Einflüsse aus der Unterstützung den Durchlauf ohne Unterstützung beeinflussen könnte.
Ich habe also 2 UVs a 2 Ausprägungen, die nominalskaliert sind:
(1) X = Treatment 1 (ohne Unterstützung) und Treatment 2 (mit Unterstützung)
(2) Y = Aufgabenmaterial 1 und Aufgabenmaterial 2.
Fall 1 (Fragebogen): Ich habe 4 AVs (ordinalskaliert). Die Probanden sollten jeweils einen Fragebogen ausfüllen, wobei anhand einer 5-Punkt-Likert-Skala eine Bewertung für ein bestimmtes Kriterium abgegeben werden sollte, z.B. Wie sicher haben Sie sich bei der Bearbeitung der Aufgabe gefühlt?
Fall 2 (Bewertung): Ich habe anhand festgelegter Kritierien die von den Probanden bearbeiteten Aufgaben bewertet und verschiedene Arten von Auffälligkeiten gezählt. Auch hier haben ich 4 AVs (intervallskalliert).
Ich habe insgesamt 20 Studienteilnehmer.
Das ganze habe ich aufgrund von Mangel an Probanden als Kreuzexperiement durchgeführt. D.h. Alle Probanden haben im 1. Durchlauf die Aufgabe OHNE Unterstützung bearbeitet. 10 Probanden haben dabei mit dem Aufgabenmaterial 1 und die anderen 10 Probanden mit dem Aufgabenmaterial 2 begonnen.
Ziel:
(1) Ich möchte gern nachweisen, dass das Treatment einen Effekt auf die entsprechenden AVs hat, d.h. dass MIT Unterstützung die Welt besser ist.
(2) Ich möchte zeigen, dass es keinen Einfluss durch das Aufgabenmaterial gab. (Und im Umkehrschluss, dass es einen signifikanten Einfluss durch das Treatment gab.)
Vorgehen und eingesetzte Tests:
Vortest: Ich habe den Shapiro-Wilk Test durchgeführt und gesehen, dass meine Daten NICHT normalverteilt sind. Daraus schließe ich, dass ich keine parametrischen Tests (z.B. t-Test, ANOVA) durchführen kann.
Fall 1:
Im Fall 1 habe ich eine abhängige Stichprobe, weil ich möchte die Antworten der Probanden aus dem Fragebogen zum Zeitpunkt t_1 (nach Durchlauf 1) und zum Zeitpunkt t_2 (nach Durchlauf 1) vergleichen. Da es sich um den gleichen Probanden handelt, der die jeweilige Frage beantwortet besteht ein Zusammenhang zwischen den Messpunkten. Deshalb würde ich sagen, dass es sich um eine abhängige Stichprobe handelt.
Welche Tests habe ich durchgeführt?
(1) Wilcoxon-Test um zu untersuchen, ob sich die zentralen Tendenzen unterscheiden, und Effektstärke r.
(2) Fisher's Exact Test bzw. Fisher-Freeman-Halton Test (weil Stichprobe ist recht klein und es gibt Zellen <5), um zu untersuchen, ob die Beantwortung der jeweiligen Frage unabhängig von dem jeweiligen Aufgabenmaterial war. Ich habe hier eine 2x5 Kontingenztabelle: UV Y hat zwei Ausprägungen (Aufgabenmaterial 1 und 2) und die AV hat 5 Ausprägungen entsprechend der Likert-Skala. Da es eine Kontingenztabelle größer 2x2 ist berechne ich noch den Kontingenzkoeffizient C und Cramer's V.
Fall 2:
Im Fall 2 habe ich unabhängige Stichproben, weil ich die Anzahl der Auffälligkeiten pro System vergleiche. D.h. Ergebnisse aller 10 Probanden die Aufgabe 1 OHNE Unterstützung mit den Ergebnissen der anderen 10 Probanden die Aufgabe 1 MIT Unterstützung bearbeitet haben. Das sind immer verschiedene Probanden gewesen.
Welche Tests habe ich durchgeführt?
(1) Mann-Whitney-U-Test um zu untersuchen, ob sich die zentralen Tendenzen unterscheiden, und Effektstärke r.
(2) Hier müsste ich vermutlich den Eta-Koeffizient nehmen, weil das Aufgabenmaterial eine nominalskalierte UV ist und die Anzahl der Auffälligkeiten intervallskaliert ist. Allerdings bin ich mir da unschlüssig, wie ich damit nachweisen kann, dass das Aufgabenmaterial keinen signifikanten Einfluss hatte. Wäre hier evtl. der Kruskal-Wallis-Test oder der Scheirer-Ray-Hare-Test sinnvoller?
Insgesamt würde mich interessieren, ob ich die richtigen Tests gewählt habe und ob vielleicht noch jemand einen Tipp hat, was man sich noch anschauen sollte oder besser machen kann zwecks der Auswertung.
Ich bin gespannt auf Eure Antworten