Du kodierst Spielverhalten und Feedback beim Spiel in fünf Dimensionen.
--> Wir kodieren beides, Feedback aber nochmal anders. Das tut hier nichts zur Sache.
Ich nehme an, das ist eine ordinale Codierung?
--> Streng genommen ja. Intervallskaliert wäre mir lieber
Es ist wirklich wie Schulnoten (plus natürlich einer wörtlichen Präzisierung im Kodiermanual), also 1= sehr gut, 2= gut usw.
Ich nehme an, es geht darum, ob ein Kind irgendetwas schon gut kann oder noch nicht?
--> Genau, wir wollen beurteilen, wie gut Aufmerksamkeit, Kooperationsbereitschaft, Spielfreude, Selbstregulation und Zielmotorik sind. Die Schwierigkeit wollen wir aus inhaltlichen Gründen aber nur für Selbstregulation und Zielmotorik bestimmen, da wir die anderen eher als Moderatoren mit reinnehmen wollen später.
Jetzt ändern die Spielenden die Spielanleitung und damit die Regeln und ich nehme an, das Spiel wird damit anspruchsvoller sodass auf jeder der fünf Dimensionen in jedem der Spiele die Leistung eines Kindes nicht mehr von 1 bis 5 sondern von "einfache-Regeln + 1" bis "schwierige Regeln + 5" gemessen werden soll.
--> Das haben wir eben gerade nicht auf der fünfstufigen Skala berücksichtigt, die die reine Umsetzung des Kindes beurteilt, sondern in einer separaten Kodierung der Schwierigkeit/ des Anspruchsniveaus auf einer Skala von 1 (leicht) bis 3 (schwer).
Ich nehme an, dass die Spielleitungen nicht immer dann nicht immer dann die Regeln erschwert hat, wenn man vorher eine 5 diagnostiziert hat, sodass man nicht automatisch sagen kann, dass "mittlere Schwierigkeit + 1" besser ist als "einfache Schwierigkeit + 5".
--> Ja, genau, also wir haben nicht adaptiv getestet, sondern mit den Kindern gespielt und subjektiv/ situativ eingeschätzt, ob man gerade das Gruppenniveau trifft. Da stülpen wir jetzt sozusagen die Videokodierung künstlich drüber und beurteilen nachträglich, wie schwer es tatsächlich war (da gibt es auch erheblich VL-Effekte).
Ich nehme an, dass Dich eigentlich interessiert, ob es von Messzeitpunkt zu Messzeitpunkt zu Verbesserungen kommt, kannst das aber nicht beurteilen, weil du selbst nicht weißt, ob die Entwicklung von "einfache Schwierigkeit + 5" zu "mittlere Schwierigkeit + 1" einen Fortschritt darstellt?
--> Ja, genau. Die "Noten", die die Kinder bekommen haben, relativieren sich ja total daran, ob es gerade z.B. eine sehr leichte Balancieraufgabe war oder eine sehr anspruchsvolle.
Du bist hier anscheinend auf der Suche nach einem Umrechnungsfaktor, bzw einer Ordnung, um aus dem zweidimensionalen "Schwierigkeitsgrad plus Bewertung" zu einer eindimensionalen Ordnung zu kommen.
--> Yes, genau das.
Ich stelle mir das gerade wie bei der Item-Respons-Theory vor, wo man ja auch aus den Antworten sowohl die Itemschwierigkeit als auch die Leistung einer Testkandidatin herausliest. In der Itemrespontheorie würde man aber auch nicht mit 67 Probanden 15 Items skalieren. Natürlich könnte sich die Anzahl der Beobachtungen drastisch erhöhen, wenn man ein partial pooling zwischen den verschiedenen Spielen und/oder Dimensionen machen könnte. Wenn es um ein Urteil geht wie "Schwierigkeit 2 Urteil 5" liegt zwischen "Schwierigkeit 3 Urteil 1" und "Schwierigkeit 3 Urteil 3", vielleicht könnte man ja unterstellen, dass das in allen Spielen und allen Dimensionen gleich ist? Dann hätte man mehr Beobachtungen. Bei meinem bisherigen (sehr kursorischen) Studium der IRT ist mir aber noch keine Skalierung bei Messwiederholungen untergekommen. Selbst wenn ich alles richtig verstanden haben sollte, wird das nicht banal werden.
--> Puh, ja, also wir haben leider nur diese 67 Kinder erhoben. Diese Kinder beurteilen wir über 10 verschiedene Spiele hinweg (wobei wir eigentlich erstmal pro Spiel analysieren wollten, bevor wir überhaupt versuchen, ein größeres Modell zu rechnen und auch dieses erstirbt ja wahrscheinlich eh an diesem kleinen N). Pro Spiel haben wir dann im Schnitt 10min Spielzeit und im Schnitt (hohe SD!) 5 Instruktions- und Ausführungsphasen.