Hallo zusammen,
ich möchte 2 unterschiedliche Outputs, die aus dem selben Input hervorgehen, auf statistische Signifikanz untersuchen.
Hier etwas ausfürhlicher:
Datensatz A: Es handelt sich um einen Datensatz von 10,000 Videos, die paarweise mehrmals von unterschiedlichen Menschen miteinander verglichen worden sind. Z.b. welche Person im Video ist freundlicher? Nach merhmaligen Vergleichen wurde daraus ein Ranking erstellt (Freundlichkeit von 0-100%).
Datensatz B: Es handelt sich um ein zufälliges Sample von 250 Videos aus Datensatz A. Diese Videos wurden nun aber nicht paarweise verglichen, sondern einzeln auf einer 5-Punkte Likert Skala bewertet - Wie freundlich ist diese Person von 0 bis 4? (0%, 25%, 50%, 75%, 100%)
Jedes Video wurde auch hier von mehreren Menschen bewertet und der Durchschnitt daraus genommen (0-100%).
Meine ursprüngliche Hypothese lautete, dass der paarweise Vergleich aus Datensatz A zwingend zu falschen Klassifikationen führt. Wird z.B, eine sehr freundliche Person stets mit Menschen verglichen, die sehr sehr freundlich sind, wird diese ggfs. als unfreundlich klassifiziert.
Daher wollte ich Testen ob das Verwenden einer absoluten Skala zu signifikanten Unterschieden führt.
Auf den ersten Blick sehen die beiden Outputs aus Variante A und Variante B zu diesen 250 Videos auch sehr unterschiedlich aus. Wie würdet ihr an dieser Stelle aber vorgehen, um das statistisch zu belegen?
Macht an dieser Stelle ein t-Test Sinn?
Ich danke euch vielmals!
Nico