So ich hab mich jetzt in diese Gütekriterien eingelesen. Ich stütze mich hier auf Wikipedia, da ich in meinen Statistikbüchern nicht fündig geworden bin (falls jemand von euch sonstige Artikel, Bücher, Studien etc zu diesem Thema kennt wär das auch super). Soweit bin ich jetzt mit meinem Verständnis (bitte korrigiert mich wenn ich falsch liege):
Ich berechne für beide Klassifikatoren:
- die Sensitivität (den Anteil der korrekt als positiv klassifizierten Objekte an der Grundgesamtheit der tatsächlich positiven)
- die Spezifität (den Anteil der korrekt als negativ klassifizierten Objekte an der Grundgesamtheit der tatsächlich negativen)
- positiv prädiktiver Wert (den Anteil der korrekt als positiv erkannten Ergebnisse an der Gesamtheit der als positiv erkannten Ergebnisse)
Der positiv prädiktive Wert ist jedoch nur dann aussagekräftig, wenn die Stichprobe die selbe Prävalenz wie die Gesamtpopulation aufweist, was bei mir nicht der Fall sein wird. Deshalb muss ich die likelihood-ratio angeben.
Dann steht da "Klassifikationsbewertung zur Beurteilung der Qualität statistischer Tests" und folgende Erklärung:
Mit Hilfe der Klassifikationsbewertung kann die Qualität eines statistischen Test beurteilt werden:
Generiert man viele Stichproben unter Gültigkeit der Nullhypothese, so sollte die Annahmerate der Alternativhypothese dem Fehler 1. Art entsprechen. Aber bei komplizierten Tests kann man oft nur eine obere Grenze für den Fehler 1. Art angeben, so dass der „wahre“ Fehler 1. Art nur mit einer solchen Simulation abgeschätzt werden kann.
Generiert man viele Stichproben unter Gültigkeit der Alternativhypothese, so ist die Ablehnungsrate der Alternativhypothese eine Schätzung des Fehlers 2. Art. Dies ist beispielsweise von Interesse, wenn man zwei Tests für einen Sachverhalt hat. Wenn die Alternativhypothese gilt, dann bevorzugt man den Test, der einen kleineren Fehler 2. Art hat.
--> bei mir wäre das 2te relevant, ich versteh aber nicht wie das ablaufen soll? Die Alternativhypothese wäre ja z.B. die Person ist depressiv. Also sollte man bei den Fragebögen nur die Personen mit Depression heranziehen und dadurch, wie oft die FB die Alternativhypothese verwerfen (was falsch wäre), den Fehler 2. Art schätzen? Woher wüsste ich aber auch wer tatsächlich depressiv ist wenn beide FB fehlerbehaftet sind?
Dann kann man statistische Tests zur Beurteilung des Klassifikators heranziehen. Bei binären Klassifikatoren sollte man dazu den Vierfeldertest heranziehen. Da ich aber eine abhängige Stichprobe habe (alle Personen füllen beide Fragebögen aus), wäre der Mc Nemar- Test anzuwenden. Ergibt dieser ein signifikantes Ergebnis, besteht ein Unterschied zwischen den beiden Fragebögen. Welcher besser ist kann ich dann einfach von den Zahlen ablesen.
So, ich hoffe was ich hier zusammengeschrieben habe ist jetzt kein absoluter Müll (

) und ich würde mich sehr freuen wenn da mal jemand rüberschauen könnte
