bele hat geschrieben:Bitte teste nicht einseitig sondern zweiseitig. Tests sind eine Frage der Konvention. Die magische Grenze von p<0,05 ist nur Konvention. Und in dieser Konvention testet man zweiseitig. Immer wenn ich lese, dass irgendwas einseitig getestet wurde, werde ich ganz misstrauisch, warum jemand so etwas tut und verdopple in Gedanken den p-Wert. Lass es einfach. Du kannst es Dir mit deinem kleinen p ohne weiteres leisten.
Das habe ich bei meinem Post unterschlagen. Ich habe den Vorzeichen Rangtest zweiseitig auf die relativen Differenzen ((Volumen - GT)/GT) durchgeführt. Den Test auf Normalverteilung habe ich durch den Shapiro-Will-Test durchgeführt. Bei den Relativen Differenzen ist dabei bei beiden Algorithmen ein P-Wert von p<0,0001 heraus gekommen. Damit kann bei den relativen Differenzen keine Normalverteilung angenommen werden, da die Nullhypothese widerlegt worden ist. Somit wird der Vorzeichen Rangtest durchgeführt.
bele hat geschrieben:Mit einem p<0,0001 hast Du empirisch gezeigt, dass eine Gruppe im Allgemeinen zu kleineren Werten neigt als die andere. Genau das wolltest Du. Herzlichen Glückwunsch.
Kann ich durch einen Vergleich der Mediane der beiden Algorithmen nun sagen: Mein Algorithmus hat einen geringeren Median als der Andere, also ist mein Verfahren besser?
Mir wird die Beweisführung noch nicht ganz klar. Fallen Ihnen beiden noch Andere Methoden ein, um die Algorithmen miteinander zu vergleichen? Es macht ja nur Sinn normierte Werte miteinander zu vergleich oder sehe ich das falsch?
strukturmarionette hat geschrieben:Ich habe, da ich mich gegen die Normalverteilung entschieden habe, den Vorzeichen Rangtest durchgeführt. Dabei ist ein p-Wert von p<0,0001 bei herausgekommen.
- das ist aber keine Begründung (auf welche Stichprobenumfänge von Volumenmaßen und wie ist die NV geprüft worden?)
- auf welche Daten 'Quantile' konkret ist der Vorz_Rang Test angewendet worden mit p <0.0001?
Die Volumina wurden von zwei Algorithmen auf 45 unterschiedlichen Bilddatensätzen bestimmt. Zu beiden Volumina wurden die relativen Differenzen zur Ground Truth bestimmt und diese durch den Vorzeichen Rangtest bestimmt. Dadurch kam der p-Wert von p<0.0001 zustande. Ich hoffe ich habe Ihre Frage richtig verstanden.
Muss ich die Verteilung der Ground Truth eigentlich auch statistisch beweisen, da ich die Bilddaten selbst erzeugt habe? Um sagen zu können, es handelt sich wirklich um unterschiedliche Volumina?
Vielen Dank für Ihre Hilfe!
Gruß
E.