patrickB hat geschrieben:Es handelt sich in diesem Fall um ein Volumen, welches 20 mal mit jeweils zwei Verfahren (MRT, Ultraschall) gemessen wurde.
Im letzten Post führst du eine neue Unterscheidung in "in diesem Fall" und "im anderen Fall" ein. Das trägt nicht zur Vereinfachung bei.
In dem Fall, wo ein einziger Messkörper für alle 20 MRT-Messungen und für alle 20 Sonographien verwendet wurde, sind die Messungen unverbunden. Wenn Du zwanzig verschiedene Messkörper hast, dann ist immer eine Messung mit MRT mit genau einer Messung im Sono dadurch verbunden, dass sie den gleichen Messkörper untersucht haben. Dann sind es verbundene Stichproben.
Meines Erachtens ist entweder das Verfahren das bessere, das die kleineren absoluten Fehler vom wahren Wert produziert oder ggf das Verfahren, das die kleinsten Fehlerquadrate produziert. Deshalb würde ich die direkt ausrechnen und betrachten.
Für mich wäre erst einmal Interessant, welches Verfahren die kleineren absoluten Fehler vom wahren Wert produziert. Meinst du mit den kleinsten Fehlerquadraten eine Regessionsanalyse?
Nein, im meine keine Regressionsanalyse. Stell Dir zwei Untersuchungsverfahren A und B vor. A liegt bei jeder Messung um 1 ml daneben. B liegt 19 Mal genau richtig und einmal um 20 ml falsch. Eine Betrachtung der absoluten Fehler setzt A und B gleich (im Durchschnitt 1ml daneben). Es könnte aber sein, dass für den Arzt der häufige kleine Fehler in A irrelevant ist, während der große Ausrutscher in B zu einer Fehldiagnose führt und damit eine Katastrophe ist. Betrachtet man statt der absoluten Fehler die Quadrate der Fehler, dann würde der großen Ausrutscher in B viel stärker gewichten als die vielen kleinen Fehler von A. Dafür stehen in der Quadrate der Fehler in der Einheit "Quadrat-Milliliter" und man kann sich viel weniger darunter vorstellen als unter einem Fehler in Millilitern. Es ist eine Sachentscheidung, keine statistische Entscheidung, ob Du von den gemessenen Fehlern den Betrag nimmst oder das Quadrat.
Wir kennen ja nunmal die oben genannten Ergebnisse und wissen nunmal, dass sie auch nicht-parametrisch deutlich signifikant sind und können uns damit Betrachtungen zur Normalverteilung kleiner Stichproben sparen.
Bedeutet dies dann, dass die 95% KI eigentlich für diese Art der Untersuchung nicht sinnvoll sind und vorzugsweise die von Bernhard erwähnten Boxplots genutzt werden sollten?
Nein, das bedeutet es nicht. Du solltest Deine Ergebnisse in Zahlen darstellen, als Grafik darstellen und Testergebnisse darstellen. Konfidenzintervalle kann man auch von absoluten oder quadrierten Fehlern angeben. Nötigenfalls per Bootstrapping, damit die Konfidenzintervalle sicher nichts ins negative reichen.
Meines Erachtens wäre es am einfachsten, anstelle der Abweichungen die absoluten Abweichungen zu betrachten, also die Beträge der oben dargestellten Abweichungen. Das beantwortet die Frage des Arztes "wie weit liegt die Messung daneben".
Dann findet man im Boxplot sofort einen glaubhaften Unterschied und sowohl im Rangsummentest (unverbundene Stichproben) ein p = 0,0003 als auch im Vorzeichenrangtest (verbundene Stichproben) ein p < .0001
Die Darstellung der absoluten Abweichungen als Boxplot finde ich sehr hilfreich. Vielen Dank für die Bereitstellung des Codes.
Hat der Code zum Verständnis geholfen, oder verwendest Du R? Ich könnte mir in R durchaus elegantere Grafiken vorstellen als die, für die ich den Code gepostet habe. Boxplots sind in der Medizin sehr verbreitet - das allein macht sie noch nicht zu einer tollen Darstellung.
Mir fällt die Unterscheidung "verbunden vs unverbunden" an dieser Stelle wirklich schwer. Ich messe immer das gleiche Volumen, aber mit verschiedenen Messmethoden.
Wie oben beschrieben, sind es dann unverbundene Stichproben und der Rangsummentest (Mann-Whitney-U oder Wilcoxon-Rangsummentest) oder der Welch-Test oder der BEST sind angemessen.
Ich könnte natürlich beide Tests durchführen, und hoffen, dass beide Tests sich bei der Signifikanz einig sind, aber das kann's ja nicht sein
Das hatte ich oben zwar so vor gemacht, aber das kann es wirklich nicht sein.
LG,
Bernhard
Nachtrag: Da Du wohl R verwendest hier Code für zwei grafisch deutlich schönere Darstellungsoptionen Deiner Daten, allerdings unter Verwendung von drei Zusatzpaketen ("tidyr", "ggplot2" und "ggbeeswarm"). Für ein Paper oder die Dissertationsschrift lohnt sich der Extraaufwand:
- Code: Alles auswählen
fehler <- read.table(header=TRUE, dec=",", text =
"MRT Ultraschall
-16,06 -71,22
-11,81 37,82
-7,51 -1,83
-109,38 -184,61
19,05 74,65
18,28 103,61
-54,17 -118,26
34,86 -18,89
36,7 -73,39
-11,65 84,45
-7,21 107,22
29,91 -178,12
-9,85 -120,38
-30,21 33,87
77,15 206,92
-50,11 -63,32
11,51 -92,18
-9,58 -19,75
17,18 -96,66
-5,24 -12,73")
fehler$MRT <- abs(fehler$MRT)
fehler$Ultraschall <- abs(fehler$Ultraschall)
library(tidyr)
fehler2 <- pivot_longer(fehler, c("MRT", "Ultraschall"),
names_to = "Methode")
library(ggplot2)
library(ggbeeswarm)
ggplot(fehler2) +
geom_boxplot(aes(x=Methode, y=value), col = "grey") +
geom_beeswarm(aes(x=Methode, y=value)) +
xlab("Messmethode") +
ylab("Absoluter Messfehler [ml]")
ggsave("Boxplot.pdf")
ggplot(fehler2) +
geom_density(aes(x=value, color=Methode, fill = Methode), alpha=.5) +
geom_jitter(aes(x=value, y=-.002, color=Methode), height=.001) +
xlab("Absoluter Messfehler [ml]") +
ylab("empirische Dichteschätzung")
ggsave("Dichteverteilung.pdf")
wilcox.test(value ~ Methode, data = fehler2)
t.test(value ~ Methode, data = fehler2)