Vorgehen korrekt? (2 Messreihen, 95% KI)

Fragen, die sich auf kein spezielles Verfahren beziehen.

Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon patrickB » Sa 25. Apr 2020, 09:26

Hallo zusammen :-)

Ich habe die unten aufgeführte Untersuchung sowie Auswertung durchgeführt. Könnt Ihr mir sagen, ob mein Vorgehen korrekt ist?

Szenario: Ich habe 20 verschiedene Messungen an einem Referenz-Volumen mittels Magnet-Resonanz-Tomographie (MRT) und mit einem Ultraschallgerät gemessen. Das wahre Volumen für jede Messung ist mir als Referenz bekannt.
Die Abweichungen vom wahren Wert habe ich jeweils errechnet:

MRT Ultraschall
-16,06 -71,22
-11,81 37,82
-7,51 -1,83
-109,38 -184,61
19,05 74,65
18,28 103,61
-54,17 -118,26
34,86 -18,89
36,7 -73,39
-11,65 84,45
-7,21 107,22
29,91 -178,12
-9,85 -120,38
-30,21 33,87
77,15 206,92
-50,11 -63,32
11,51 -92,18
-9,58 -19,75
17,18 -96,66
-5,24 -12,73

Da es sich um die Abweichung vom Original handelt, wäre eine Abweichung von 0 demnach das "beste" Ergebnis, weil es keine Abweichung geben würde.

Auswertung
Mit einem Chi-square goodness-of-fit und Shapiro-Wilk-Test habe ich herausgefunden, dass beide Messreihen (Abweichungen) normalverteilt sind (p>0.05). Daher habe ich mir zur Veranschaulichung der Messreihen die 95% Konfidenzintervalle (KI) berechnet.

Mittelwert der Messabweichungen und KI
MRT: -3,9 [-22,3 ; 14,5]
Ultraschall: -20,1 [-68,1 ; 27,8]

Der Levene-Test zeigt auf, dass die Messreihen verschiedene Varianzen besitzen (p<0.05). Daher habe ich den Welch-Test angewendet -> Beide Gruppen besitzen einen ähnlichen Mittelwert (p = 0.515).

Fragen:
1. Laut der Auswertung ist MRT präziser/kleinere Streuung (Levene-Test p<0.05), aber im Mittel nicht signifikant (p > 0.05) besser als Ultraschall.

2. Ich weiß jetzt zwar, dass MRT präziser ist und die Mittelwerte ähnlich sind, aber welches Verfahren ist denn jetzt das besser in Bezug auf die geringste Abweichung vom wahren Wert? Für mich liegt eben -3,9 näher an 0 als -20,1. Muss hier noch ein Test angewendet werden?

3. Wenn ich den Welch-Test nicht durchführen würde, dann könnte ich anhand der KI ablesen, dass beide Mittelwerte identisch sind. Begründung: Der Mittelwert von Ultraschall liegt in den KI von MRT. Also -20,1 liegt im KI [-22,3 ; 14,5] vom MRT. Ist diese Interpretation korrekt?

4. Wenn der MRT KI bei [-14,5 ; 14,5] liegen würde, dann wären beide Mittelwerte verschieden, da der Mittelwert von Ultraschall nicht in den KI vom MRT liegt?

Es wäre schön, wenn ihr mir weiterhelfen könntet :)

Viele Grüße und ein schönes Wochenende
Patrick
Zuletzt geändert von patrickB am Sa 25. Apr 2020, 10:42, insgesamt 1-mal geändert.
patrickB
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Mo 19. Okt 2015, 14:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon strukturmarionette » Sa 25. Apr 2020, 10:13

Hi,

- wie werden die 'wahren' Wert gemessen?
- dem Anschein nach handelt es sich um abhängige Stichproben /Messungen. Trifft das zu?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4355
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 587 mal in 584 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon patrickB » Sa 25. Apr 2020, 10:22

Hi strukturmarionette,

Korrektur: Ich habe 20 mal ein Volumina gemessen. Ich komm hier ganz durcheinander bei den ganzen Untersuchungen :P

Die wahren Volumina sind Referenzgrößen, welche von einem Hersteller maschinell erzeugt wurden.
Die Annahme ist, dass die Herstellerangaben zu 100% korrekt sind. Ich habe mir also ein Volumen herausgegriffen.

Da die Messungen an dem gleichen Objekt durchgeführt wurden, könnten diese verbunden sein.

"Verbundene Messungen entstehen nicht immer nur bei einer Betrachtung zu verschiedenen Zeitpunkten. Es ist auch möglich ohne Betrachtung über die Zeit verbundene Messungen zu haben. Zum Beispiel bei Verwendung von zwei Bedingungen am gleichen Untersuchungsobjekt: Jeder Proband macht den Test einmal unter Bedingung A und einmal unter Bedingung B. Dann sind auch das verbundene Messungen."

Meine Interpretation ist daher unverbunden, da ich zwar das gleiche Objekt untersuche, aber das Objekt an sich wird nicht beeinflusst?
Es ändert sich das Messverfahren, aber nicht das Objekt selbst.

Gruß,
Patrick
patrickB
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Mo 19. Okt 2015, 14:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon strukturmarionette » Sa 25. Apr 2020, 12:08

Hi,

- dann wären nach meinem Verständnis (statistische) Verfahren für abhängige /verbundene Stichproben anzuwenden.
- also bspw T-Test für verbundene Messungen

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4355
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 587 mal in 584 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon PonderStibbons » Sa 25. Apr 2020, 12:52

strukturmarionette hat geschrieben:- dann wären nach meinem Verständnis (statistische) Verfahren für abhängige /verbundene Stichproben anzuwenden.
- also bspw T-Test für verbundene Messungen

Dem stimme ich zu. Da die Stichprobe sehr klein ist, wäre zu überlegen, ob ein
verteilungsfreies Verfahren (Wilcoxon Vorzeichenrangtest) vorzuziehen wäre.

patrickB hat geschrieben:Da es sich um die Abweichung vom Original handelt, wäre eine Abweichung von 0 demnach das "beste" Ergebnis, weil es keine Abweichung geben würde.

Bland-Altman plots wären hier vielleicht von Interesse.

Mit einem Chi-square goodness-of-fit und Shapiro-Wilk-Test habe ich herausgefunden, dass beide Messreihen (Abweichungen) normalverteilt sind (p>0.05). Daher habe ich mir zur Veranschaulichung der Messreihen die 95% Konfidenzintervalle (KI) berechnet.

Korrekt ausgedrückt: Du konntest allenfalls (aufgrund sehr kleiner Stichprobengröße)
die Nullhypothese nicht verwerfen, dass die Daten aus einer normalverteilten
Grundgesamtheit stammen.

Der Levene-Test zeigt auf, dass die Messreihen verschiedene Varianzen besitzen (p<0.05).

Da es sich um abhängige Messungen handelt, ist der Levene Test für
unabhängige Gruppen hier unangebracht. Allerdings kenne ich kein
allgemein anerkanntes Verfahren für den Vergleich von Varianzen
bei abhängigen Messungen https://jsdajournal.springeropen.com/ar ... 015-0030-z
Zudem ist die Stichprobe klein.

Für sich genommen wäre die ungleiche Varianz vielleicht das eigentlich
relevante Ergebnis hier. Wenn man nicht einen systematischen bias eines
Instrumentes unterstellt, also im Schnitt eine Überschätzung oder
Unterschätzung des wahren Wertes, wird man über viele Messungen
hinweg eine durchschnittliche Abweichung von 0 erwarten. Wie weit
die einzelne Messung dann vom wahren Wert zufällig abweicht, wird
zur eigentlichen Frage, und da ist ein Messinstrument mit kleinerer
Varianz der Abweichungen natürlich vorzuziehen.

Daher habe ich den Welch-Test angewendet

Der passt hier nicht, aber nebenbei, den sollte man immer verwenden, auch ohne vorgeschalteten levene Test.
Fragen:
1. Laut der Auswertung ist MRT präziser/kleinere Streuung (Levene-Test p<0.05), aber im Mittel nicht signifikant (p > 0.05) besser als Ultraschall.

"Im Mittel nicht signifikant besser" heißt doch bloß, dass positive und negative Abweichungen sich
ausmitteln. Für die Beurteilung als "besser" würde ich vielleicht sogar ein Instrument vorziehen, das
im Schnitt die Werte etwas unterschätzt, aber nur wenig Varianz bei den Fehlern hat.

2. Ich weiß jetzt zwar, dass MRT präziser ist und die Mittelwerte ähnlich sind, aber welches Verfahren ist denn jetzt das besser in Bezug auf die geringste Abweichung vom wahren Wert? Für mich liegt eben -3,9 näher an 0 als -20,1. Muss hier noch ein Test angewendet werden?

Warum machst Du einen inferenzstatistischen Test, wenn Du die Beurteilung dann doch auf
den Stichproben (n=20)-Mittelwerten fußen lassen willst? Im (ich sag's nochmal: unpassenden)
Welch Test war -20,1 versus -3,9 ohne weiteres mit der Nullhypothese vereinbar, was an
der geringen Stichprobengröße liegen mag und/oder an der großen Varianz (ohne die einzubeziehen
ist ein Vergleich 20 versus 3,9 wenig hilfreich), oder vielleicht daran, dass beide eben
keine großen mittleren Fehlerunterschied haben.

4. Wenn der MRT KI bei [-14,5 ; 14,5] liegen würde, dann wären beide Mittelwerte verschieden, da der Mittelwert von Ultraschall nicht in den KI vom MRT liegt?

Wenn, dann betrachtet man das Konfidenzinterval des Mittelwertunterschiedes,
nicht ob ein Mittelwert im Konfdenzintervall des anderen liegt.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon bele » Sa 25. Apr 2020, 17:39

Hi!

patrickB hat geschrieben:Korrektur: Ich habe 20 mal ein Volumina gemessen.


Das verstehe ich nicht. "ein" steht im Singular, "Volumina" im Plural. Also wurde entweder 20 mal das eine Volumen gemessen oder in jeder Zeile der obigen Datenliste ein anderes Volumen?

Da die Messungen an dem gleichen Objekt durchgeführt wurden, könnten diese verbunden sein.


Alle Messungen am gleichen Objekt oder jeweils die beiden Messungen in einer Zeile am gleichen Objekt?

Bland-Altman plots wären hier vielleicht von Interesse.


Da bin ich anderer Meinung. Bland-Altman-Plots sind für Situationen gedacht, in denen die wahre Größe unbekannt ist, beide Verfahren gleichwertig sind und der "wahre" Wert daher durch die Mittelwertbildung beider Messungen angenähert werden muss. Hier gibt es aber einen Goldstandard, einen "wahren Wert".

Meines Erachtens wäre es am einfachsten, anstelle der Abweichungen die absoluten Abweichungen zu betrachten, also die Beträge der oben dargestellten Abweichungen. Das beantwortet die Frage des Arztes "wie weit liegt die Messung daneben".
Dann findet man im Boxplot sofort einen glaubhaften Unterschied und sowohl im Rangsummentest (unverbundene Stichproben) ein p = 0,0003 als auch im Vorzeichenrangtest (verbundene Stichproben) ein p < .0001
Das eine Verfahren liegt also systematisch weiter daneben als das andere und die grafische Darstellung lässt keinen Zweifel daran zu, welches.

Anstelle des von PonderStibbons vorgeschlagenen Bland-Altman-Plots sollte man aber natürlich die Abweichungen noch einmal als Funktion der wahren Werte (oben nicht angegeben) zeichnen, wenn es nicht doch nur ein Volumen war.

LG,
Bernhard

Code: Alles auswählen
fehler <- read.table(header=TRUE, dec=",", text =
                       "MRT Ultraschall
-16,06 -71,22
-11,81 37,82
-7,51 -1,83
-109,38 -184,61
19,05 74,65
18,28 103,61
-54,17 -118,26
34,86 -18,89
36,7 -73,39
-11,65 84,45
-7,21 107,22
29,91 -178,12
-9,85 -120,38
-30,21 33,87
77,15 206,92
-50,11 -63,32
11,51 -92,18
-9,58 -19,75
17,18 -96,66
-5,24 -12,73")

fehler$aMRT <- abs(fehler$MRT)
fehler$aUltraschall <- abs(fehler$Ultraschall)

boxplot(fehler$aMRT, fehler$aUltraschall)
wilcox.test(fehler$aMRT, fehler$aUltraschall)
wilcox.test(fehler$aMRT, fehler$aUltraschall, paired = TRUE)
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
PonderStibbons

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon PonderStibbons » Sa 25. Apr 2020, 18:07

Meines Erachtens wäre es am einfachsten, anstelle der Abweichungen die absoluten Abweichungen zu betrachten, also die Beträge der oben dargestellten Abweichungen. Das beantwortet die Frage des Arztes "wie weit liegt die Messung daneben".
Dann findet man im Boxplot sofort einen glaubhaften Unterschied und sowohl im Rangsummentest (unverbundene Stichproben) ein p = 0,0003 als auch im Vorzeichenrangtest (verbundene Stichproben) ein p < .0001
Das eine Verfahren liegt also systematisch weiter daneben als das andere und die grafische Darstellung lässt keinen Zweifel daran zu, welches.

Als Alternative zu der Betrachtung der Fehlervarianzen? Das klingt für mich nachvollziehbar.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon bele » Sa 25. Apr 2020, 19:02

Hallo PonderStibbons,

den OP treibt ja primär die Frage um, welches Verfahren "besser" sei. Meines Erachtens ist entweder das Verfahren das bessere, das die kleineren absoluten Fehler vom wahren Wert produziert oder ggf das Verfahren, das die kleinsten Fehlerquadrate produziert. Deshalb würde ich die direkt ausrechnen und betrachten.
Die Varianz beschreibt nicht die (quadratische) Abweichung vom wahren Wert sondern die (quadratische) vom Mittelwert der Messungen, weshalb bei Vorliegen eines großen Bias auch winzige Varianzen kein "gutes" Messverfahren anzeigen.

Wenn der Patient auf der Toilette war und ich messe, wieviel Urin danach noch in der Harnblase ist, dann will ich wissen, wieviel Urin da ist und nicht, ob mir das Gerät jedes mal einen anderen falschen Wert oder jedes Mal den gleichen falschen Wert anzeigen würde. Wenn das Tumorstadium davon abhängig ist ob ein Tumor mindestens 2 und mindestens 5 Zentimeter groß ist ( https://de.wikipedia.org/wiki/TNM-Klass ... n#T_(Tumor) ) dann ist mir wichtig, ob ich 2 und 5 Zentimeter erkenne, oder nicht. Mir ist schon klar, dass sich andere Situationen finden ließen (Verlaufsbeobachtung Therapieansprechen beim gleichen Patienten mit dem immer gleichen Gerät) aber ohne weitere Angaben deute ich die Sorgen des OP als Hinweis, dass er das auch so sieht.

Wir kennen ja nunmal die oben genannten Ergebnisse und wissen nunmal, dass sie auch nicht-parametrisch deutlich signifikant sind und können uns damit Betrachtungen zur Normalverteilung kleiner Stichproben sparen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon PonderStibbons » Sa 25. Apr 2020, 21:41

Nur zur Sicherheit, ich schrieb nachvollziehbar, nicht nicht nachvollziehbar.
Gibt es dafür eigentlich Referenzen, so einleuchtend wie das ist?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Vorgehen korrekt? (2 Messreihen, 95% KI)

Beitragvon patrickB » So 26. Apr 2020, 15:31

Hallo zusammen,

Vielen Dank für Eure Antworten.

Es handelt sich in diesem Fall um ein Volumen, welches 20 mal mit jeweils zwei Verfahren (MRT, Ultraschall) gemessen wurde. Ich hatte den Beitrag editiert und fälschlicherweise nicht alles korrekt umformuliert.

Anstelle des von PonderStibbons vorgeschlagenen Bland-Altman-Plots sollte man aber natürlich die Abweichungen noch einmal als Funktion der wahren Werte (oben nicht angegeben) zeichnen, wenn es nicht doch nur ein Volumen war.


Dies würde ich dann also anweden, wenn 20 verschiedene Volumina mit jeweils zwei Verfahren gemessen werden. Dies wird in nächster Zeit auch stattfinden. Das behalte ich definitiv im Hinterkopf. Ich hätte bei dieser Art der Untersuchung den Konkordanz-Korrelationskoeffizient nach Lin im Kopf.

Meines Erachtens ist entweder das Verfahren das bessere, das die kleineren absoluten Fehler vom wahren Wert produziert oder ggf das Verfahren, das die kleinsten Fehlerquadrate produziert. Deshalb würde ich die direkt ausrechnen und betrachten.


Für mich wäre erst einmal Interessant, welches Verfahren die kleineren absoluten Fehler vom wahren Wert produziert. Meinst du mit den kleinsten Fehlerquadraten eine Regessionsanalyse?

Wir kennen ja nunmal die oben genannten Ergebnisse und wissen nunmal, dass sie auch nicht-parametrisch deutlich signifikant sind und können uns damit Betrachtungen zur Normalverteilung kleiner Stichproben sparen.


Bedeutet dies dann, dass die 95% KI eigentlich für diese Art der Untersuchung nicht sinnvoll sind und vorzugsweise die von Bernhard erwähnten Boxplots genutzt werden sollten?

Meines Erachtens wäre es am einfachsten, anstelle der Abweichungen die absoluten Abweichungen zu betrachten, also die Beträge der oben dargestellten Abweichungen. Das beantwortet die Frage des Arztes "wie weit liegt die Messung daneben".
Dann findet man im Boxplot sofort einen glaubhaften Unterschied und sowohl im Rangsummentest (unverbundene Stichproben) ein p = 0,0003 als auch im Vorzeichenrangtest (verbundene Stichproben) ein p < .0001


Die Darstellung der absoluten Abweichungen als Boxplot finde ich sehr hilfreich. Vielen Dank für die Bereitstellung des Codes. Für mich ist auch klar zu erkennen, welches Verfahren an dieser Stelle zu bevorzugen ist.

Mir fällt die Unterscheidung "verbunden vs unverbunden" an dieser Stelle wirklich schwer. Ich messe immer das gleiche Volumen, aber mit verschiedenen Messmethoden. Es sind also 2x20 Messwerte zu einem Volumen vorhanden (verbunden?). Wobei es sich im anderen Fall bei 20 unterschiedlichen Volumina auch um das gleiche indivduelle Volumen bei jeder einzelnen Messung handelt. Das ist doch dann auch verbunden, da es jeweils das gleiche individuelle Volumen ist?

Ich könnte natürlich beide Tests durchführen, und hoffen, dass beide Tests sich bei der Signifikanz einig sind, aber das kann's ja nicht sein ;-)

Viele Grüße
Patrick
patrickB
Beobachter
Beobachter
 
Beiträge: 16
Registriert: Mo 19. Okt 2015, 14:40
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 8 Gäste

cron