Varianzanalyse und Korrelation?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Varianzanalyse und Korrelation?

Beitragvon Pandapi » Do 14. Jan 2021, 17:57

Hallo, ich schreibe gerade meine BA. Dabei untersuche ich, ob bei steigender Anzahl von Operationen die Komplikationsrate sinkt.
Ich habe die Krankenhäuser in low, medium und high Häuser gruppiert. Es liegen einige Ausreißer vor, die ich aber nicht löschen möchte. Sie bieten meiner Meinung nach einen informativen Mehrwert.
Die Ausreißer haben dafür gesorgt, dass die Mittelwerte bei der ANOVA nach oben verzerrt wurden. Daraufhin habe ich einen Kruskal-Wallis-Test gemacht. Hier konnten signifikante Unterschiede zwischen den Gruppen festgestellt werden, die aber auch nur eine geringe Effektstärke hatten.

Damit habe ich aber nicht festgestellt, ob nun ein Zusammenhang zwischen der Komplikationsrate und den Krankenhausgruppen besteht oder? Kann/muss ich noch eine Korrelation durchführen?
Ich habe spaßeshalber eine Spearman Korrelation gemacht (aufgrund der Ausreißer, keine Normalverteilung). Und die klassierten Krankenhäuser mit der Komplikationsrate korreliert. Dabei dabei kam eine Signifikanz von p = 0,05 heraus, aber der Korrelationskoeffizient liegt bei nur -0,048. Anhand der Korrelation liegt hier nun kein Zusammenhang vor? Dieser Effekt ist ja nur minimal. Ist es richtig, dass beim Kruskal-Wallis-Test rauskommen kann, dass Unterschiede vorliegen aber die Korrelation ergibt, dass kein Zusammenhang besteht?
Eine Regressionsanalyse kann ich übrigens nicht durchführen, da die Voraussetzungen verletzt werden.

Meine Variablen die ich vorliegen habe:
Fallzahl Krankenhäuser, metrisch
Komplikation ja/nein, nominal
Anzahl Komplikationen, metrisch
Komplikationsrate, metrisch
Fallzahl klassiert, ordinal
Pandapi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 14. Jan 2021, 17:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzanalyse und Korrelation?

Beitragvon PonderStibbons » Fr 15. Jan 2021, 09:22

Ich habe die Krankenhäuser in low, medium und high Häuser gruppiert.

Anhand welcher Regel? Und wie viele Krankenhäuser waren es? Wie sehen die Kennwerte
der Verteilung aus (Mittelwert, median, Min-Max, Standardabweichung)?
Es liegen einige Ausreißer vor, die ich aber nicht löschen möchte.

Ausreißer bei welcher Variable und wie definiert?
Ich habe spaßeshalber eine Spearman Korrelation gemacht (aufgrund der Ausreißer, keine Normalverteilung). Und die klassierten Krankenhäuser mit der Komplikationsrate korreliert.

Warum machst Du keine Person-Korrelation und/oder Spearman-Korrelation zwischen
unklassierter Krankenhausgröße und Komplikationsrate? Die Klassierung bringt für die
statistische Analyse nichts.
Eine Regressionsanalyse kann ich übrigens nicht durchführen, da die Voraussetzungen verletzt werden.

Davon gehe ich erstmal nicht aus.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Varianzanalyse und Korrelation?

Beitragvon bele » Fr 15. Jan 2021, 09:59

Hallo Pandapi,

Pandapi hat geschrieben:Hallo, ich schreibe gerade meine BA. Dabei untersuche ich, ob bei steigender Anzahl von Operationen die Komplikationsrate sinkt.

Oder steigt. Da wir in den ganz großen Krankenhäusern immer jammern, dass wir all die schwierigen und mehrfacherkrankten operieren während die unkomplizierten in den kleinen Krankenhäusern bleiben, muss man so eine Fragestellung ganz sicher auch beidseitig testen.

Ich habe die Krankenhäuser in low, medium und high Häuser gruppiert.

Klingt erstmal irgendwie beliebig, es sei denn, dahinter steht ein bereits etabliertes Unterteilungskonzept wie etwa die Versorgungsstufen der jeweiligen Kliniken: https://de.wikipedia.org/wiki/Versorgungsstufe
Auch dann spricht dennoch einiges dafür, so eine Unterteilung sein zu lassen und Korrelationen und/oder Regressionen zu rechnen.

Es liegen einige Ausreißer vor, die ich aber nicht löschen möchte.

Im ersten Anlauf würde ich tendenziell auch erstmal eine plausiblen Werte drin lassen und später versuchen herauszukriegen, ob sie das Endergebnis maßgeblich beeinflussen.

Die Ausreißer haben dafür gesorgt, dass die Mittelwerte bei der ANOVA nach oben verzerrt wurden. Daraufhin habe ich einen Kruskal-Wallis-Test gemacht. Hier konnten signifikante Unterschiede zwischen den Gruppen festgestellt werden, die aber auch nur eine geringe Effektstärke hatten.

"Nur geringe Effektstärken"? Was hast Du erwartet, dass in den kleinen Häusern ständig alles schief geht und in den großen immer die Sonne scheint? Es wäre ein potenzieller Skandal, wenn bei der Fragestellung große Effektstärken aufträten.

Dabei dabei kam eine Signifikanz von p = 0,05 heraus, aber der Korrelationskoeffizient liegt bei nur -0,048. Anhand der Korrelation liegt hier nun kein Zusammenhang vor? Dieser Effekt ist ja nur minimal. Ist es richtig, dass beim Kruskal-Wallis-Test rauskommen kann, dass Unterschiede vorliegen aber die Korrelation ergibt, dass kein Zusammenhang besteht?

Es kommt heraus, dass ein Zusammenhang nicht anhand des vorher vereinbarten Kriteriums bewiesen werden konnte und zwar mit einem Abstand auf der zweiten bis dritten Nachkommastelle. Das bedeutet definitiv nicht, dass kein Zusammenhang besteht.

Eine Regressionsanalyse kann ich übrigens nicht durchführen, da die Voraussetzungen verletzt werden.

Da geht es mir wie PonderStibbons, dass ich das erst glaube, wenn ich die zugehörigen Daten gesehen habe.

Meine Variablen die ich vorliegen habe:
Fallzahl Krankenhäuser, metrisch
Komplikation ja/nein, nominal
Anzahl Komplikationen, metrisch

Sind das Daten auf Krankenhausebene oder auf Patientenebene? Komplikation ja/nein sagt, ob es überhaupt je eine Komplikation gegeben hat?

Zentral für viele Fragestellungen ist die Anzahl der beobachteten Krankenhäuser, die Zahl der beobachteten Fälle und die Größenordnung der Komplikationsraten. Komplikationsraten um 50% lassen sich nun einmal viel leichter vergleichen als Komplikationsraten um 0,1%. Eine Belegarzt habe im Jahr 5 Fälle operiert, davon 0 Komplikationen, ein Supramaximalversorger habe im gleichen Jahr 100 Operationen gemacht, davon 1 Komplikation. Dein Kruskall-Wallis und Deine Spearman-Korrelation betrachten den Belegarzt als besser, weil die Rate Komplikation pro Fall bei ihm geringer ist. In so einem Kontext bräuchte man Binomialtests oder eine Binomialregression, die Verhältnis und Fallzahl angemessen berücksichtigen. Oder man rechnet auf der Fallebene statt auf der Krankenhausebene, sei es als Test oder als logistische Regression.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Varianzanalyse und Korrelation?

Beitragvon Pandapi » Fr 15. Jan 2021, 14:11

Hallo, danke für die Rückmeldungen.
Ich habe die Voraussetzungen zur Regression auf Linearität und Homoskedastizität geprüft und beides ist nicht erfüllt. Eine logistische Regression habe ich nicht gesehen, da ich nicht mehrere unabhängige Variablen habe?

Ausreißer sind Krankenhäuser, die zum Beispiel nur einen Fall hatten und dort auch Komplikationen aufgetreten sind. Da liegt die Rate bei 100% und das verändert das Bild. Diese sind in den Boxplots auch zu erkennen. Deshalb werden die Mittelwerte auch so verzerrt und ich habe Kruskal-Wallis gemacht. Aber dafür brauche ich ja die Gruppierung der Krankenhäuser oder nicht?

Ich habe gedacht, die Pearson Korrelation kann ich nicht machen weil 1. keine Normalverteilung vorliegt und der grafische Test ergibt, dass keine Linearität gegeben ist.

Deshalb habe ich mich für Spearman entschieden. Werde es noch mal ohne die Einteilung machen. Nur anhand Fallzahl und Komplikationsrate.

Aber was kann ich dann noch machen, wenn ich keine Gruppeneinteilung mache? Nur die Korrelation wäre doch sicherlich zu wenig? Und ich habe ohne die Gruppierung nur metrische Daten.

Mit Kompikation ja/nein war übrigens gemeint, ob in dem KH generell eine Komplikation aufgetreten ist oder nicht
Tut mir leid ich bin da noch nicht so fortgeschritten :)

Die Daten sehen folgendermaßen aus:
Krankenhäuser = 1022
Mittelwert Fallzahl = 41,24 ; Standardabweichung: 30,275 ; Min. 1 ; Max. 202
Mittelwert Komplikationsrate = 0,0371 ; Standardabweichung 0,06529 ; Min. 0,00 ; Max. 1,00
Pandapi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 14. Jan 2021, 17:41
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzanalyse und Korrelation?

Beitragvon PonderStibbons » Fr 15. Jan 2021, 15:36

Ich habe die Voraussetzungen zur Regression auf Linearität und Homoskedastizität geprüft und beides ist nicht erfüllt. Eine logistische Regression habe ich nicht gesehen, da ich nicht mehrere unabhängige Variablen habe?

Es ist schwer etwas methodisch zu kommentieren, wenn Kontext, theoretischer Hintergrund und Fragestellungen
ebenso wie Studiendesign und Art der Datengewinnung unbekannt sind. Vielleicht solltest Du das einmal
vollständig und nachvollziehbar beschreiben. Beispielsweise ist jetzt nicht zu beurteilen, ob nicht von vornherein
ein Einschlußkriterium für Krankenhäuser anhand einer Mindestfallzahl sinnvoll wäre. Oder ob man nicht die Patienten
als Stichprobe und Untersuchungsobjekt ansehen sollte statt der Krankenhäuser, die Krankenhausgröße dann als
Prognosefaktor.
Ich habe gedacht, die Pearson Korrelation kann ich nicht machen weil 1. keine Normalverteilung vorliegt und der grafische Test ergibt, dass keine Linearität gegeben ist.

Es ist sinnvoller, über lineare Regression zu reden als über eine Pearson-Korrelation.
Normalverteilung der Variablen ist dabei irrelevant und bei Prozentsätzen von vornherein
auch beinahe sicher auszuschließen. Auch die Normalverteilung der Residuen (nur um die
geht es) ist bei n > 1000 keine relevante Frage mehr, da ist das Verfahren dann robust. Ob
theoriegeleitet von vornherein eine nichtlineare Beziehung hätte angenommen und modelliert
werden können, ist ohne ausreichende Informationen leider nicht sagen. Wie die
Nichtlinearität festgestellt wurde und wie sie aussieht, ist unbekannt. Heteroskedaszität ist
ein Problem, aber ohne zu wissen ,wie aie festgestellt wurde und welches Ausmaß sie hat,
lässt sich auch dazu leider nichts sagen. Eventuell ist das anhand eines Tests festgestellt worden,
der wegen n > 1000 viel zu sensitiv ist und eine unwesentliche Abweichung von den Annahmen
als "statistisch signifikant" angibt.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste

cron