Guten Tag!
Im Rahmen einer Forschungsarbeit liegen mir metrische Variablen vor, die ich auf einen Zusammenhang prüfen möchte (z. B. Laborwert und ein bestimmtes Lungenvolumen). Als geeignete Verfahren erscheinen hier die bivariate Korrelationsanalyse oder lineare Regressionanalyse.
Eine Prüfung auf Normalverteilung ergab, dass sowohl der Laborwert als auch das Volumen nicht-normalverteilt sind (festgestellt mittels Histogramm und abgeleitet aus dem Shapiro-Wilk Test). Auch eine ln-Transformation führte nicht zur Normalverteilung.
Ich habe mir die Ausreißer angesehen und entsprechend geprüft, ob die Daten hier womöglich fehlerhaft im Sinne einer beispielsweise fehlerhaften Dokumentation o. Ä. waren, doch es handelt sich um "echte" bzw. "wahre" Ausreißer.
Nun ist der Pearson-Korrelationskoeffizient an eine Normalverteilung gebunden, sodass ich den Spearman-Korrelationskoeffizienten berechnet habe, was bei diesen Daten erlaubt sein dürfte (hier geht es ja um die Ränge/Monotonie, wenn ich das korrekt verstanden habe).
Die einfache lineare Regression ist nicht an die Normalverteilung der AV und UV gebunden, jedoch an die Normalverteilung der Residuen. Dies kann nur post-hoc erfolgen. Leider zeigte sich auch hier keine Normalverteilung, sodass ich die einfache lineare Regression nicht verwenden darf, oder? Mein Konzept sieht vor, dem Regressionsmodell anschließend noch weitere Variablen hinzuzufügen (im Sinne einer Adjustierung, also vereinfacht gesagt, um zu prüfen, ob sich bei Hinzunahme z. B. der Variable "Alter" weiterhin ein signifikanter Regressionskoeffizient zwischen Laborwert und Volumen zeigt). Daher würde ich gern ein Regressionsmodell nutzen und nicht "nur" die Spearman Korrelation.
Eine "Hoffnung" habe ich noch:
Häufig stolpert man beim Thema Normalverteilung über den "zentralen Grenzwertsatz" - sinngemäß dürfe "ab einem gewissen n" von einer Normalverteilung ausgegangen werden. Mein n beträgt 70 - darf da bereits "automatisch" von einer Normalverteilung ausgegangen werden? Ich verstehe leider noch immer nicht ganz, wie man den zentralen Grenzwertsatz korrekt auf seinen Datensatz anwendet, bzw. wann man es darf und wann nicht, welche Kriterien es gibt usw.
Es würde mich sehr freuen, wenn ihr mir hier weiterhelfen könntet.
Vielen Dank für's Lesen.
Mit freundlichen Grüßen
piano