Lineare Regression, Normalverteilung, zentral. Grenzwertsatz

Fragen, die sich auf kein spezielles Verfahren beziehen.

Lineare Regression, Normalverteilung, zentral. Grenzwertsatz

Beitragvon piano » Sa 12. Jun 2021, 15:00

Guten Tag!

Im Rahmen einer Forschungsarbeit liegen mir metrische Variablen vor, die ich auf einen Zusammenhang prüfen möchte (z. B. Laborwert und ein bestimmtes Lungenvolumen). Als geeignete Verfahren erscheinen hier die bivariate Korrelationsanalyse oder lineare Regressionanalyse.

Eine Prüfung auf Normalverteilung ergab, dass sowohl der Laborwert als auch das Volumen nicht-normalverteilt sind (festgestellt mittels Histogramm und abgeleitet aus dem Shapiro-Wilk Test). Auch eine ln-Transformation führte nicht zur Normalverteilung.

Ich habe mir die Ausreißer angesehen und entsprechend geprüft, ob die Daten hier womöglich fehlerhaft im Sinne einer beispielsweise fehlerhaften Dokumentation o. Ä. waren, doch es handelt sich um "echte" bzw. "wahre" Ausreißer.

Nun ist der Pearson-Korrelationskoeffizient an eine Normalverteilung gebunden, sodass ich den Spearman-Korrelationskoeffizienten berechnet habe, was bei diesen Daten erlaubt sein dürfte (hier geht es ja um die Ränge/Monotonie, wenn ich das korrekt verstanden habe).

Die einfache lineare Regression ist nicht an die Normalverteilung der AV und UV gebunden, jedoch an die Normalverteilung der Residuen. Dies kann nur post-hoc erfolgen. Leider zeigte sich auch hier keine Normalverteilung, sodass ich die einfache lineare Regression nicht verwenden darf, oder? Mein Konzept sieht vor, dem Regressionsmodell anschließend noch weitere Variablen hinzuzufügen (im Sinne einer Adjustierung, also vereinfacht gesagt, um zu prüfen, ob sich bei Hinzunahme z. B. der Variable "Alter" weiterhin ein signifikanter Regressionskoeffizient zwischen Laborwert und Volumen zeigt). Daher würde ich gern ein Regressionsmodell nutzen und nicht "nur" die Spearman Korrelation.

Eine "Hoffnung" habe ich noch:
Häufig stolpert man beim Thema Normalverteilung über den "zentralen Grenzwertsatz" - sinngemäß dürfe "ab einem gewissen n" von einer Normalverteilung ausgegangen werden. Mein n beträgt 70 - darf da bereits "automatisch" von einer Normalverteilung ausgegangen werden? Ich verstehe leider noch immer nicht ganz, wie man den zentralen Grenzwertsatz korrekt auf seinen Datensatz anwendet, bzw. wann man es darf und wann nicht, welche Kriterien es gibt usw.

Es würde mich sehr freuen, wenn ihr mir hier weiterhelfen könntet.

Vielen Dank für's Lesen.

Mit freundlichen Grüßen
piano
piano
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 12. Jun 2021, 14:27
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Lineare Regression, Normalverteilung, zentral. Grenzwert

Beitragvon strukturmarionette » Sa 12. Jun 2021, 16:46

Hi,

- was sagt denn der aktuelle Forschungsstand zur Verteilung deiner medizinischen Messwerte in der Population aus?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
piano

Re: Lineare Regression, Normalverteilung, zentral. Grenzwert

Beitragvon PonderStibbons » Sa 12. Jun 2021, 17:00

Es fehlt leider die Angabe der Stichprobengröße.
Nun ist der Pearson-Korrelationskoeffizient an eine Normalverteilung gebunden,

Nein, ist er nicht. Der statistische Signifikanztest vielleicht, aber nicht der Koeffizient selbst.
Die einfache lineare Regression ist nicht an die Normalverteilung der AV und UV gebunden, jedoch an die Normalverteilung der Residuen.

Nicht die Regressionsanalyse, sondern der statistische Test. Allerdings ist das die weitaus unerheblichste
Annahme bei einer linearen Regression und bei n > 30 vernachlässigbar.

Die Frage wäre nurmehr, ob aus inhaltlichen Gründen eine Transformation Deiner Messwerte üblich ist
bzw. sinnvoll wäre.

Häufig stolpert man beim Thema Normalverteilung über den "zentralen Grenzwertsatz" - sinngemäß dürfe "ab einem gewissen n" von einer Normalverteilung ausgegangen werden.

Das ist so leider sinnentstellend zitiert. n > 30 stellt keine Normalverteilung von Daten oder Residuen her,
aber die Verteilung der Teststatistiken entspricht dann ausreichend den Annahmen für einen korrekten Test.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
piano

Re: Lineare Regression, Normalverteilung, zentral. Grenzwert

Beitragvon piano » Sa 12. Jun 2021, 17:09

strukturmarionette hat geschrieben:Hi,

- was sagt denn der aktuelle Forschungsstand zur Verteilung deiner medizinischen Messwerte in der Population aus?

Gruß
S.


Hallo,

bezüglich des Laborparameters gibt es bisher nur wenige Studien in dieser Population. Diese weisen aber auch darauf hin, dass es einzelne Ausreißer geben kann - was vergleichbar wäre mit der Beobachtung in meiner Studie. Die betreffende Variable "Volumen" ist besser beschrieben und wurde in Studien wiederholt auch mit Ausreißern dargestellt. Es gibt aber keine "Konsensusmeinung".

Ich hoffe, das trifft deine Frage.

Viele Grüße
piano
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 12. Jun 2021, 14:27
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Lineare Regression, Normalverteilung, zentral. Grenzwert

Beitragvon piano » Sa 12. Jun 2021, 17:21

PonderStibbons hat geschrieben:Es fehlt leider die Angabe der Stichprobengröße.
Nun ist der Pearson-Korrelationskoeffizient an eine Normalverteilung gebunden,

Nein, ist er nicht. Der statistische Signifikanztest vielleicht, aber nicht der Koeffizient selbst.
Die einfache lineare Regression ist nicht an die Normalverteilung der AV und UV gebunden, jedoch an die Normalverteilung der Residuen.

Nicht die Regressionsanalyse, sondern der statistische Test. Allerdings ist das die weitaus unerheblichste
Annahme bei einer linearen Regression und bei n > 30 vernachlässigbar.

Die Frage wäre nurmehr, ob aus inhaltlichen Gründen eine Transformation Deiner Messwerte üblich ist
bzw. sinnvoll wäre.

Häufig stolpert man beim Thema Normalverteilung über den "zentralen Grenzwertsatz" - sinngemäß dürfe "ab einem gewissen n" von einer Normalverteilung ausgegangen werden.

Das ist so leider sinnentstellend zitiert. n > 30 stellt keine Normalverteilung von Daten oder Residuen her,
aber die Verteilung der Teststatistiken entspricht dann ausreichend den Annahmen für einen korrekten Test.

Mit freundlichen Grüßen

PonderStibbons


Hallo PonderStibbons, danke für deine Antwort!

Stichprobengröße beträgt n=70, war im Text womöglich untergegangen.

Danke für deine Richtigstellung, die statistischen Tests sind an die genannten Voraussetzungen gebunden, nicht jedoch die Korrelation bzw. Regression an sich.

Das ist so leider sinnentstellend zitiert. n > 30 stellt keine Normalverteilung von Daten oder Residuen her,
aber die Verteilung der Teststatistiken entspricht dann ausreichend den Annahmen für einen korrekten Test.


Daraus schlussfolgere ich: Bei n>30 ist die Voraussetzung erfüllt, beim statistischen Test zu einer linearen Regressionsanalyse die Voraussetzungen für ebendiesen statistischen Test erfüllt zu haben, sodass die Prüfung der Normalverteilung (hier: Normalverteilung der Residuen) nicht erfolgen muss, sondern als gegeben aufgefasst werden kann?

Viele Grüße
piano
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Sa 12. Jun 2021, 14:27
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 21 Gäste

cron