Statistische Methoden zur Auswertung von schiefen Daten

Alle Verfahren der Regressionanalyse.

Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon user_6060 » Fr 15. Feb 2019, 20:07

Zu meiner Ausgangslage:

- Ich habe einen großen Datensatz (n > 20000) mit kontinuierlichen Daten mit den Variablen X und Y
- Meine Hypothese ist, dass die Variable Y mit steigendem X zunimmt
- Mein Plan war es eine lineare Regression durchzuführen, da ein klarer linearer Trend bei den Daten zu erkennen ist (s. Abbildung unten)
- Allerdings folgen die Residuen des linearen Modells nicht der Normalverteilung
- Deswegen dachte ich an ein allgmeines lineares Modell (glm), wofür ich allerdings auch wieder eine Verteilung angeben muss, der meine Daten ungefähr folgen
- Die Tests für verschiedene Datenverteilungen (normal, lognormal, weibull, gamma, poisson, binomial, nbinomial, etc.) waren jedoch alle negativ (p < 0.05)
- Nun weiß ich nicht so wirklich weiter, da ich einfach keine passende Verteilung für meine Daten finde. Soll ich einfach unterschiedliche GLMs ausprobieren und das nehmen, das meine Daten am besten vorhersagt?

Abbildungen zur Veranschaulichung der Daten:
Density Plot und Histogramm: https://imgur.com/JrF0WX8
Scatterplot: https://imgur.com/a/LgRABll
Diagnostic Plots of linear model: https://imgur.com/a/tf2n57C
user_6060
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 15. Feb 2019, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon PonderStibbons » Fr 15. Feb 2019, 20:43

user_6060 hat geschrieben:- Ich habe einen großen Datensatz (n > 20000) mit kontinuierlichen Daten mit den Variablen X und Y
- Meine Hypothese ist, dass die Variable Y mit steigendem X zunimmt

Das siehst Du ja bereits. Bzw. das könntest Du sogar mit einer Rangkorrelation darstellen. Wieso interessiert Dich die Verteilung der Vorhersagefehler?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon user_6060 » Fr 15. Feb 2019, 21:52

Ist Normalverteilung der Residuen nicht eine Voraussetzung der linearen Regression?

Dormann & Kühn, 2009 (S. 56): https://cran.r-project.org/doc/contrib/ ... tistik.pdf
Nach dem Berechnen eines Modells müssen wir überprüfen, ob die der Methode zugrundeliegenden Annahmen auch erfüllt sind. Dies ist bei der Regression vor allem eine Untersuchung der Residuen auf Normalverteilung.
user_6060
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 15. Feb 2019, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon strukturmarionette » Fr 15. Feb 2019, 22:29

Hi,

- Deswegen dachte ich an ein allgmeines lineares Modell (glm),

- Mult Lin Regr ist ein Allg Lin Modell.

- Die Tests für verschiedene Datenverteilungen (normal, lognormal, weibull, gamma, poisson, binomial, nbinomial, etc.) waren jedoch alle negativ (p < 0.05)

- Alle diesbzüglichen Sign-Tests sind bei N =20000 untauglich, weil die HO jeweils die Wunschhypothese ist.
- Du kannst Dich nur fachlich oder bei fachlicher Unkenntnis an grafischen Darstellungen der Messwerte (o.ä. deskriptive Maße) für Verteilungsannahmen orientieren.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon PonderStibbons » Fr 15. Feb 2019, 23:25

user_6060 hat geschrieben:Ist Normalverteilung der Residuen nicht eine Voraussetzung der linearen Regression?

Nein. Allenfalls für den Signifikanztest. Den hast Du nicht erwähnt. Allerdings ist ab ca. n> 30 auch der Signifikanztest nicht darauf angewiesen, dass die Residuen aus einer normalverteilten Grundgesamtheit stammen.

Mit freundlichen Grüßen

Ponderstibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon user_6060 » Sa 16. Feb 2019, 15:25

Schon mal vielen Dank für die Hilfe bisher!

D.h., dass ich eine lineare Regression mit den beiden Variablen X und Y und anschließenden f-test zur Überprüfung der Modellgüte ohne Bedenken durchführen kann (solange die anderen Gauß-Markov Theoreme eingehalten sind)?

Eventuell werde ich auch ein GLM ausprobieren und zusätzliche Variablen hinzunehmen und schauen, ob das GLM dann meine Daten besser beschreibt. Beim GLM lassen sich ja auch noch weitere Verteilungen (poisson, gamma, etc.) berücksichtigen.
user_6060
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 15. Feb 2019, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon PonderStibbons » Sa 16. Feb 2019, 16:49

D.h., dass ich eine lineare Regression mit den beiden Variablen X und Y und anschließenden f-test zur Überprüfung der Modellgüte ohne Bedenken durchführen kann (solange die anderen Gauß-Markov Theoreme eingehalten sind)?

Ich weiß nicht, was genau Du mit Überprüfung der Modellgüte meinst.
Der Signifikanztest des Gesamtmodells bezieht sich auf die Nullhypothese,
dass die Varianzaufklärung durch das Modell in der Grundgesamtheit gleich
Null ist.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11362
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2501 mal in 2485 Posts

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon user_6060 » Sa 16. Feb 2019, 18:40

Ich meine die Überprüfung der Gesamtsignifikanz des Modells durch den f-test. Hatte mich falsch ausgedrückt als ich von Modellgüte gesprochen habe.
user_6060
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 15. Feb 2019, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon strukturmarionette » So 17. Feb 2019, 00:23

Hi,

Ich meine die Überprüfung der Gesamtsignifikanz des Modells durch den f-test.

- Der Signifikanztest wird bei N >20 000 immer höchst signifikant, würde keine zusätzliche Erkenntnis bringen.

Eventuell werde ich auch ein GLM ausprobieren und zusätzliche Variablen hinzunehmen und schauen, ob das GLM dann meine Daten besser beschreibt. Beim GLM lassen sich ja auch noch weitere Verteilungen (poisson, gamma, etc.) berücksichtigen.

- Ein Lineare Regression (Allgemeines Lineares Modell) kann auch mehrere UVs.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

Re: Statistische Methoden zur Auswertung von schiefen Daten

Beitragvon user_6060 » So 17. Feb 2019, 11:28

- Der Signifikanztest wird bei N >20 000 immer höchst signifikant, würde keine zusätzliche Erkenntnis bringen.

Wisst ihr hierfür zufällig eine Quelle, die ich heranziehen kann?

- Ein Lineare Regression (Allgemeines Lineares Modell) kann auch mehrere UVs.

Genau, aber beim lm wird ja immer die Gauß-Verteilung angenommen, richtig? Beim GLM könnte ich noch andere Verteilungen berücksichtigen (Befehl in R: Var Y ~ Var X, family = poisson) oder liege ich hier falsch?
user_6060
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Fr 15. Feb 2019, 16:08
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 9 Gäste