Zu meiner Ausgangslage:
- Ich habe einen großen Datensatz (n > 20000) mit kontinuierlichen Daten mit den Variablen X und Y
- Meine Hypothese ist, dass die Variable Y mit steigendem X zunimmt
- Mein Plan war es eine lineare Regression durchzuführen, da ein klarer linearer Trend bei den Daten zu erkennen ist (s. Abbildung unten)
- Allerdings folgen die Residuen des linearen Modells nicht der Normalverteilung
- Deswegen dachte ich an ein allgmeines lineares Modell (glm), wofür ich allerdings auch wieder eine Verteilung angeben muss, der meine Daten ungefähr folgen
- Die Tests für verschiedene Datenverteilungen (normal, lognormal, weibull, gamma, poisson, binomial, nbinomial, etc.) waren jedoch alle negativ (p < 0.05)
- Nun weiß ich nicht so wirklich weiter, da ich einfach keine passende Verteilung für meine Daten finde. Soll ich einfach unterschiedliche GLMs ausprobieren und das nehmen, das meine Daten am besten vorhersagt?
Abbildungen zur Veranschaulichung der Daten:
Density Plot und Histogramm: https://imgur.com/JrF0WX8
Scatterplot: https://imgur.com/a/LgRABll
Diagnostic Plots of linear model: https://imgur.com/a/tf2n57C