STATISTIK-FORUM.de

Godber · von **Godber** » Mo 7. Aug 2023, 21:54

Hallo

Ich bin neu im Forum, deshalb hoffe ich, dass ich mit meiner Frage keine Forenregeln oder so etwas verletze! Ich bin leider kein Statistik Profi und habe ein Verständnisproblem... Vielleicht könnte mir jemand dabei helfen?

Ich möchte ein linear mixed effects model durchführen und habe dafür die Residuen meines Models auf Heteroskedastizität, Varianz und Normalverteilung überprüft. So wie ich meine Ergebnisse verstanden habe, sind Heteroskedastizität (Breusch-Pagan-Test: BP = 1.3642, df = 1, p-value = 0.2428) und geringe Varianz erfüllt; jedoch keine Normalverteilung gegeben (shaipiro Wilk Test: W = 0.69982, p-value < 2.2e-16). Das sieht man auch deutlich an den Abbildungen. Kann ich das LMM dann überhaupt für meine Daten nutzen oder gibt es eine robustere Alternative? Muss ich meine Daten transformieren? Ich stecke hier irgendwie fest und bin unsicher, ob meine Rechnungen korrekt sind. Hier ist einmal mein R-Code zum besseren Verständnis:

>>> #### Regressionsanalysen durchführen um das Verhalten der PS-Evolution zu analysieren
### 1. Zuerst ein Lineares Modell durchführen
## Voranalysen:
# Residuen berechnen und auf Normalität prüfen mit einem Histogramm (Glockenkurve?); QQ- Plot (Verteilung diagonal?) und einem shapiro Wilk (p > 0.05 ?) Test
model <- lmer(PS_efficiency ~ condition + (1|day), data = PS_all_data)
resid <- residuals(model)
hist(resid)
qqnorm(resid)
shapiro.test(resid)

# LMM anzeigen
model <- lmer(PS_efficiency ~ condition + (1|day), data = PS_all_data)
summary(model)
plot(model)

# Varianz vergleichen
VarCorr(model)

# Scatter plot mit x = standardized residuals vs. y= predicted values (Bewegen sich die Punkte gleichmäßig um 0 herum oder zeigen sich Muster?)
fitted <- fitted.values(model)
plot(fitted, resid, title= "Predicted values vs. Standardized Residuals", subtitle= "Photosynthetic efficiency", xlab = "Predicted Values", ylab = "Standardized Residuals")
abline(h = 0, lty = 2)

# 'heteroscedasticity' mathematisch überprüfen
lm_resid <- lm(resid^2 ~ fitted(model))
bptest(lm_resid) <<<

Ich danke schon einmal sehr im Voraus!

Liebe Grüße,

Godber

bele · von **bele** » Mo 7. Aug 2023, 23:49

Hallo Godber,

Die zwei wichtigsten Forenregeln sind:
* schreib immer dazu, wieviele Beobachtungen Du hast (und in Deinem Beispiel, wieviele Tage).
* erkläre, wozu Du diese Regression berechnest und was Du von ihr willst.

Viele Daten im echten Leben führen so oder so nicht zu normalverteilten Residuen, auch nichg mit Transformationen. aber die Regression zeigt Dir immer, welche lineare Funktion am besten zu Deinen Daten passt ( cf nutzung-des-forums-f44/gelman-hill-vehtari-normalverteilung-lineare-regression-t13567.html ).

LG, Bernhard

folgende User möchten sich bei bele bedanken:
Godber

Holgonaut · von **Holgonaut** » Di 8. Aug 2023, 08:21

Hi zusammen,

was ist die AV denn für eine Variable? Und wie sieht die Verteilung der Variable und Fehler aus? Wenn die grundsätzlich einer anderen Verteilung folgt, könnte ein Modell mit einer anderen Fehlerverteilung helfen. Schau dir dazu mal das glmmTMB package an.

Grüße
Holger

folgende User möchten sich bei Holgonaut bedanken:
Godber

Godber · von **Godber** » Di 8. Aug 2023, 10:47

Guten Morgen!

Habe mich sehr über die Antworten gefreut als ich aufgewacht bin. Danke für den Link @Bernhard! Die Quelle konnte ich super in meinem Abschnitt zitieren. Da scheint es offenbar öfter zu haken bei der Normalitätsüberprüfung.

Damit ich die Forenregeln erfülle:

Ich habe 4 Tage lang die Photosyntheseeffizienz unter 3 Bedingungen gemessen und möchte herausfinden, ob sich das Verhalten der Photsyntheseleistung zwischen den Bedingungen unterscheidet (Anzahl der Beobachtungen: Tag 1: 246;Tag 2: 118;Tag 3: 128; Tag 4: 145) . @ Holger, Meine AV ist demnach also die Photosyntheseeffizienz. Deren Verteilung ist nach Shapiro Wilk:

>> shapiro.test(PS_all_data$PS_efficiency)

Shapiro-Wilk normality test

data: PS_all_data$PS_efficiency
W = 0.69001, p-value < 2.2e-16

There were 24 warnings (use warnings() to see them)
> hist(PS_all_data$PS_efficiency) <<

entspricht also so ziemlich der Verteilung der Residuen (s. Anhang).

Ich würde jetzt also davon ausgehen, dass die Voraussetzungen für eine LMM, bis auf die Normalitätsannahme, erfüllt sind und das Modell statistische Aussagekraft hat? In meinem Fall, dass die Photosyntheseleistung bei den untersuchten Bedingungen im Vergleich zur Kontrollbedingung stark signifikant abnimmt. Würde dieses Modell schon ausreichen? Ich habe zusätzlich für Tag 4 eine Varianzanalyse nach Kruskal-Wallis und Posthoc Test nach Wilcoxon-Mann-Whitney durchgeführt, um die endgültige Photosyntheseeffizienz bei Versuchsende zu untersuchen.

Ich würde gerne näher auf das Experiment eingehen, bin mir aber unsicher, wie das mit dem Datenschutz hier im Forum aussieht.

Vielen Dank auf jeden Fall! Jetzt gehe ich fürs Erste weiter in die Korrelationsanalyse. Bei dieser schnellen und tollen Hilfe, werde ich mit Sicherheit weiter Fragen stellen und mich diesmal selbstverständlich an die Regeln halten.

LG,

Godber

Holgonaut · von **Holgonaut** » Mi 9. Aug 2023, 17:41

Hallo,

da mir "Photosyntheseeffizienz" nicht viel sagt, würd ich spontan davon ausgehen, dass das minium = 0 ist. Deine Werte legen nahe, dass es integers sind. Daher wäre mein erster Kandidat für ein modell eine count-Regression mit Poisson-, oder negbin-Verteilung. Wie gesagt, lässt sich in einem glmm leicht durch die entsprechende Fehlerverteilung addressieren.

Ein Test auf Normalverteilung kannste dir schenken

Grüße
Holger

STATISTIK-FORUM.de

LMM Modell trotz fehlender Normalverteilung

LMM Modell trotz fehlender Normalverteilung

Re: LMM Modell trotz fehlender Normalverteilung

Re: LMM Modell trotz fehlender Normalverteilung

Re: LMM Modell trotz fehlender Normalverteilung

Re: LMM Modell trotz fehlender Normalverteilung

Wer ist online?