Hallo Nana,
wir machen mal folgendes Beispiel. Du kannst das gerne auf Deinem Rechner in einer R-Session nachvollziehen (wurde mit R Version 4.1 gerechnet, mit sehr viel älteren R Versionen könntest Du andere Zufallszahlen bekommen und dann auch andere Ergebnisse haben).
- Code: Alles auswählen
set.seed(55)
n <- 25
test <- data.frame(erg = rnorm(n),
beliebig1 = rnorm(n),
beliebig2 = rnorm(n),
beliebig3 = rnorm(n),
beliebig4 = rnorm(n),
beliebig5 = rnorm(n),
beliebig6 = rnorm(n),
beliebig7 = rnorm(n),
beliebig8 = rnorm(n),
beliebig9 = rnorm(n),
beliebig10 = rnorm(n))
mod1 <- lm(erg ~ ., data = test)
summary(mod1)
Wie Du hoffentlich erkennen kannst wird eine Zufallsvariable (erg) durch zehn unabhängige Zufallsvariablen (beliebig*) vorhergesagt. Die lineare Regression erkennt das richtig und es gibt keinen signifikanten Prädiktor. Den kleinsten p-Wert hat beliebig7 mit p = 0.135
So, nun benutzen wir die Funktion step um schrittweise unser Modell zu "verbessern":
- Code: Alles auswählen
mod2 <- step(lm(erg ~., data= test))
summary(mod2)
Und jetzt bleiben nur noch zwei Prädiktoren übrig, nämlich beliebig7 mit p = 0,04 und beliebig9 mit p = 0,11. Beide Prädiktoren haben also jetzt einen deutlich kleineren p-Wert und bei einem ist die magische Signifikanzschwelle von 0,05 unterschritten worden. Das Gesamtmodell hat auch ein besseres adjustiertes R² bekommen und alle sind glücklich. Das einzige Problem ist, dass wir beide genau wissen, dass es da keinerlei Zusammenhang gibt und es sich also definitiv nicht um das Erkennen einen vorher verborgenen Struktur handelt, sondern ganz banal um einen Beta-Fehler!
Es macht durchaus Sinn, mit verschiedenen seeds, verschiedenen n und verschieden vielen Pseudoprädiktoren mal herumzuspielen um ein Gefühl dafür zu bekommen, welches Glücksspiel stepwise regression ist. Du wirst nicht jedes Mal im Ergebnis einen signifikanten Prädiktor finden aber die verbleibenden haben danach eigentlich immer einen kleineren p-Wert als davor.
Es spricht auch nichts dagegen, mein kleines Beispiel mal an Deine Verhältnisse (Zahl der Prädiktoren und Zahl der Variablen und Deine Funktion für schrittweise Regression) anzupassen und damit ein wenig herumzuspielen.
LG,
Bernhard