Hallo,
ich möchte aus einem Datensatz Predictions rechnen (20 mögliche X-Variablen, 1 Y-Variable, alles numerisch, 40 < n < 100). Es kann durchaus sein, dass bereits sehr wenige dieser 20 Variablen ausreichend sind um gute Predictions zu erzielen. Allerdings ist der Datensatz so zusammengesetzt, dass die X-Variablen teilweise stark miteinander korrellieren.
Daher hab ich Methoden wie PCR, PLS, Ridge, Lasso, glmnet (GLM with lasso or elasticnet regularization) gerechnet und Werte wie RMSE etc. verglichen (mittlerer RMSE je nach Methode zwischen 0.1 und 0.16, interessannter Weise schneidet ein normales lineares Modell jedoch auch sehr gut ab, wenn ich z.B. nur 3 X-Variablen zulasse - obwohl diese auch korrellieren!).
Jetzt kommt aber hinzu, dass ich erfahren habe, dass in meinem Datensatz jeder Patient doppelt vorkommt. Es wurde also pro Patient zweimal zu unterschiedlichen Zeitpunkten gemessen. Muss ich nun andere Modelle rechnen die die gepaarten Messungen der Patienten berücksichtigen? Da denke ich z.B. an Nonlinear Mixed-Effects Models. Aber können solche Modelle mit dem Problem der hohen Korrelation von X umgehen? Oder muss ich da vorher z.B. eine Variablen-Selektion machen?
Falls mein Problem für Mixed-Effects Models spricht, welche R packages könnt ihr empfehlen? regsubsets für die Feature Selection und danach nlme für Mixed-Effects Models oder kann regsubsets auch nicht mit dem Korrelationsproblem umgehen?
Andere Vorschläge (mit) was ich rechnen soll?
Danke für eure Hilfe!