Hallo Viktor,
von 10.000 auf 2.000 ist ein ärgerlicher Verlust, aber natürlich immer noch eine großzügige Datenbasis. Wenn das Modell nur an 10 Fällen den Schritt von Ergebnis 7 auf Ergebnis 8 lernen kann wird es darin eher ein grober Schätzer.
Unsicher bin ich, was "Variablen in 10 Gruppen zusammenfassen" heißt. Bedeutet das, dass wir eine Regression mit 10 Prädiktoren rechnen? Dann gibt es sicher viele richtige Antworten. Nachdem Holger Steinmetz hier kürzlich so viel Werbung für Generalisierte Additive Modelle (GAM) gemacht hat, habe ich mich dazu belesen und bin seither ganz begeistert. Demnach wäre mein erster Tipp ein ordinales GAM, das sich zum Beispiel mit R und dem Paket mgcv und den Funktionen gam oder bam mit der Familie ocat rechnen ließe (
https://stat.ethz.ch/R-manual/R-patched ... /ocat.html )
Das entspricht einer ordinalen Regression im generalisierten linearen Modell mit dem Unterschied, dass nicht zwingend lineare Zusammenhänge unterstellt werden, sondern durch Splines auch nichtlineare Zusammenhänge sehr flexibel abgebildet werden können. Dabei kann man für jeden Prädiktor angeben, wieviel Freiheitsgrade für ihn maximal zur Verfügung stehen. Voreinstellung ist k = 10, was meistens nicht ausgeschöpft wird. Bei einem Fallzahl-zu-Prädiktoren Verhältnis von 2000 zu 10 ist das wohl ok. Vorteil für Deinen Anwendungsfall: Es wird für jeden Prädiktor ein p-Wert ausgespuckt, wie Du das wolltest.
Was die hundert einzelnen Variablen angeht, sind das alles metrische Variablen die je nur einen Koeffizienten erfordern oder sind das auch nominale, die jeweils in viele Dummyvariablen zerfallen? Da Du die 100 Variablen in zehn Gruppen einteilen kannst besteht ein nicht unerhebliches Risiko von Kollinearität, was die Beurteilung von Signifikanz schwer macht. (Man kann wohl auch ordinale Ridge-Regression machen ...
https://cran.r-project.org/web/packages ... nalNet.pdf ). Ich könnte mir vorstellen, dass man da einen randomForest berechnen lässt. Dabei werden ganz viele Klassifikationsbäume erstellt, für deren Erstellung aber jeweils nur ein Teil der verfügbaren Zeilen und Spalten im Datensatz verwendet wird. Wenn also zwei Prädiktoren miteinander korrellieren dann gibt es in dem randomForest immer auch Bäume, die je nur einen der beiden Prädiktoren berücksichtigen. p-Werte für die Signifikanz einzelner Prädiktoren werden vielleicht schwierig, aber eine Importance der verschiedenen Prädiktoren wird da wohl routinemäßig bestimmt und Signifikanz hättest Du dann ja aus dem anderen Modell geklärt.
Hoffe, dass das so Sinn macht und wie gesagt, das ist eine Meinung, es gibt bestimmt viele gute Möglichkeiten.
LG,
Bernhard