Hallo liebe Community,
ich versuche mit meinem Datensatz eine Klassifikation mittel der Methodik Random-Forest durchzuführen. Soweit so gut. Der zu interpretieren Wert Roc AUC ist nach meiner Modell Validation > 0,5 was für die Güte der diagnostischen Tests spricht. Betrachte ich mir nun aber die ausgegebene Tabelle, welche mir die "variable importance" ausgibt, Sehe ich für einige Variable leicht negative Werte (-0,004). Die positiven Werte nähere sich auch eher gegen 0 (0,0034).
Ich weiß jetzt nicht genaue wie ich das deuten soll. Wenn die Variablen nicht für mein Modell wichtig sind, dann kann ich doch auch keine Vorhersage mit diesem Modell treffen (nach meinem Verständnis müsste der AUC-ROC-Wert dann bei 0,5 liegen und die Entscheidung der Bäume würde nach dem Coin-Toss-Prinzip entschieden werden) . Der AUC-ROC wert von 0,824 impliziert jedoch eine Güte des Modells.
Ich habe schon versucht verschieden Parameter des Random-Forest zu ändern (Baumanzahl, Tiefe, Max. Variablen pro Baum) jedoch erhalte ich keine besseren Ergebnisse.
Kann es vllt. daran liegen, dass mein Datensatz (n=4900) eine Imbalance in der Anzahl der binären abhängigen Variablen hat? 1= 250x, 0= 4650x)
Vllt. kann mir einer bei der Lösung dieses Problems behilflich sein.
Mit freundlichen Grüßen
Sypher