Hallo liebe Community,
vorab ich bin kein Experte auf dem Gebiet der Statistik. Daher urteilt nicht mit mir, wenn ich evtl. triviale Fragen stelle...
Ich muss als Prüfungsleistung meines Studiums einen fiktiven Datensatz analysieren. Hierfür wurde vorgeben, dass wir zur Regression die multiple lineare Regression und für den Teilaspekt des MI Random Forest nutzen sollen.
Kurz zu meinem Datensatz:
n= 1238
Variablen= 4
Die Variablen sind folgende: (abhängige Variable "Ausgaben der Versicherung (0-100000)", unabhängige Variable "Alter", "BMI", "Raucher Ja/Nein")
Probleme treten jetzt bei der Regression mit Random Forest auf.
Uns wurde ein Programm mit an die Hand geben, welches von unserer Dozentin programmiert wurde. In diesem müssen wir lediglich die csv Datei unseres Datensatz hochladen und die einzelnen Variablen als abhängig und unabhängig zuordnen.
Wenn ich nun die Regression mit Random Forest durchführe erhalte ich folgende Ergebnisse. (Siehe Anhang)
Hier erhalte ich sehr hohe Werte für MSE(8825510,2676), RMSE(2970,7760), MAE(1517,3512) und RSE(2979,6125).
Laut Literatur sollte sich diese Werte nahe Null aufhalten.
Ich tue mich jetzt schwer mit der Interpretation dieser Ergebnisse und weiß nun nicht so recht weiter. Ich würde mich freuen, wenn hier eine nette Person mir bei meiner Problematik helfen könnte.
Mit freundlichen Grüßen
Sypher