Hallo Tom,
ich verstehe Dich so, dass eine multiple lineare Regression gegen irgendeinen Regressionbaum verglichen werden soll. Du bist damit unglücklich, dass der Baum bis zu 50% von der linearen Regression abweicht oder damit unglücklich, dass der Baum bis zu 50% von den wahren Ergebnissen abweicht?
Hier fehlen viel zu viele Informationen. Wir wissen nicht, was für ein Baumverfahren Du mit welchen Parametern eingesetzt hast, wir wissen nicht, gut gut oder wie schlecht die Ergebnisse beider Verfahren im Großen und Ganzen sind, wir wissen nicht, wieviel Information da drin steckt und wieviele Prädiktoren zur Verfügung stehen und wir wissen nicht, ob Du die Vorhersagegüte im Trainingsdatensatz oder in einem hold-out-Testdatensatz untersucht hast. Konkretes lässt sich daher kaum sagen.
Ganz allgemein kann man sagen, dass die multiple lineare Regression gut ist, um lineare Zusammenhänge darzustellen, während Regressionsbäume sich gut auf verschiedene Nicht-Lineare Zusammenhänge einstellen können und auch nicht-numerische Prädiktoren einbeziehen können. Dabei sind Regressionsbäume sehr stark davon abhängig, mit welchen Parametern man sie wachsen lässt und wie man sie pruned. Lässt man einen Regressionsbaum beliebig immer weiter wachsen, dann führt das rasch zu Overfitting und Overfitting führt zu guten Vorhersagen im Trainingsdatensatz bei zugleich schlechten im Testdatensatz. Schneidet man den Baum zu weit zurück (Pruning), dann nutzt er die Information des Trainingsdatensatzes nicht optimal aus.
Das sind alles Probleme, die man mit der multiplen linearen Regression meistens nicht hat: Man schmeißt einfach alle numerischen Prädiktoren in den Algorithmus, schaut in den Residuen, ob das so ungefähr passt und dann fängt man an, den Output zu interpretieren. Die geringere Anpassungsfähigkeit der linearen Regression kommt mit einer einfachen Bedienbarkeit.
Aber auch wenn man es richtig macht, sind Regressionsbäume oft nicht optimal. Verfahren, die auf einer Vielzahl von Bäumen beruhen, wie etwa randomForest oder XGBoost führen oft leichter zu besseren Vorhersagen. So einfach wie ein Baum darstellbar und eventuell sogar interpretierbar sind sie dagegen nicht.
Wir versuchen gerne, Dir weiter zu helfen aber Du musst uns schon schreiben, was Du da machst und wie Du die Ergebnisse vergleichst und vor allem, warum Du das machst. Hast Du eine Trennung in Trainings- und Testdatensatz vorgenommen? Welche Parameter des Baumalgorithmus hast Du optimiert? Was versprichst Du Dir von einem Baum, was ein randomForest nicht besser könnte?
While trees are highly interpretable and easy to compute, they do have
some noteworthy disadvantages. First, single regression trees are more likely
to have sub-optimal predictive performance compared to other modeling
approaches. This is partly due to the simplicity of the model. By construction,
tree models partition the data into rectangular regions of the predictor space.
If the relationship between predictors and the outcome is not adequately
described by these rectangles, then the predictive performance of a tree will
not be optimal
An additional disadvantage is that an individual tree tends to be unstable
[see Breiman (1996b) and Hastie et al. (2008, Chap. 8)]. If the data are slightly
altered, a completely different set of splits might be found (i.e., the model
variance is high). While this is a disadvantage, ensemble methods (discussed
later in this chapter) exploit this characteristic to create models that tend to
have extremely good performance.
Beide Zitate stammen aus dem sehr lesenswerten und online frei verfügbaren Buch von Kuhn und Johnson das von R-Usern gerne als APM abgekürzt wird:
https://www.ic.unicamp.br/~wainer/curso ... deling.pdf (siehe Kapitel 8.1)
In dem Buch findet man auch sonst sehr viel über Verfahren des Maschinellen Lernens und wie man verschiedenste Verfahren mithilfe des Pakets
caret einheitlich in R verwendent.
LG,
Bernhard