Hallo zusammen.
ich muss im Rahmen meiner Bachelorarbeit am Lehrstuhl für Statistik mittels der CART-Methode (Classification and Regression trees) eine Auswertung machen. Es geht um die regressionsbäume. Nun habe ich meine abhängige metrische Variable und viele unabhängige Variablen (sind unterschiedlich skaliert, sowohl nominale als auch ordinale). Ein wesentlicher Nachteil von CART liegt daran, dass mittels der Methode nur binäre Splits im Bäume generiert werden können. Ich habe aber in meinem Datensatz mehrere nominale Variablen (die ich als unabhängige in meine Auswertung mitnehmen will), die z.B. 17 oder 10 Ausprägungen haben. Wenn ich diese in die Berechnung mit rein nehme, dann werden doch die Ergebnisse sehr wohl verfälscht, da es nur binäre Splits gibt. Was passiert, wenn man bei den Variablen keinen genauen Trennwert finden kann, bei dem sich genau 2 heterogene Gruppen bilden lassen? Z.B. die nominale Variable mit 17 Ausprägungen lässt sich nicht durch einen Trennwert in 2 heterogene Gruppen hinsichtlich der abhängigen Variable aufteilen, sondern in 4, 5 oder 6 Gruppen. Wie kann man dann ein möglichst gutes CART-Modell bekommen? Mir fehlt nur noch ein, diese Variable mit vielen Ausprägungen in mehrere Dummy-Variablen umzucodieren. Was ist aber dann mit nominalen unabhängigen Variablen mit 3 oder 4 Ausprägungen? In der Literatur steht, dass die Methode sowohl für nominale als auch ordinale und metrische Variablen, egal ob als Response oder als erklärende Variablen, geeignet ist. Es steht niergendswo, dass man nur binäre Variablen benutzen soll. Vielleicht ist die Erklärung dafür sehr einfachIch aber ich stehe da gerade auf dem Schlauch. wäre um jede Hilfe Dankbar.
Mit freundlichen Grüßen