Worum geht es denn hier überhaupt?
Wenn es eine inhaltiche Fragestellung ist, dann vergiss die binäre einteilung, führe eine multinomiale Regression durch und verfahren mit den unabhängigen Variablen wie bei der klassichen Regression.
Also alles, was zu hoch korreliert, fliegt wieder raus.
Das mit den ganzen Dummies und Interaktionen erschwert dir nicht nur die Arbeit, sondern auch die Interpretation hinterher.
Ansonten sieht das Setup für mich ziemlich stark nach Machine Learning aus. Ohne genauere Kenntnisse über die Fragestellung, ist dazu aber nichts weiter zu sagen.