Puh
Neuronale Netze hab ich jetzt erstmal garnicht betrachtet, damit habe ich mich zugegebenermaßen nie wirklich beschäftigt, die werde ich wohl jetzt auch nicht noch zusätzlich angehen - ich will ja erstmal mit Regression oder Bäumen klarkommen. SVM genauso, denen bin ich vorher sogar noch nie begegnet.
Dass ich beim stumpfen Aggregieren einiges verzerre hab ich so glaube ich wohl echt übersehen. Autsch. Ja, Du hast Recht.. Dann machen die Dummys wohl auch Sinn.
Andererseits könnte ich doch auch die Fahrer-ID als kategorische Variable betrachten und einfach sehen, ob meine Bäume durch diese Dimension eine Partition vornehmen, oder?
Alle nicht bewertbaren Fahrer kriegen halt dieselbe ID x und sind darin nicht zu unterscheiden. Sollte dann ein Erklärungsgehalt drin liegen, würde der Baum nach meinem Verständnis zwar lange an den möglichen Splitmengen arbeiten - aber auch hier würde ich einfach mal sehen, ob mich das wirklich stört..
(kann man eigentlich die Komplexität der Partitionierung auf mehrere Rechnungen verteilen? Schon, oder? Müsste doch problemfrei gehen, nach einem ersten Split abzubrechen, und die Berechnung der zwei disjunkten Mengen auf zwei getrennten PCs weiterlaufen zu lassen.)
Und da ich gerade so schön am Nachbohren bin:
Die Dummys mögen ja ein Weg sein, eine nicht vollständig dokumentierte kategorielle Variable zu codieren, das seh ich - aber was würde man tun, wenn mir jetzt für die Hälfte der Daten nicht bekannt wäre, wie schwer das Paket war, für die andere Hälfte aber ein normaler metrischer Wert vorliegt?
LG und weiter Danke für die engagierte Nachhilfe