Hallo Bernard,
schon mal vielen Dank für deine Antwort.
bele hat geschrieben:wenn V1 bis Vn tatsächlich neue, aussagekräftige Information ins Spiel bringt, dann sehe ich keine Einwände, das so zu machen. Wenn ich beispielsweise eine Abiturnote oder das Ergebnis eines Intelligenztests als Prädiktor in ein Modell einbeziehe, dann ist diese Abiturnote oder dieser Intelligenztest ja auch nur eine black box, von deren Zustandekommen ich im Detail sehr wenig sagen kann.
Hmmm, ja... ABER... sowohl die Abiturnote als auch der ermittelte IQ sind ja "gemessene" Werte, oder? Der passende Vergleich bei mir wäre: Ein Model schätzt aus dem IQ, dem Einkommen der Eltern und des Alters bei Einschulung die Abiturnote. Jetzt stelle ich bei Umfragen fest, dass die Schulbehörde unzufrieden mit der Güte der Vorhersage ist und beauftragt mich das Model zu verbessern, ohne aber mir zu erklären wie das Model aussieht.
Also setze ich mich hin und sage: "Ok, die Anzahl der Leistungsüberprüfung pro Schuljahr haben einen Einfluss" und modifiziere dann die Abiturnote mit dieser Anzahl um auf eine bessere Annäherung der Abiturnote zu kommen.
bele hat geschrieben:Ein paar Anmerkungen:
- Es klingt so, als gäbe es viele V und als sei das Gewinnen neuer Datensätze nicht sehr teuer.
Nunja, teuer ist relativ. Aber ich denke ich könnte schon zwei (evtl auch drei) unabhängige Datensätze bekommen.
bele hat geschrieben:Auch scheinst Du Dich mehr um die Vorhersagegüte als um das Verstehen der Zusammenhänge zu bemühen.
Es geht in erster Linie darum, dass eine Organisation nicht zufrieden mit einem Modell ist und jetzt zeigen möchte, dass wenn man anderer Variablen noch hinzuzieht, bessere Vorhersagen trifft. Das ist der Kern des Problems, natürlich wäre es in einem zweiten Schritt dann interessant wie diese Zusammenhänge zu verstehen sind, aber da wird es dann schon sehr komplex da man ja evtl auch soetwas wie Mediation oder Moderatoration mit betrachten sollte.
bele hat geschrieben:Wenn das alles stimmt, dann solltest Du Dich nicht unnötig auf einfache lineare Regression beschränken. Was ist im echten Leben schon linear? Auch Random-Forests, Neuronalen Netzwerke und die ganze sonstige Breite Maschinellen Lernens kann gute Vorhersagen liefern.
Ja, da habe ich auch schon dran gedacht. Ich habe mich auch nicht auf eine Regression festgelegt, das war nur ein Beispiel um meine neuen Input Daten mit dem Output aus Model 1 irgendwie zu verrechnen. Ich schau mir mal die Random-Forests und ähnliches genauer an. Da hab ich leider nur rudimentäres Wissen
bele hat geschrieben:- Du wirfst unter Punkt 3 plötzlich Bayes-Statistik ein. Das ist nicht falsch, aber letztlich kannst Du alle Schritte mit und ohne Bayes machen. Will sagen: Die in Punkt 2 genannte lineare Regression kannst Du auch schon "mit Bayes" rechnen und auch die Entscheidung in Punkt 3 lässt sich "ohne Bayes" machen. Die Entscheidung für oder gegen Bayes-Statistik ist unabhängig von dem sonstigen Plan.
In erster Linie bin ich auf Bayes gekommen da ich für den Modellvergleich über den Bayes Faktor eine Aussage über die Güte des Unterschieds bekomme aber nicht wissen muss wie das original Modell funktioniert. Ließe sich mit Sicherheit auch auf die klassische Weise machen, aber ich fand Bayes halt spannend
Evtl, kann ich dann einfach 2 und 3 bayesieren
Oder liege ich da jetzt komplett falsch? Ich möchte eine gute Zahl haben die sagt "Model 2 ist wesentlich besser in der Vorhersage von Y als Model 1".
bele hat geschrieben:- Eine zweite unabhängige Datenserie ist immer super, noch besser, wenn Du drei Datensätze hast: Einen zum Finden des richtigen Modells, einen für das Finetuning und einen für die abschließende Testgüte. Goldstandards sind halt sehr aufwändig. Lies mal ein wenig nach, was k-fold Crossvalidation ist -- erspart Dir vielleicht sehr viel Arbeit.
Ok, ich versuche mal an drei Testserien zu kommen. Danke für den Tip mit der k-fold Crossvalidation, das klingt wirklich ganz spannend...
LG,
fassy