Hallo zusammen,
ich möchte bei der Bestimmung meiner Modellperformance (logistisches Regressionsmodell) den Prozess der Modellselektion berücksichtigen. Mein Vorgehen ist wie folgt:
1. Schritt:
Ich teile meinen Datensatz randomisiert in 5 gleich große subsamples auf und führe an 80% der Daten eine backward selection durch. Anschließend berechne ich für das dabei heraus gekommene logistische Regressionsmodell die inner sample performance (Accuracy).
2.Schritt:
Ich übernehme das Modell und berechne damit die outter sample performance (Accuracy) auf dem ausgelassenen Datensatz (die verbleibenden 20%).
3. Schritt:
Ich berechne die Differenz der inner sample performance und der outter sample performance, sprich ich ziehe von der Accuracy aus Schritt 1 die Accuracy aus Schritt 2 ab. Diese Differenz ist ein Maß für das Overfitting und berücksichtigt gleichzeitig die Modellselektion.
Anschließend führe ich die oben genannten Schritte 5 mal durch, wobei ich jedes mal andere 20% der Daten auslasse. Am Ende erhalte ich 5 von den in Schritt 3 beschriebenen Accuracy-Differenzen und berechne davon den Mittelwert.
Zu guter letzte nehme ich den gesamten Datensatz, wende die backward selection an und schätze ein logistisches Regressionsmodell. Für dieses berechne ich ebenfalls die inner sample performance auf dem gesamten Datensatz. Davon ziehe ich dann den oben genannten Mittelwert ab. Am Ende erhalte ich also die bereinigte Performance des "globalen" Modells. Vorteil hierbei soll sein, dass nicht nur für overfitting korregiert wird, sondern für den gesamten Prozess der Modellfindung.
Diese Vorgehensweise ist angelehnt an eine Bootstrap Methode die ich mal verwendet habe. Allerdings konnte ich exakt diese Vorgehensweise bisher in keinem Lehrbuch finden.
Meine Frage lautet daher, ob es eurerseits Einwände gibt? Verwendet jemand eine ähnliche Methode oder kann mir vielleicht sogar Literatur empfehlen, in der genau diese Methode beschrieben/erwähnt wird?
Ich danke euch im Voraus!
Viele Grüße
Student45