Backward Selection innerhalb der Cross Validation

Distanzmaße, Diskriminanzanalyse, graphische Analysen etc.

Backward Selection innerhalb der Cross Validation

Beitragvon Student45 » Do 2. Nov 2023, 14:23

Hallo zusammen,
ich möchte bei der Bestimmung meiner Modellperformance (logistisches Regressionsmodell) den Prozess der Modellselektion berücksichtigen. Mein Vorgehen ist wie folgt:
1. Schritt:
Ich teile meinen Datensatz randomisiert in 5 gleich große subsamples auf und führe an 80% der Daten eine backward selection durch. Anschließend berechne ich für das dabei heraus gekommene logistische Regressionsmodell die inner sample performance (Accuracy).
2.Schritt:
Ich übernehme das Modell und berechne damit die outter sample performance (Accuracy) auf dem ausgelassenen Datensatz (die verbleibenden 20%).
3. Schritt:
Ich berechne die Differenz der inner sample performance und der outter sample performance, sprich ich ziehe von der Accuracy aus Schritt 1 die Accuracy aus Schritt 2 ab. Diese Differenz ist ein Maß für das Overfitting und berücksichtigt gleichzeitig die Modellselektion.

Anschließend führe ich die oben genannten Schritte 5 mal durch, wobei ich jedes mal andere 20% der Daten auslasse. Am Ende erhalte ich 5 von den in Schritt 3 beschriebenen Accuracy-Differenzen und berechne davon den Mittelwert.

Zu guter letzte nehme ich den gesamten Datensatz, wende die backward selection an und schätze ein logistisches Regressionsmodell. Für dieses berechne ich ebenfalls die inner sample performance auf dem gesamten Datensatz. Davon ziehe ich dann den oben genannten Mittelwert ab. Am Ende erhalte ich also die bereinigte Performance des "globalen" Modells. Vorteil hierbei soll sein, dass nicht nur für overfitting korregiert wird, sondern für den gesamten Prozess der Modellfindung.

Diese Vorgehensweise ist angelehnt an eine Bootstrap Methode die ich mal verwendet habe. Allerdings konnte ich exakt diese Vorgehensweise bisher in keinem Lehrbuch finden.
Meine Frage lautet daher, ob es eurerseits Einwände gibt? Verwendet jemand eine ähnliche Methode oder kann mir vielleicht sogar Literatur empfehlen, in der genau diese Methode beschrieben/erwähnt wird?
Ich danke euch im Voraus!

Viele Grüße
Student45
Student45
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 19. Nov 2020, 16:12
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Backward Selection innerhalb der Cross Validation

Beitragvon bele » Do 2. Nov 2023, 15:19

Hallo Student45,

sorry, so ein Vorgehen kenne ich nicht. So richtig überzeugend finde ich das auch nicht, was wahrscheinlich daran liegt, dass ich backward elimination für falsch halte. Das ist ein Verfahren für eine Zufallsauswahl an Prädiktoren das bei sehr geringen Unterschieden in den Daten zu völlig unterschiedlichen Ergebnissen kommen kann. Deshalb teile ich Deinen (impliziten) Optimismus nicht, dass bei denen fünf CV-Regressionen schon etwas ähnliches/vergleichbares wie beim Gesamtmodell herauskommen wird aus dem man Rückschlüsse auf das Gesamtmodell oder dessen Fehleinschätzung der Accuracy ziehen sollte. Das kann natürlich schon funktionieren, wenn es sich um eine Schönwettersituation handelt, in der einzelne Prädiktoren eindeutig dazu gehören und andere eindeutig nicht, aber wann hat man das schonmal?

Was im Forum von den wichtisten Angaben am häufigsten fehlt ist die Fallzahl, die Anzahl der Stichproben. Wenn die nicht prohibitiv groß ist, würde ich vorschlagen, Dein Vorgehen nicht als 5fach-Kreuzvalidierung sondern als Leave-One-Out (LOO) durchzuziehen. Dann hast Du einen großen Haufen von Modellen die Deinem endgültigen Modell wahrscheinlich wirklich sehr ähnlich sind (weil sie aus fast den gleichen Daten bestimmt wurden) und kannst die out-of-sample Accuray aus der jeweils einen ausgelassenen Stichprobe schätzen.

Du hast dann zwar immer noch das Problem, dass Du nicht weißt, welches das beste Modell für Deine Daten, welches die richtigen Prädiktoren, sind. Aber wenigstens hast Du die Vorhersagekraft mit wirklich ähnlichen Modellen bestimmt.

Wie gesagt, ich glaube nicht an schrittweise Eliminierung und es ist völlig ok, wenn Du mich da für ideologisch verbohrt hälst.
Viele Grüße,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5916
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

Re: Backward Selection innerhalb der Cross Validation

Beitragvon PonderStibbons » Do 2. Nov 2023, 15:43

Student45 hat geschrieben:Hallo zusammen,
ich möchte bei der Bestimmung meiner Modellperformance (logistisches Regressionsmodell) den Prozess der Modellselektion berücksichtigen.

Es wäre nützlich Thema und Fragestellung, geplante Verwendung der Ergebnisse für welchen Zweck, Erhebungsdesign,
Stichprobengröße, Anzahl der Prädiktoren zu beschreiben. Und mit welcher Begründung eine Modellbildung anhand
mechanischer (Rückwärts-)elimination gewählt wurde.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11367
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu weitere Verfahren

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron