Model validieren: test/training set, cross-validation, etc

Fragen, die sich auf kein spezielles Verfahren beziehen.

Model validieren: test/training set, cross-validation, etc

Beitragvon Canna911 » Mi 20. Dez 2017, 14:09

Hallo liebe Statistik-Fans,
ich habe eine Frage und weiß nicht in welche Kategorie sie am besten passt.

Es geht darum, wie ich grundsätzlich Daten behandle wenn ich ein Modell erstellen und anschließend validieren will.
Ich habe viel darüber gelesen aber bin verwirrt.
Ist folgendes korrekt?

1) Ich habe einen Datensatz von 150 was auch immer.
2) Ich teile diesen Datensatz in 70% training data und 30% test data auf. Mit den 70% erstelle ich also das Modell und die "neuen" 30% nutze ich um das Modell zu validieren.

Was ist aber dann mit so Methoden wie cross-validation? Das soll ja, was ich so lese, der Standard sein. Wäre das eine Alternative zu dem o.g. oder eine Ergänzung?

Danke euch!!!
Canna911
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 20. Dez 2017, 14:01
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Model validieren: test/training set, cross-validation, e

Beitragvon PonderStibbons » Mi 20. Dez 2017, 14:18

Ich habe viel darüber gelesen aber bin verwirrt.

Ja, das scheint ein verbreitetes Phänomen zu sein https://tinyurl.com/y792bfz9

Was ist aber dann mit so Methoden wie cross-validation? Das soll ja, was ich so lese, der Standard sein. Wäre das eine Alternative zu dem o.g. oder eine Ergänzung?

Was Du skizziertest, war eine Kreuzvalidierung.
Verstehst Du unter dem Begriff noch etwas anderes?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Model validieren: test/training set, cross-validation, e

Beitragvon bele » Mi 20. Dez 2017, 21:49

Hallo Canna911,

es gibt hier verschiedene Vorlieben, Denkansätze und Wertungen - nicht eine allgemein verbindliche Vorgehensweise. Eine wichtige Frage ist, ob Du quasi beliebig viele Daten hast, oder ob die Datenmenge ein Flaschenhals ist.

Wenn Du eine einfaches Modell mit nur einem Prädiktor und klaren Abhängigkeitsverhältnissen rechnen würdest, wären 70% von 150, also 105 Fälle, vielleicht eine großzügig bemessene Zahl und Du könntest es Dir erlauben, 30% der Daten nur zu Testzwecken zu verwenden. Vielleicht war es aber ein riesiger Aufwand, 150 Fälle zu erreichen und eigentlich findest Du die Zahl schon ganz schön knapp. Dann wärest Du wohl kaum bereit, 30% der Daten -45 Fälle- gar nicht in die Parametrisierung des Modelss und damit den eigentlichen Erkenntnisgewinn einfließen zu lassen, sondern sie nur für die Rechtfertigung eines an 105 Fällen parametrisierten Modells zu verbraten. In solchen Situationen kannst Du mit dem Mehraufwand der verschiedenen Kreuzvalidierungsverfahren alle diese Daten einer sinnvollen Verwendung zuführen.

Das musst Du in Deinem Einzelfall prüfen, wie groß die Gefahr eines Informationsverlustes ist, wenn Du die 30% überhaupt gar nicht analytisch anschaust, bzw. wie Du mit den 5 verschiedenen Modellen umgehst, wenn Du 5-fache Kreuzvalidierung machst. Welches soll dann das Ergebnis sein? Was tust Du, wenn bei diesen 5 Durchläufen nicht das gleiche herauskommt?

Eine allgmeingültige Universalantwort wirst Du hier nicht bekommen. Mach Dir aber vor der Durchführung irgendwelcher schicker Verfahren klar, wie Du mit dem Ergebnis umgehen willst. Dieser Gedanke hilft, den Wert der investierten Arbeit klarer zu sehen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste