Hallo Canna911,
es gibt hier verschiedene Vorlieben, Denkansätze und Wertungen - nicht eine allgemein verbindliche Vorgehensweise. Eine wichtige Frage ist, ob Du quasi beliebig viele Daten hast, oder ob die Datenmenge ein Flaschenhals ist.
Wenn Du eine einfaches Modell mit nur einem Prädiktor und klaren Abhängigkeitsverhältnissen rechnen würdest, wären 70% von 150, also 105 Fälle, vielleicht eine großzügig bemessene Zahl und Du könntest es Dir erlauben, 30% der Daten nur zu Testzwecken zu verwenden. Vielleicht war es aber ein riesiger Aufwand, 150 Fälle zu erreichen und eigentlich findest Du die Zahl schon ganz schön knapp. Dann wärest Du wohl kaum bereit, 30% der Daten -45 Fälle- gar nicht in die Parametrisierung des Modelss und damit den eigentlichen Erkenntnisgewinn einfließen zu lassen, sondern sie nur für die Rechtfertigung eines an 105 Fällen parametrisierten Modells zu verbraten. In solchen Situationen kannst Du mit dem Mehraufwand der
verschiedenen Kreuzvalidierungsverfahren alle diese Daten einer sinnvollen Verwendung zuführen.
Das musst Du in Deinem Einzelfall prüfen, wie groß die Gefahr eines Informationsverlustes ist, wenn Du die 30% überhaupt gar nicht analytisch anschaust, bzw. wie Du mit den 5 verschiedenen Modellen umgehst, wenn Du 5-fache Kreuzvalidierung machst. Welches soll dann das Ergebnis sein? Was tust Du, wenn bei diesen 5 Durchläufen nicht das gleiche herauskommt?
Eine allgmeingültige Universalantwort wirst Du hier nicht bekommen. Mach Dir aber vor der Durchführung irgendwelcher schicker Verfahren klar, wie Du mit dem Ergebnis umgehen willst. Dieser Gedanke hilft, den Wert der investierten Arbeit klarer zu sehen.
LG,
Bernhard