Hi,
ideal wäre, wenn Du die Hälfte oder ein Drittel Deiner Daten verwenden würdest, um das beste Modell zu finden und anschließend mit den restlichen Daten das Modell parametrisieren würdest. Aber in Wirklichkeit sind Daten meist teuer und wertvoll und man hat eher zu wenig als zu viele Daten. Dann kommt es darauf an, wo Dein Schwerpunkt liegt. Bist Du als Forscher unterwegs und suchst nach neuen Zusammenhängen, dann wirst Du viele verschiedene Modelle durchprobieren. Hast Du Deine Daten erhoben, um einen bestimmten Zusammenhang zu beweisen, dann solltest Du die Art der Testung möglichst im Vorhinein festlegen.
Das Problem ist viel größer als Du denkst, denn abseits der Polinome bei der linearen Regression gibt es noch unzählige weitere Formen von Regressionsrechnungen und so hat der Statistiker eine große Zahl von Freiheitsgraden - immer mit der Gefahr, dass bei unzähligen Analysen schon eine ein kleines p auswerfen wird, selbst wenn die Daten nur zufällig zu passen scheinen.
Das Phänomen ist auch als
Researcher's Degrees of Freedom bekannt. Mit diesem Suchbegriff findest Du im Netz einiges.
ich hoffe die frage ist verständlich und mir kann jemand helfen
Die Frage ist verständlich, aber beim derzeit in der Wissenschaft üblichen Umgang mit Statistik kann man sich schon fragen, ob uns noch zu helfen ist.
LG,
Bernhard