Hi
Ich habe einen Datenpaket von ca. 800.000 Datensätzen.
Jeder Datensatz enthält dabei genau 38 einzelne Merkmale.
Die Merkmale bestehen aus realen oder boolschen Werten.
Das ganze Datenpaket habe ich zur späteren Regressionsanalyse
in 3 Teile geteilt,
- Trainingsdaten ca. 400.000 Datensätze
- Testdaten ca. 60.000 Datensätze
- Validierungdaten ca. 350.000 Datensätze
Da die spätere Verwendung teilweise Probleme mit großen
Datenmengen hat, habe ich beschlossen die Trainingsdaten und
die Testdaten zu tauschen.
Die Datensätze wurden vor der Teilung aber gemischt, erwarte ich also,
dass trotz des Tausches ähnliche Ergebnisse rauskommen sollten.
Kann ich nur anhand der Datensätze genau dieses nachweisen?