Hey
Ich arbeite zurzeit an einem Datensatz, in dem es um die Klassifikation von Geschlechtern anhand kieferorthopädischer Maße geht. Es handelt sich um eine Stichprobe von 35 Personen. Bei dem Prozess der Klassifikation gibt es ja die Möglichkeit einen bestimmten prozentualen Anteil der Daten als Trainingsdaten zu verwenden, um dann die Testdaten zu klassifizieren. In meinem Fall habe ich 28 Personen bzw. 80 % der Daten als Trainingsdaten verwendet und daher 7 Personen bzw. 20 % als Testdaten.
Für mich hat das Sinn ergeben, weil so mehr Trainingsdaten vorhanden sind und daher eine höhere Klassifikation der Testdaten möglich erscheint.
Allerdings habe ich das Ganze zum ersten Mal durchgeführt und bin mir etwas unsicher, ob das üblicherweise anders gemacht wird. In der Literatur, die ich dazu finden konnte, gab es keine wirklich sinnvollen Angaben.
Vielleicht hat ja jemand von euch eine Tipp für mich?
Liebe Grüße