Hallo zusammen,
ich bin kein Mathematiker oder Statistiker, daher entschuldige ich mich, falls ich mich unklar ausdrücke. Ich gebe mein Bestes.
Ich versuche, einen Weg zu finden, die Anzahl der falsch gelabelten Datensätze in einem Trainingsdatensatz im Bereich des maschinellen Lernens zu bestimmen. Diese Metrik ist in der Literatur auch als "Daten-Accuracy" bekannt. Ein Datensatz kann zum Beispiel aufgrund eines Sensorfehlers falsch gelabelt sein.
Mein Ansatz ist es, für jede Klasse den Mahalanobis-Abstand zwischen dem Mittelwert des Feature-Vektors und jedem Datensatz in der Klasse zu berechnen und daraus einen Durchschnitt zu bilden.
Somit hätte ich eine Metrik, die meiner Intuition nach mit der (unbekannten) Anzahl an falsch gelabelten Datenpunkten wächst.
Macht dieser Ansatz Sinn, und kann man das irgendwie mathematisch untermauern?
Vielen Dank für eure Unterstützung!
Mit freundlichen Grüßen,
Rafael Cardoso