Mahalanobis Distanz (MD) als Schätzer für misslabel?

Distanzmaße, Diskriminanzanalyse, graphische Analysen etc.

Mahalanobis Distanz (MD) als Schätzer für misslabel?

Beitragvon bt711879 » Mi 20. Nov 2024, 14:48

Hallo zusammen,

ich bin kein Mathematiker oder Statistiker, daher entschuldige ich mich, falls ich mich unklar ausdrücke. Ich gebe mein Bestes.
Ich versuche, einen Weg zu finden, die Anzahl der falsch gelabelten Datensätze in einem Trainingsdatensatz im Bereich des maschinellen Lernens zu bestimmen. Diese Metrik ist in der Literatur auch als "Daten-Accuracy" bekannt. Ein Datensatz kann zum Beispiel aufgrund eines Sensorfehlers falsch gelabelt sein.
Mein Ansatz ist es, für jede Klasse den Mahalanobis-Abstand zwischen dem Mittelwert des Feature-Vektors und jedem Datensatz in der Klasse zu berechnen und daraus einen Durchschnitt zu bilden.
Somit hätte ich eine Metrik, die meiner Intuition nach mit der (unbekannten) Anzahl an falsch gelabelten Datenpunkten wächst.
Macht dieser Ansatz Sinn, und kann man das irgendwie mathematisch untermauern?

Vielen Dank für eure Unterstützung!

Mit freundlichen Grüßen,
Rafael Cardoso
bt711879
Einmal-Poster
Einmal-Poster
 
Beiträge: 1
Registriert: Mi 20. Nov 2024, 14:32
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Zurück zu weitere Verfahren

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron