Hallo zusammen,
Ich hoffe ich bin hier mehr oder weniger im richtigen Forenbereich.
Ich hatte auf mein Problem zunächst einen T-Test angewandt, was sich aber im Nachhinein als falsch herausstellte, da die Daten nicht normalverteilt sondern in einer Gammaverteilung vorliegen. Ich versuche mal alles aufzudröseln, damit verständlich ist, was ich überhaupt möchte.
Ich habe zunächst einen Random Forest Datensatz trainiert. Dieser soll dazu dienen, Daten aus neuen Datensätzen zu klassifizieren. Bei dem Training mit dem Datensatz ergeben sich für jede Klasse Wahrscheinlichkeiten der Zuordnung zu der richtigen Klasse, die zwischen Null und Eins liegen wobei eine Tendenz in richtung Eins vorliegt.
Nun war die Idee, Daten zu identifizieren, die wahrscheinlich nicht in eine der trainierten Klassen gehören - also in eine neue, unbekannt Klasse. Versucht wurde das über die Wahrscheinlichkeit zur Zuordnung zu einer bestimmten Klasse. Durch den Trainingsdatensatz habe ich eine natürliche Bandbreite an Wahrscheinlichkeiten ermittelt, mit der Daten als Korrekt klassifiziert gelten. Über den T Test wollten wir nun die Daten identifizieren, die signifikant von den natürlichen Wahrscheinlichkeiten abweichen und somit als falsch klassifiziert gelten.
Das Problem an der Sache ist, dass dadurch auch Daten rausfallen, die eine Wahrscheinlichkeit der Zuordnung haben, die höher ist, als die natürlich erhobene Wahrscheinlichkeit. Der Trainingsdatensatz ist einer natürlichen Variabilität unterworfen, weshalb eine Zuordnungswahrscheinlichkeit von Eins, schlicht nicht vorkommt. Im Testdatensatz sind aber durchaus Daten enthalten, die so gut passen, dass der Wert über der natürlichen Bandbreite liegt. Der T-Test hat in diesen Fällen dann ergeben, dass eine signifikante Abweichung vorliegt und es sich nach unserer Auslegung, nicht um die klassifiziert Art handelt.
Somit haben wir festgestellt, dass es sich bei dem T-Test um den falschen Test für unsere Zwecke handelt - oder liege ich da falsch?
Gibt es eine Variante des T Tests (für Gammaverteilte Daten), der die Tatsache, dass es eine Tendenz zur oberen Grenze gibt mit einbezieht?
Ich hoffe man versteht was ich meine und, dass vielleicht jemand eine Lösung für mein Problem kennt.
Grüße
Sven