Hallo, ich habe folgendes Problem bei vorliegen unvollständiger Datensätze.
Idealfall: Ich habe für i = 1 bis n Merkmalsträger, mit zwei Merkmalen: Laufleistung (km;Ratioskala;metrisches Skalenniveau) positive reelle Zahlen und Fehlerursachen (Nominalskala):
Beispiel:
i Laufleistung Schadensursache
1 5 km Ursache A
2 6 km Ursache B
3 7 km Ursache A
4 7 km Ursache B
5 8 km Ursache A
6 9 km Ursache A
7 10 km Ursache A
8 11 km Ursache B
9 12 km Ursache A
10 15 km Ursache C
...
n ~ 1000 ; Mit ca. 60 Fehlerursachen, viele kommen nur wenige male vor, andere sehr häufig
Mittels Clustering könnte ich jetzt Gruppe bilden, welche Ähnlichkeiten, bzw. Unähnlichkeiten gemeßen werden können.
PROBLEM:
von allen n = 1000 Fällen kenne ich die Laufleistung, jedoch nur von ca. 200 - 250 Fällen (Stichprobe) auch die Fehlerursache.
Dennoch würde ich gerne von der Stichprobe auf die Grundgesamtheit schließen.
Bisherige Lösungen: Ich sollte Konfidenzintervalle um die einzelnen Merkmalsausprägungen bilden. Mein Problem: Die zusätzliche Information der Laufleistung wird nicht bemüht und ich bestimme das KI nur um den Anteilswert der Schadenskausalität.
Mit der Laufleistung könnte ich das Ausfallverhalten mittels theoretischem Verteilungsmodell abbilden, bspw. mit Weibullverteilung...
Meine Frage:
Gibt es ein Verfahren, mit dem ich von der Stichprobe auf die Grundgesamtheit schließen kann incl. Verwendung der bekannten Laufleistung ALLER Schadenfälle?
Welche Methoden sind eigentlich richtig? Clusteringmethoden? Gibt es Konfidenzintervall-Methoden, welche Merkmale mit mehreren Merkmalsausprägungen hochrechnen können?
Vielen Dank im Voraus!