Hallo und danke fürs lesen meiner Frage
Folgendes Problem habe ich im Bereich Datenauswertung:
Ich habe eine Datenbank zu Schadensfällen zu einem bestimmten Schadenssymptom. Der Datenbankumfang beläuft sich auf ca. 1.000 bis 2.000 Datenpaare. Ein Datenpaar ist ein Schadensfall. Zu jedem ausgefallenen Bauteilen enthält diese Datenbank u.a. folgende Informationen:
Bauteilnummer, Produktionsdatum, Ausfalldatum, Nutzungsdauer (Zähler im Gerät) bis zum Ausfall.
Aus dieser Datenbank werden x defekte Bauteile angefordert (Stichprobe mit Stichprobenumfang x << Datenbankumfang x ~ 200 - 400), welche technisch weiter untersucht werden. Am Ende dieser technischen Untersuchung wird ein Analyseergebniss erstellt. Dabei kristallisieren sich einige wenige Schadensursachen heraus (1-3 dominierende Ursachen, 5 - 10 Schadensursachen mit Ausfällen > 10 sowie eine Vielzahl an Einzelfehler). Jede Schadensursache wird verschlüsselt (vierstellige Verschlüsselung), so dass die Informationen zur Schadensursache gut aufbereit vorliegen (kein Freitext etc.).
Zu jedem dieser Schadensursachen könnte ich bspw. über Verteilungsmodelle das Ausfallverhalten abbilden. Ich könnte auch die Stichprobe mit der Grundgesamtheit vergleichen um festzustellen, ob meine Stichprobe günstig gewählt wurde.
Welche Information ich jedoch gerne hätte: Lässt sich auf Basis der Anzahl und dem Ausfallverhalten der Schadensursachen in der Stichprobe, deren Anzahl und Ausfallverhalten auf die Grundgesamtheit hochrechnen, bzw. korrelieren. In der Grundgesamtheit habe ich die Laufleistung, aber eben nicht die Schadensursache.
Leider kenne ich mich mit multivariaten Analyseverfahren nicht aus. Alle Verfahren, die ich bisher gefunden habe benötigen vollständige Datenpaare. In diesem Fall fehlt mir jedoch innerhalb der Grundgesamtheit eine Information, welche in der Stichpobe enthalten ist. Diese Information ist zudem ein qualitatives und nicht quantitatives Merkmal.
Könnte mir jemand ggf. entsprechende Standardverfahren nennen, welche ggf. auch leicht umsetzbar wären. Ich habe u.a. Matlab und Mathematika (leider nie ausführlich benutzt). Aus der R-Community weiß ich, dass vielmals bereits fertige Programme vorliegen, die solche Verfahren/Methoden abdecken
Bei Fragen zur statistischen Zuverlässigkeitsanalyse von Feldschadensfällen werde ich gerne in Zukunft bei Bedarf aushelfen
An dieser Stelle erneut Danke für das Lesen einer Frage einen Neulings
Nachtrag:
Zur Vereinfachung reicht die Konzentration auf Nutzungsdauer bis zum Ausfall und die Schadensursache. In die Grundgesamtheit liegen demnach für jeden Schadensfall nur die Laufleistung vor, für die Stichprobe auch die Schadensursache. Wenn man die zusätzlichen Informationen der Stichprobe in die Grundgesamtheit integriert hätte man eine Liste:
i Nutzungsdauer Schadensursache
1 5 h -
2 6 h Ursache A
3 7 h -
4 7 h Ursache B
5 8 h Ursache A
6 9 h -
7 10 h Ursache A
8 11 h -
9 12 h -
10 15 h Ursache B
...