Von der Stichprobe auf Grundgesamtheit

Fragen, die sich auf kein spezielles Verfahren beziehen.

Von der Stichprobe auf Grundgesamtheit

Beitragvon Stephanwiw » Fr 4. Mai 2012, 13:17

Hallo und danke fürs lesen meiner Frage ;)

Folgendes Problem habe ich im Bereich Datenauswertung:
Ich habe eine Datenbank zu Schadensfällen zu einem bestimmten Schadenssymptom. Der Datenbankumfang beläuft sich auf ca. 1.000 bis 2.000 Datenpaare. Ein Datenpaar ist ein Schadensfall. Zu jedem ausgefallenen Bauteilen enthält diese Datenbank u.a. folgende Informationen:
Bauteilnummer, Produktionsdatum, Ausfalldatum, Nutzungsdauer (Zähler im Gerät) bis zum Ausfall.

Aus dieser Datenbank werden x defekte Bauteile angefordert (Stichprobe mit Stichprobenumfang x << Datenbankumfang x ~ 200 - 400), welche technisch weiter untersucht werden. Am Ende dieser technischen Untersuchung wird ein Analyseergebniss erstellt. Dabei kristallisieren sich einige wenige Schadensursachen heraus (1-3 dominierende Ursachen, 5 - 10 Schadensursachen mit Ausfällen > 10 sowie eine Vielzahl an Einzelfehler). Jede Schadensursache wird verschlüsselt (vierstellige Verschlüsselung), so dass die Informationen zur Schadensursache gut aufbereit vorliegen (kein Freitext etc.).

Zu jedem dieser Schadensursachen könnte ich bspw. über Verteilungsmodelle das Ausfallverhalten abbilden. Ich könnte auch die Stichprobe mit der Grundgesamtheit vergleichen um festzustellen, ob meine Stichprobe günstig gewählt wurde.

Welche Information ich jedoch gerne hätte: Lässt sich auf Basis der Anzahl und dem Ausfallverhalten der Schadensursachen in der Stichprobe, deren Anzahl und Ausfallverhalten auf die Grundgesamtheit hochrechnen, bzw. korrelieren. In der Grundgesamtheit habe ich die Laufleistung, aber eben nicht die Schadensursache.

Leider kenne ich mich mit multivariaten Analyseverfahren nicht aus. Alle Verfahren, die ich bisher gefunden habe benötigen vollständige Datenpaare. In diesem Fall fehlt mir jedoch innerhalb der Grundgesamtheit eine Information, welche in der Stichpobe enthalten ist. Diese Information ist zudem ein qualitatives und nicht quantitatives Merkmal.

Könnte mir jemand ggf. entsprechende Standardverfahren nennen, welche ggf. auch leicht umsetzbar wären. Ich habe u.a. Matlab und Mathematika (leider nie ausführlich benutzt). Aus der R-Community weiß ich, dass vielmals bereits fertige Programme vorliegen, die solche Verfahren/Methoden abdecken :)

Bei Fragen zur statistischen Zuverlässigkeitsanalyse von Feldschadensfällen werde ich gerne in Zukunft bei Bedarf aushelfen :)

An dieser Stelle erneut Danke für das Lesen einer Frage einen Neulings ;)

Nachtrag:
Zur Vereinfachung reicht die Konzentration auf Nutzungsdauer bis zum Ausfall und die Schadensursache. In die Grundgesamtheit liegen demnach für jeden Schadensfall nur die Laufleistung vor, für die Stichprobe auch die Schadensursache. Wenn man die zusätzlichen Informationen der Stichprobe in die Grundgesamtheit integriert hätte man eine Liste:
i Nutzungsdauer Schadensursache
1 5 h -
2 6 h Ursache A
3 7 h -
4 7 h Ursache B
5 8 h Ursache A
6 9 h -
7 10 h Ursache A
8 11 h -
9 12 h -
10 15 h Ursache B
...
Stephanwiw
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 4. Mai 2012, 12:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon Stephanwiw » Mo 7. Mai 2012, 16:38

Falls die Fragestellung zu unspezifisch ist oder mehr Angaben erforderlich sind, bitte schreibt dies, dann probiere ich die benötigten Informationen nachzuholen.
Eine genauere Eingrenzung des Problems würde mir auch helfen, bspw. in welche Methodenebene dieses Problem geht, bspw. Clustering, Korrelation, Regression, etc.... :)

Vielen Dank!
Stephanwiw
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 4. Mai 2012, 12:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon PonderStibbons » Mo 7. Mai 2012, 20:19

Welche Information ich jedoch gerne hätte: Lässt sich auf Basis der Anzahl und dem Ausfallverhalten der Schadensursachen in der Stichprobe, deren Anzahl und Ausfallverhalten auf die Grundgesamtheit hochrechnen, bzw. korrelieren. In der Grundgesamtheit habe ich die Laufleistung, aber eben nicht die Schadensursache.

Ich verstehe nicht ganz, wo speziell das Problem liegt. Wenn die Stichprobenelemente
zufällig ausgewählt wurden, so sind die Stichprobenwerte der Schätzer für die
Grundgesamtheit. Um einen Eindruck über die Präzision der Schätzung zu gewinnen,
könnte man noch Konfidenzintervalle berechnen, ggfls. solche für finite Populationen
(wobei ich nicht weiß, wieso die Ausgangsmenge hier als Grundgesamtheit betrachtet
werden soll; wäre sie eine, dann würden Generalisierungen der Ergebnisse über die
1-2000 Elemente der Datenbank hinaus nicht interessieren, was ungewöhnlich wäre).

Mit freundlichen Grüßen

K.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon Stephanwiw » Mo 7. Mai 2012, 23:35

Hallo K.,

Danke für deine Antwort! Die Idee mit den Konfidenzintervallen hat für mich folgendes Problem: Die Merkmalsträger können mehr als zwei Ausprägungen (defekt/nicht defekt) annehmen.
Im vorliegenden Fall besteht meine Stichprobe aus n analysierten Bauteilen, welche unterschiedliche Schadenskausalitäten haben Ursache A, B, C, D, E, F, G .... Die Ausprägung "nicht defekt" gibt es nicht.

Bei zwei Ausprägungen kann ich für einen der beiden Zustände ein Konfidenzintervall bestimmen, aber wie soll das für alle Ausprägungen gehen?

Und ich würde auch gerne das Ausfallverhalten der Schadenskausalitäten in der Stichprobe und Grundgesamtheit verwenden.

Bspw.: Fällt die Schadenskausalität A bei niedrigen Laufleistungen aus, in der Grundgesamtheit sind jedoch meist nur defekte mit hohen Laufleistungen enthalten, sollte die Umrechnung geringer ausfallen.

Mit welchem Verfahren kann ich den Konfidenzintervall bei Merkmalträgern mit x-Ausprägungen berechnen?

Bzgl. Ausgangsmenge: Habe mich wirklich unklar ausgedrückt: Die "Grundgesamtheit" ist ein Testdatensatz, welcher über einen Garantiezeitraum erstellt wurde und bei dem alle Teile technisch analysiert wurden. Aus dieser Grundgesamtheit kann demnach eine Stichprobe gezogen werden und die Bauteile dieser Stichprobe können techisch analysiert werden. Der Testdatensatz könnte somit immer zur Verifizierung dienen. Ich möchte jedoch Methoden anwenden, bei denen auch ohne Kenntnis der genauen Schadenskausalitäten in der GG eine Hochrechnung der Schadenskausalitäten erfolgen kann. Aus der GG sind dann nur die Laufleistung bekannt.

Verständlich ?!? :(
Stephanwiw
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 4. Mai 2012, 12:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon PonderStibbons » Di 8. Mai 2012, 21:29

Zur Veranschaulichung würde es vermutlich reichen, für jede Kategorie
das jeweilige Konfidenzintervall zu berechnen (A%, B% etc., Binomialverteilung).

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon Stephanwiw » Mi 9. Mai 2012, 09:55

Hallo,
stimmt in einem ersten Schritt ist das okay, aber mir stellen sich dabei zwei Probleme:
a) Die Konfidenzintervalle der einzelnen Merkmalsausprägungen ergeben in der max. Summe mehr als 100 %; Zudem betrachten die gebräuchlichen KI-Verfahren immer nur zwei Merkmalsausprägungen (1/0; dekfekt/nicht defekt)
b) Berücksichtigt dies nicht die zusätzliche Information der Laufleistung

Mir würde etwas wie bspw. Methoden der Clusteranalyse spontan einfallen, wo ich probiere auf Basis der Wertepaare Gruppen zu bilden.
Allerdings habe ich in der Grundgesamtheit eine unvollständige Datenbasis (bei Annahme, dass nur die Schadenskausalitäten der analysierten Fahrzeuge in der Stichprobe bekannt sind).

zu a) Gibt es ein Verfahren mit dem man Konfidenzintervalle der Merkmalsausprägungen gesamthaft bestimmen kann?
Stephanwiw
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 4. Mai 2012, 12:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von der Stichprobe auf Grundgesamtheit

Beitragvon Stephanwiw » Di 22. Mai 2012, 19:03

beaming up :) Da ich leider noch keine zufriedenstellende Antwort erhalten habe :(
Wie kann ich unter Verwendung der weiteren Daten der "Grundgesamtheit" von der Stichprobe auf die Grundgesamtheit schließen? Insbesondere bei unterschiedlichen Merkmalsmalsausprägungen! Dabei möchte ich keine überlappenden Konfidenzintervalle, welche bei der Erstellung einzelner KI-Internvalle für jede Merkmalsausprägung entstehen würde. Es herrscht ja eine Korrelation zwischen den einzelnen Merkmalsausprägungen, da sie in Summe 100 % ergeben. Steigt also eine Merkmalsausprägung an, reduzieren sich die anderen entsprechend...

Ich bin mit meinen Kenntnissen wirklich am Ende :(
Stephanwiw
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Fr 4. Mai 2012, 12:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste

cron