von Souvite » Mi 5. Mär 2014, 16:13
Hallo,
da ich bisher keine Antwort bekommen habe, versuche ich mein Problem noch mal genauer zu beschreiben, in der Hoffnung, dass mir dann jemand weiterhelfen kann!
Ich habe Hustenereignisse aufgenommen, sowohl trockene als auch produktive. Daraus habe ich ein Lernset erstellt, in dem 230 trockene und 28 produktive Ereignisse sind und die ich manuell entsprechend eingeteilt habe. Mein Algorithmus soll diese Einteilung nun automatisch durchführen. Dafür habe ich fünf verschiedene Eigenschaften des Signals analysiert. Die Ergebnisse, die sich daraus ergeben, habe ich klassifiziert und in Form von Häufigkeitsverteilungen in Diagrammen dargestellt (siehe angehängte Datei: Bsp für zwei Eigenschaften). Die aufgetragenen Häufigkeiten sind dabei keine Absolut- sondern Relativwerte, um trockene und produktive Ereignisse vergleichbar zu machen (wegen der geringen Anzahl an produktiven Ereignissen im Vergleich zu den trockenen). Aus diesen Verteilungen habe ich für jede Klasse eine Wahrscheinlichkeit für produktiven Husten errechnet, indem ich die Relativhäufigkeit des produktiven Hustens durch die Summe beider Relativhäufigkeiten geteilt habe.
Wenn ich nun für ein neues Hustenereignis automatisch berechnen will, mit welcher Wahrscheinlichkeit es sich um produktiven (bzw. trockenen) Husten handelt, kann ich für jede Eigenschaft eine Klassifizierung durchführen, habe dann aber fünf Wahrscheinlichkeiten.
Wenn ich das auf die angehängten Diagramme beziehe, dann habe ich bspw. ein Husten, das nach Eigenschaft 1 in die mittlere Klasse fällt und damit eine Wahrscheinlichkeit von 0,89 für produktiven Husten hat. Eigenschaft 2 ergibt eine Wahrscheinlichkeit von 0,84, da das Ereignis in die erste Klasse fällt. Diese Wahrscheinlichkeiten möchte ich nun zusammenrechnen. Da beide Wahrscheinlichkeiten recht hoch sind, gehe ich davon aus, dass ich schon recht sicher sagen kann, dass es sich um produktiven Husten handelt und die durchschnittliche Wahrscheinlichkeit einen zu geringen Wert darstellen würde. Von bedingter Wahrscheinlichkeit kann man hier denke ich auch nicht sprechen, da das ja zu noch geringeren Wahrscheinlichkeitswerten führen würde.
Vielleicht ist die Lösung dieses Problems total simpel, vielleicht ist mein Ansatz aber auch schon total falsch??
Ich wäre auf jeden Fall sehr dankbar, wenn mir jemand einen Tipp geben könnte, ob das was ich bisher gemacht habe statistisch in Ordnung ist und wie ich an dieser Stelle weiter machen kann!
Viele Grüße
- Dateianhänge
-

- Rote Balken stellen die relativen Häufigkeiten von trockenen Hustenereignissen dar, blaue für produktive
- berechneWahrscheinlichkeiten_2Diagramme.jpg (25.17 KiB) 686-mal betrachtet