Hallo,
Ich arbeite mit struktrurellen alarmen, heißt wenn in einer chemischen struktur eine substruktur gefunden wird, wird das molekül als positiv markiert, sonst als "negativ".
Nun soll ich die Vorhersagekraft verschiedener Substrukturen auf mehreren Datensätzen von über 1000 Molekülen bewerten.
Jetzt stehe ich vor dem problem, dass ich für eine Substruktur ja nur die richtig und falsch positiven erkenne und es in dem sinne ja keine falsch negativen bzw richtig negativen gibt.
Also kann ich im prinzip nur den positiven vorhersagewert (PPV, precision) berechnen. Dieser ist ja aber abhängig davon, wie viele positive im gesamtdatensatz (quasi äuivalent zur prävalenz) sind, wenn ich das richtig verstanden habe. Bei mir sind das 50-75% positive je nach datensatz, in meinen augen ist also der PPV z.T zu hoch weil ja auch durch die hohe prävalenz von positiven die ratewahrscheinlichkeit viel höher als 50/50 ist.
Gibt es eine methode die ergebnisse für verschiedene datensätze trotzdem sinnvoll zu vergleichen (zB durch normalisieren?) oder die ergebnisse zu interpretieren ohne nur ziemlich unspezifisch zu sagen dass der unterschied (eben aber vermutlich nur zum teil) durch die hohe prävalenz kommt?
Ich hoffe ich habe da keinen riesigen denkfehler drin, würde mich freuend wenn mir jemand helfen könnte.
Lg