Hallo zusammen,
Ich habe 150 Berichte verschiedener Firmen über Bedrohungsgruppen zusammengetragen, die Berichte sind nach dem Namen der Gruppe benannt. In diesen Berichten sind verschiedene Techniken enthalten, die von den beschriebenen Gruppen im Rahmen von Angriffen verwendet haben. Jeder Bericht enthält eine unterschiedliche Anzahl solcher Techniken.
Daneben gibt es eine Technik-Datenbank mit 100 Bedrohungsgruppen, die ebenfalls über Techniken verfügen. Jede Gruppe hat unterschiedlich viele, sich teils mit anderen Gruppen überschneidende Techniken.
Um herauszufinden, ob die Datenbank überhaupt korrekte/wertvolle Ergebnisse liefert, habe ich die Techniken jedes einzelnen Berichts, wie mit einem Lochkartenprinzip, mit jeder einzelnen Gruppe in der Datenbank verglichen. Immer wenn eine Technik im Bericht ist und in der Gruppe wiedergefunden wird, gibt es einen Punkt für den Bericht an der Stelle der Gruppe. Am Ende hat dann die Gruppe aus der Datenbank, die in den meisten Techniken mit dem Bericht übereinstimmt, die meisten Punkte. Im Idealfall ist das die Bedrohungsgruppe, die von der Firma auch beschrieben wurde. Im schlechtesten Fall hat die Firma einen Bericht zu Gruppe A herausgegeben, es gibt aber mehr oder gleich viele Übereinstimmungen mit Gruppe B und D aus der Datenbank. Die Meinung der Firma, dass es sich um eine bestimmte Gruppe handelt, bestätigt sich also anhand des Abgleichs (richtig) oder eben nicht (falsch).
Der Datensatz A sieht so aus:
Bericht001; 15 Techniken; richtig
Bericht002; 10 Techniken; falsch
Bericht003; 27 Techniken; falsch
Bericht004; 19 Techniken; richtig
...
Bericht150; 37 Techniken; richtig
Die richtige Gruppe wurde für diesen Datensatz A in 29% der Fälle zugeordnet.
Daneben gibt es einen Datensatz B mit 20 Berichten einer einzigen Firma, die in 52% der Fälle korrekt zugeordnet wurden.
Frage 1) Für mich sieht ein Zuordnungsergebnis von 29% nach Zufall aus. Da es aber 100 Bedrohungsgruppen gibt, könnte ich mir vorstellemn dass es bei einem Zufallsergebnis noch weniger richtige Berichte gäbe. Woher weiß ich, ob es sich um Zufall handelt oder nicht? Kann man das irgendwie wissenschaftlich formulieren (vielleicht hat jemand ein Beispiel)?
Frage 2) Ich wollte wissen, ob es einen Einfluss der Anzahl der Techniken auf das Ergebnis (richtig/falsch) gibt. Dafür habe ich mit Mühe und Not (YouTube) einen Shapiro-Wilk-Test auf Normalverteilung gemacht: Datensatz A ist normalverteilt, Datensatz B nicht. Dann habe ich einen Test für unabhänige Stichproben (t-Test) gemacht: Bei Datensatz A hat die Anzahl der Techniken einen signifikanten Einfluss auf das Ergebnis, bei Datensatz B nicht. Trotzdem sind die Ergebnisse bei A nur in 29% der Fälle richtig, bei B aber in 52% der Fälle. Für mich ein weitere Hinweis auf Zufall? Was bedeutet das? Sollte ich einen weiteren Test machen? Es gibt ansonsten keine anderen Daten, die ich verwenden könnte.
Ich bin mir ingesamt unsicher, welche Bedeutung meine Ergebnisse haben. Ursprünglich wollte ich nur wissen, ob die Datenbank im Allgemeinen nützlich ist oder nicht. Wenn nur 29 oder 52% der Berichte aber auch in der Technik-Datenbank korrekt identifiziert werden können, ist sie meiner Meinung nach nicht nützlich. Seht ihr das anders?
Würde mich sehr freuen, wenn irgendjemand ein paar hilfreiche Tipps oder Ideen hat.