Zufall oder nicht, Nutzen einer Datenbank

Fragen, die sich auf kein spezielles Verfahren beziehen.

Zufall oder nicht, Nutzen einer Datenbank

Beitragvon tituzzz » Mo 22. Mär 2021, 16:36

Hallo zusammen,

Ich habe 150 Berichte verschiedener Firmen über Bedrohungsgruppen zusammengetragen, die Berichte sind nach dem Namen der Gruppe benannt. In diesen Berichten sind verschiedene Techniken enthalten, die von den beschriebenen Gruppen im Rahmen von Angriffen verwendet haben. Jeder Bericht enthält eine unterschiedliche Anzahl solcher Techniken.

Daneben gibt es eine Technik-Datenbank mit 100 Bedrohungsgruppen, die ebenfalls über Techniken verfügen. Jede Gruppe hat unterschiedlich viele, sich teils mit anderen Gruppen überschneidende Techniken.

Um herauszufinden, ob die Datenbank überhaupt korrekte/wertvolle Ergebnisse liefert, habe ich die Techniken jedes einzelnen Berichts, wie mit einem Lochkartenprinzip, mit jeder einzelnen Gruppe in der Datenbank verglichen. Immer wenn eine Technik im Bericht ist und in der Gruppe wiedergefunden wird, gibt es einen Punkt für den Bericht an der Stelle der Gruppe. Am Ende hat dann die Gruppe aus der Datenbank, die in den meisten Techniken mit dem Bericht übereinstimmt, die meisten Punkte. Im Idealfall ist das die Bedrohungsgruppe, die von der Firma auch beschrieben wurde. Im schlechtesten Fall hat die Firma einen Bericht zu Gruppe A herausgegeben, es gibt aber mehr oder gleich viele Übereinstimmungen mit Gruppe B und D aus der Datenbank. Die Meinung der Firma, dass es sich um eine bestimmte Gruppe handelt, bestätigt sich also anhand des Abgleichs (richtig) oder eben nicht (falsch).


Der Datensatz A sieht so aus:

Bericht001; 15 Techniken; richtig
Bericht002; 10 Techniken; falsch
Bericht003; 27 Techniken; falsch
Bericht004; 19 Techniken; richtig
...
Bericht150; 37 Techniken; richtig


Die richtige Gruppe wurde für diesen Datensatz A in 29% der Fälle zugeordnet.

Daneben gibt es einen Datensatz B mit 20 Berichten einer einzigen Firma, die in 52% der Fälle korrekt zugeordnet wurden.

Frage 1) Für mich sieht ein Zuordnungsergebnis von 29% nach Zufall aus. Da es aber 100 Bedrohungsgruppen gibt, könnte ich mir vorstellemn dass es bei einem Zufallsergebnis noch weniger richtige Berichte gäbe. Woher weiß ich, ob es sich um Zufall handelt oder nicht? Kann man das irgendwie wissenschaftlich formulieren (vielleicht hat jemand ein Beispiel)?

Frage 2) Ich wollte wissen, ob es einen Einfluss der Anzahl der Techniken auf das Ergebnis (richtig/falsch) gibt. Dafür habe ich mit Mühe und Not (YouTube) einen Shapiro-Wilk-Test auf Normalverteilung gemacht: Datensatz A ist normalverteilt, Datensatz B nicht. Dann habe ich einen Test für unabhänige Stichproben (t-Test) gemacht: Bei Datensatz A hat die Anzahl der Techniken einen signifikanten Einfluss auf das Ergebnis, bei Datensatz B nicht. Trotzdem sind die Ergebnisse bei A nur in 29% der Fälle richtig, bei B aber in 52% der Fälle. Für mich ein weitere Hinweis auf Zufall? Was bedeutet das? Sollte ich einen weiteren Test machen? Es gibt ansonsten keine anderen Daten, die ich verwenden könnte.

Ich bin mir ingesamt unsicher, welche Bedeutung meine Ergebnisse haben. Ursprünglich wollte ich nur wissen, ob die Datenbank im Allgemeinen nützlich ist oder nicht. Wenn nur 29 oder 52% der Berichte aber auch in der Technik-Datenbank korrekt identifiziert werden können, ist sie meiner Meinung nach nicht nützlich. Seht ihr das anders?

Würde mich sehr freuen, wenn irgendjemand ein paar hilfreiche Tipps oder Ideen hat.
tituzzz
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 22. Mär 2021, 14:51
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon PonderStibbons » Mo 22. Mär 2021, 17:28

Wenn ich die Beschreibung richtig verstanden habe, dann wäre die erwartete Trefferquote 1%.

Allerdings weiß ich nicht, ob die 100 Gruppen aus der Liste vollständig sind. Und ob es nicht
Gruppen gibt, auf die man mit mehr Erfolgsaussicht und dementsprechend von vornherein
häufiger tippen würde als auf andere. Wenn beispielsweise Gruppe X alleine an 10% der
Fälle beteiligt ist, hätte man eine 10% Trefferquote, wenn man immer auf Gruppe X
tippen würde.

Ob 29% oder 52% nützlich sind, ist keine allgemein statistische Frage, sondern eine
inhaltliche, bzw. vielleicht eine von von Kosten/Nutzen-Abschätzungen. Man weiß ja
von hier aus nicht, wozu das ganze Verfahren dient.

Mit freuindlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon tituzzz » Mo 22. Mär 2021, 17:40

PonderStibbons hat geschrieben:Wenn ich die Beschreibung richtig verstanden habe, dann wäre die erwartete Trefferquote 1%.

Allerdings weiß ich nicht, ob die 100 Gruppen aus der Liste vollständig sind. Und ob es nicht
Gruppen gibt, auf die man mit mehr Erfolgsaussicht und dementsprechend von vornherein
häufiger tippen würde als auf andere. Wenn beispielsweise Gruppe X alleine an 10% der
Fälle beteiligt ist, hätte man eine 10% Trefferquote, wenn man immer auf Gruppe X
tippen würde.

Ob 29% oder 52% nützlich sind, ist keine allgemein statistische Frage, sondern eine
inhaltliche, bzw. vielleicht eine von von Kosten/Nutzen-Abschätzungen. Man weiß ja
von hier aus nicht, wozu das ganze Verfahren dient.

Mit freuindlichen Grüßen

PonderStibbons


Vielen Dank für die Antwort!

Wie kommt man auf diese erwartbare Trefferquote von 1%? Die Zuordnungsgenauigkeit/Trefferquote (also die Fälle, in denen die Berichte der richtigen Gruppe zugeordnet wurden) liegt ja am Ende bei 29%. Wäre ein schlechteres Ergebnis erwartbar gewesen?

Die Datenbank enthält genau diese 100 Gruppen. Gruppen, für die die erfolgsaussicht höher ist, würde ich ausschließen und hier wollte ich auch gar nicht den Einfluss der jeweils untersuchten Gruppe untersuchen. Die habe ich mir in einem anderen Schritt angesehen, aber da ich beispielsweise zu GruppeA 10 Berichte vorliegen habe, zu GruppeB aber nur einen oder zwei, hilft mir das auch nicht.
tituzzz
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 22. Mär 2021, 14:51
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon PonderStibbons » Mo 22. Mär 2021, 17:51

Wie kommt man auf diese erwartbare Trefferquote von 1%?

Wenn es 100 Kandidaten gibt und man jedes mal einfach nur rät, kann man 1% Treffer erwarten.
Das aber wie gesagt nur, wenn keinerlei Zusatzinformationen einbezogen werden.

29% scheint mir gegenüber purem Raten eine deutliche Verbesserung, aber ob das
genügend Nutzen bringt und die Kosten für die Durchführung rechtfertigt, kann ich wie
gesagt nicht beurteilen.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
tituzzz

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon tituzzz » Di 23. Mär 2021, 10:07

Noch eine Nachfrage.

Ich habe folgendes herausgefunden:

- Die Techniken im ersten Datensatz (150 Berichte) sind nicht normalverteilt, der t-Test ergibt aber einen signifikanten Einfluss der Techniken auf die Ergebnisse
- Die Techniken im zweiten Datensatz (20 Berichte) sind nicht normalverteilt, der t-Test ergibt keinen signifikanten Einfluss von Techniken auf Ergebnisse

Sind diese Ergebnisse wertlos, wenn die Daten nicht normalverteilt sind?
tituzzz
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 22. Mär 2021, 14:51
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon PonderStibbons » Di 23. Mär 2021, 10:41

Für die Durchführung eines t-Tests ist es nicht erforderlich, dass irgendwelche Daten normalverteilt
sind, wer hat Dir denn sowas erzählt? Allenfalls in jeder der beiden Gruppen sollten die Werte
vorzugsweise aus einer normalverteilten Grundgesamtheit stammen. Aber der t-Test ist
gegen Abweichungen von dieser Annahme robust, wenn die Gesamtstichprobe ausreichend groß ist
(ab ca. n > 30). Da der zweite Datensatz klein ist, würde ich von vornherein statt t-Test einen
Mann-Whitney U-Test verwenden. Der vergleicht zwar keine Mittelwerte, aber zeigt, ob eine
Gruppe höhere Werte aufweist als die andere; das dürfte hier den Zweck erfüllen. Ich wundere
mich allerdings, wie Du bei n=20 auf eine Trefferquote von 52% kommst, das mathematisch doch
gar nicht möglich.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon tituzzz » Di 23. Mär 2021, 10:46

Ich habe auf mehreren Seiten wie z.B. unter https://statistik-und-beratung.de/2012/09/parametrisch-oder-nichtparametrisch-das-ist-hier-die-frage/ so etwas gelesen "Wenn ich einen statistischen Test durchführen will, muss ich vorher wissen, ob meine Daten normalverteilt sind oder nicht. Sind sie normalverteilt, so kann ich einen parametrischen Test verwenden. Sind sie es nicht, so muss ein nichtparametrischer her." Wenn da steht MUSS heißt das für mich, dass er nicht geeignet ist. Aber vielen Dank für die Aufklärung!
tituzzz
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 22. Mär 2021, 14:51
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon PonderStibbons » Di 23. Mär 2021, 11:13

tituzzz hat geschrieben:Ich habe auf mehreren Seiten wie z.B. unter https://statistik-und-beratung.de/2012/09/parametrisch-oder-nichtparametrisch-das-ist-hier-die-frage/ so etwas gelesen "Wenn ich einen statistischen Test durchführen will, muss ich vorher wissen, ob meine Daten normalverteilt sind oder nicht. Sind sie normalverteilt, so kann ich einen parametrischen Test verwenden. Sind sie es nicht, so muss ein nichtparametrischer her." Wenn da steht MUSS heißt das für mich, dass er nicht geeignet ist.

Ja, da wurdest Du fehlgeleitet. Es war auch nicht als Vorwurf an Dich gemeint, mich hat die Quelle interessiert.
Dort steht leider so viel Falsches, dass es weh tut.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon tituzzz » Di 23. Mär 2021, 11:45

Ja, da wurdest Du fehlgeleitet. Es war auch nicht als Vorwurf an Dich gemeint, mich hat die Quelle interessiert.
Dort steht leider so viel Falsches, dass es weh tut.


Das wurde in den Kommentaren auch teilweise richtig gestellt, die hatte ich aber vorher nicht beachtet. Allerdings im Artikel auch nicht geändert.

Ich habe nun für diesen ersten Datensatz beim t-Test einen signifikanten Einfluss der Anzahl an Techniken auf die Ergebnisse und deshalb noch einen Pearson Korrelationstest gemacht. Ergebnis: negativer Zusammenhang zwischen Techniken und Ergebnissen. Bedeutet das je mehr Techniken, desto schlechter die Ergebnisse?
tituzzz
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mo 22. Mär 2021, 14:51
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Zufall oder nicht, Nutzen einer Datenbank

Beitragvon PonderStibbons » Di 23. Mär 2021, 12:13

Wieso eine Pearson-Korrelation? Die Ergebnisse sind doch eine dichotome Variable (richtig/falsch), da stecken alle Informationen bereits im Mittelwertvergleich bzw. im Ergebnis des t-Tests.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 14 Gäste

cron