Hallo,
da ich noch völlig gespannt bin in welche Richtung meine Problemlösung laufen könnte, poste ich mal hier im allgemeinen Bereich.
Allgemeine Problemdarstellung: Ich habe einen Datensatz mit Störfällen bedingt durch Umwelt oder soziale Ursachen zwischen 2013 und 2018 im Bergbausektor erstellt, um damit die Aussagekraft verschiedener Governance-Indikatoren hinsichtlich ihres Einsatzes in der Rohstoffkritikalitätsbewertung* zu untersuchen. Rohstoffkritikalität ganz platt erklärt bewertet die Wahrscheinlichkeit eines Versorgungsausfalls (Supply Risk) eines Rohstoffes und die, meist nur ökonomische, Bedeutung des Rohstoffes (Vulnerability) also den potentiellen Schaden für das betrachtete Land oder die Firma. Beides kombiniert ergibt dann Kritikalität des Rohstoffes. Sozial- und Umweltrisiken werden bisher nur selten betrachtet, deswegen die angestrebte Untersuchung der Indikatoren im Hinblick ihrer Aussagekraft auf diese Fragestellung.
Für die weitere Datenanalyse habe ich die Störfälle nach Land, Jahr, Ursache etc. kategorisiert und auch Kriterien für die Einteilung des Schweregrads in die drei Kategorien Minor, Moderate und Major vorgenommen. Die Schwereeinteilung ist dabei eher semi-quantitativ aus meinen Fingern gesogen, weil die Datenlage diesbezüglich doch viele Lücken hat. ich nehme an, dass die genauen Kriterien für die Einteilung für die Fragestellung nicht relevant sind. Falls doch einfach Bescheid sagen, dann kann ich die gerne nachliefern.
Anschließend habe ich jedem Störfall noch dem für das jeweilige Land und Jahr gültigen Indikatorwert zugeordnet und jeweils für die Gesamtzahl der Störfälle sowie für die als Minor, Moderate und Major bewerteten einzelne Boxplots erstellt. Diese habe ich dann den globalen Durchschnitt des jeweiligen Indikators sowie auch den nach dem Anteil der Wertschöpfung der einzelnen Länder gewichteten Durchschnitt gegenübergestellt.
Beispielhaft habe ich das in der angefügten Abbildung für die aggregierten sechs World Governance Indikatoren (WGI) und alle Störfälle unabhängig von der Ursache dargestellt. Das Kreuz im Boxplot ist der Mittelwert der Strich der Median. Für die globalen Durchschnitte ist der Median in der Darstellung natürlich witzlos, weil da nur ein Wert drinsteckt… aber ich hab den nicht wegbekommen.
Beispiel: https://c.gmx.net/@324509307536146536/7O2c08hOTIWtdDBGOXCqmQ/ROOT/ROOT
Die Gesamtstichprobe ist ca. 250. Wenn man spezifischere Kombinationen von Ursache und Schweregrad betrachtet, was ich äußerst gerne tun möchte, fällt diese aber zum Teil bis auf 15. Die WGI aus dem Beispiel sind von -2,5 bis 2,5 skalliert, die anderen Indikatoren haben zwar andere Skalen sind aber alle nummerisch.
Wie man sehen kann kommen die Störfälle im Durchschnitt mit besseren Werten raus, der Median also die Masse der Störfälle liegt aber unterm Durchschnitt. Das der Durchschnitt besser ausfällt mag intuitiv nicht schlüssig sein, wenn man die globalen Strukturen des Rohstoffsektors und meine Quellen kennt, ist es aber nicht mehr ganz so überraschend. Vergleiche dazu auch den gewichteten globalen Durchschnitt. Weiterhin gibt es noch einen Abfall der Werte von Minor nach Major. Das wiederum ist intuitiv ja recht schlüssig.
Spezifische Fragestellung: Mein statisches Problem fängt hier an, dass die rein deskriptive Beschreibung der Verteilungen in den einzelnen Schweregrad-Kategorien, in Bezug auf den globalen Durchschnitt der Indikatoren zwar schön und gut ist, aber keine wirklich belegbaren Rückschlüsse ermöglicht, ob die Indikatoren geeignet sind (oder wenigstens zu sein scheinen) das Eintrittsrisiko eines solchen Störfalls zu beschreiben.
Deswegen würde ich gerne die „Signifikanz“ der Abweichungen meiner Daten vom globalen Mittel überprüfen, allerdings weiß ich nicht wie oder ob das statistisch überhaupt möglich ist bei meinen Daten… Kollegen haben mir gesagt ich müsste eine Rangkorrelationsanalyse machen, dass das Quatsch ist in meinen Fall glaube ich inzwischen schon selbst herausgefunden zu haben. Ich als Statistik-Laie hätte mein Glück mit einem Konfindenz- oder 2-Sigma-Intervall der globalen Indikatorwert versucht und geschaut, ob die Abweichungen in dem Intervall liegen, also (nach meinem Verständnis…)sich quasi im Rahmen der „Ungenauigkeit“ des Indikators bewegen. Leider konnte ich trotz intensiver Lektüre keine hinreichende Gewissheit erlangen, ob das ein statistisch legales Vorgehen wäre oder nicht…
Ein weiterer Punkt ist, dass Mittelwert und Median meiner Daten sich oft diametral zueinander verhalten, ich für den Median aber gar keine Idee habe ob und noch weniger wie ich diesen im Vergleich zum globalen Mittelwert analysieren darf. Für den ungewichteten Durchschnitt könnte ich auch einen Median ermitteln und diese vergleichen, den Median der Indikatoren zu betrachten erscheint mir aber ein wenig blödsinnig, da das in der Praxis niemand macht. Für den gewichteten globalen Wert könnte ich auch gar keinen Median erstellen.
So ich hoffe meine Ausführungen haben annähernd die genau richtige Länge bekommen. Wenn doch noch Informationen fehlen einfach melden.
Vielen Dank schon mal, dass ihr euch Zeit für mein Problem genommen und bis hierher gelesen habt!
Viele Grüße,
Konstantin
*ACHTUNG: Für richtige Statistiker könnte die Gefahr bestehen Puls zu bekommen, wenn sie sich im Detail anschauen was in dem Bereich so alles gemacht wird. Das konnte ich auch als Laie bereits eruieren…