Hallo zusammen,
ich habe ein statistisches Problem, welches bei erstmaliger Betrachtung als einfach zu löschen schien, bei genauerem Hinsehen aber doch einige Schwierigkeiten aufwirft. Um es anschaulicher zu machen, verwende ich eine Analogie:
Bei der Ernte von Kirschen sollen alle Kirschen jeweils eines Baumes in einem Behältnis aufbewahrt werden (warum auch immer). Ein Arbeiter findet nun im Lagerraum zwischen all diesen Behältnissen eine Kirsche auf dem Boden und will wissen, zu welchem Behältnis diese Kirsche gehört.
Glücklicherweise wurde bei der Einlagerung von jeder einzelnen Kirsche der exakte Farbton bestimmt und gespeichert. Die gefundene Kirsche war da aber nicht dabei (weil sie vom Band gerollt ist) und kann deswegen nicht durch Zählung dem korrekten Behälter zugeordnet werden.
Die einzige Möglichkeit besteht also darin, den Farbton der gefundenen Kirsche ebenfalls zu ermitteln und dann möglicherweise den dazu passenden Behälter zu finden.
Der Arbeiter schlägt dieses Vorgehen seinem Chef vor. Dieser will zuvor aber gezeigt bekommen, dass der Farbton der Kirschen überhaupt ein geeignetes Merkmal ist, das einzelne Behälter beschreiben kann. Dabei setzt er nicht voraus, dass alle Behälter eindeutig sind, sondern nur, dass folgende Hypothese erfüllt ist:
"Ein signifikanter Anteil der Behälter kennzeichnet sich durch mindestens 1 Hauptfarbe"
Sprich: Durch das Merkmal Farbe soll die Auswahl möglicher korrekter Behälter eingeschränkt werden können.
Beispielhaft 4 Fälle, wie ein Behälter zusammengesetzt sein kann und wie das interpretiert werden soll:
1) 1x #A102CC; 20x #1fA900; 150x #AE0544; 220x #FF0000 (2 Hauptfarben)
- Standardabweichung ermitteln
- Wenn Standardabweichung > x, dann ist Bedingung erfüllt
2) 500x #FF0001 (1 Hauptfarbe)
Trivial. Gibt es nur 1 Farbe, ist diese die Hauptfarbe.
3) 190x #A11ACC; 190x #FF22A1 (2 Hauptfarben)
Schwierig: so etwas wie "Wenn in einem Behälter signifikant weniger Farben als im Durchschnitt aller Behälter vorkommen und diese wenigen Farben nicht signifikant unterschiedlich häufig auftreten, sind alle Hauptfarben"
4) 50x #5D0BFF; 60x #02A311; 40x #E3CC00; 10x #FFFFFF (keine Hauptfarbe)
siehe 1)
Meine Frage:
Gibt es ein Verfahren, welches das Problem in seiner Gesamtheit erfassen kann? Oder sollte ich es in Teilprobleme unterteilen wie oben geschehen?
Der Chi²-Verteilungstest sieht ganz vielversprechend aus. Allerdings werden dabei Klassen gebildet, denen die Messwerte zugeordnet werden. Das bringe ich hier nicht unter. Oder könnte man die Anzahl der Klassen auf die Anzahl verschiedener Messwerte/Farben setzen? In Fall 1 also 4 Klassen.
Danke und viele Grüße
Haggis