STATISTIK-FORUM.de

haggis · von **haggis** » Mo 13. Jun 2016, 14:46

Hallo zusammen,

ich habe ein statistisches Problem, welches bei erstmaliger Betrachtung als einfach zu löschen schien, bei genauerem Hinsehen aber doch einige Schwierigkeiten aufwirft. Um es anschaulicher zu machen, verwende ich eine Analogie:

Bei der Ernte von Kirschen sollen alle Kirschen jeweils eines Baumes in einem Behältnis aufbewahrt werden (warum auch immer). Ein Arbeiter findet nun im Lagerraum zwischen all diesen Behältnissen eine Kirsche auf dem Boden und will wissen, zu welchem Behältnis diese Kirsche gehört.
Glücklicherweise wurde bei der Einlagerung von jeder einzelnen Kirsche der exakte Farbton bestimmt und gespeichert. Die gefundene Kirsche war da aber nicht dabei (weil sie vom Band gerollt ist) und kann deswegen nicht durch Zählung dem korrekten Behälter zugeordnet werden.
Die einzige Möglichkeit besteht also darin, den Farbton der gefundenen Kirsche ebenfalls zu ermitteln und dann möglicherweise den dazu passenden Behälter zu finden.

Der Arbeiter schlägt dieses Vorgehen seinem Chef vor. Dieser will zuvor aber gezeigt bekommen, dass der Farbton der Kirschen überhaupt ein geeignetes Merkmal ist, das einzelne Behälter beschreiben kann. Dabei setzt er nicht voraus, dass alle Behälter eindeutig sind, sondern nur, dass folgende Hypothese erfüllt ist:

"Ein signifikanter Anteil der Behälter kennzeichnet sich durch mindestens 1 Hauptfarbe"
Sprich: Durch das Merkmal Farbe soll die Auswahl möglicher korrekter Behälter eingeschränkt werden können.

Beispielhaft 4 Fälle, wie ein Behälter zusammengesetzt sein kann und wie das interpretiert werden soll:
1) 1x #A102CC; 20x #1fA900; 150x #AE0544; 220x #FF0000 (2 Hauptfarben)
- Standardabweichung ermitteln
- Wenn Standardabweichung > x, dann ist Bedingung erfüllt

2) 500x #FF0001 (1 Hauptfarbe)
Trivial. Gibt es nur 1 Farbe, ist diese die Hauptfarbe.

3) 190x #A11ACC; 190x #FF22A1 (2 Hauptfarben)
Schwierig: so etwas wie "Wenn in einem Behälter signifikant weniger Farben als im Durchschnitt aller Behälter vorkommen und diese wenigen Farben nicht signifikant unterschiedlich häufig auftreten, sind alle Hauptfarben"

4) 50x #5D0BFF; 60x #02A311; 40x #E3CC00; 10x #FFFFFF (keine Hauptfarbe)
siehe 1)

Meine Frage:
Gibt es ein Verfahren, welches das Problem in seiner Gesamtheit erfassen kann? Oder sollte ich es in Teilprobleme unterteilen wie oben geschehen?

Der Chi²-Verteilungstest sieht ganz vielversprechend aus. Allerdings werden dabei Klassen gebildet, denen die Messwerte zugeordnet werden. Das bringe ich hier nicht unter. Oder könnte man die Anzahl der Klassen auf die Anzahl verschiedener Messwerte/Farben setzen? In Fall 1 also 4 Klassen.

Danke und viele Grüße
Haggis

bele · von **bele** » Mo 13. Jun 2016, 15:29

Hallo haggis,

haggis hat geschrieben:Um es anschaulicher zu machen, verwende ich eine Analogie:

Das geht mit schöner Regelmäßigkeit schief, weil in der Analogie dann meistens doch irgendwas nicht analog genug ist. Aber sei's drum. Mir fällt als schönes Mittel zum Zuordnen von Kirschen ein Entscheidungsbaum (decision tree) oder von mir aus auch ein Wald voller Entscheidungsbäume (Regression forrest) ein.

Jetzt wiederholst Du folgendes Vorgehen möglichst oft:
Eine kleine Zahl Kirschen (zum Beispiel nur eine) wird aus den Eimern entfernt, anhand der anderen Kirschen wird ein Entscheidungsbaum trainiert und anschließend geprüft, wie oft der Entscheidungsbaum die entfernte Kirsche richtig eingruppieren würde.

Anschließend vergleichst Du (bspw. mit einem Binomialtest), ob die ausgelassene Kirsche häufiger als zufällig in den richtigen Eimer sortiert wurde. Wenn ja, dann ist das Verfahren besser als der Zufall. (Hier muss man noch überlegen, wie man die unterschiedlichen Füllmengen der Eimer in den Zufall einfließen lassen will.)

Stichwort zum Weiterlesen wäre "Cross-Validation".

LG,
Bernhard

haggis · von **haggis** » Mo 13. Jun 2016, 16:18

Hallo Bernhard,

vielen Dank für die Antwort!

bele hat geschrieben:Das geht mit schöner Regelmäßigkeit schief, weil in der Analogie dann meistens doch irgendwas nicht analog genug ist. Aber sei's drum.

Das habe ich mir auch gedacht, weshalb ich es mir gut überlegt habe. Tatäschlich geht es nämlich um die Analyse des Bitcoin Transaktionsgraphen, was schon sehr abstrakt ist und dadurch vom eigentlichen Thema ablenken könnte.

Zurück zum Thema: die eigentliche Frage ist nicht, WIE man die Kirschen am besten zuordnen könnte, sondern OB sie anhand der Farbe überhaupt zuordnungsbar sind. Also ob überhaupt ein Zusammenhang zwischen den Farben innerhalb eines Behälters besteht oder ob die Farbe eine genauso irrelevante Information darstellt, wie z.B. das Sternzeichen desjenigen, der sie gepflückt hat.

Das von dir beschriebene Verfahren könnte ich vielleicht anwenden und hoffen, dass der Entscheidungsbaum die Kirschen korrekt einordnet. Dann wäre die Frage mit 'ja' beantwortet. Wenn er es nicht schafft, dann könnte man aber imho keine verallgemeinernde Aussage darüber treffen, dass es überhaupt nicht möglich ist. Das Ergebnis würde nur sagen, dass es mit Entscheidungsbäumen nicht funktioniert.
Oder ist das eine falsche Schlussfolgerung?

bele · von **bele** » Mo 13. Jun 2016, 16:58

Richtige Schlussfolgerung, aber ich glaube nicht, dass das anders herun geht: Wenn Du beweisen willst, dass es mit keinem Verfahren funktioniert, dann könnte immer noch ein neuer Einstein ein neues Verfahren finden. Deshalb hätte ich vorgeschlagen, es mit mehreren "typischen Verdächtigen" durchzuprobieren. Ganz bestimmt bin ich aber zu dumm, um meine Vermutung belegen zu können.

LG,
Bernhard

STATISTIK-FORUM.de

Aussagekraft einer Variablen ermitteln

Aussagekraft einer Variablen ermitteln

Re: Aussagekraft einer Variablen ermitteln

Re: Aussagekraft einer Variablen ermitteln

Re: Aussagekraft einer Variablen ermitteln

Wer ist online?