Annahme zu IID im Test widerlegt?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Annahme zu IID im Test widerlegt?

Beitragvon Isbjörn » Fr 22. Jul 2022, 22:58

Ich habe einen Test von einem Prozess durchgeführt der nur Erfolg oder kein Erfolg als Ergebnis hat (Bernoulli-Prozess). Ich habe kühn behauptet, dass die Unabhängigkeit und Identität der Verteilung der Grundgesamtheit (engl. IID, identical, indepent distribution) gegeben ist.
Nun habe ich 256 Tests hintereinander unter gleichen Bedingungen automatisiert durchgeführt. Davon waren 238 Tests erfolgreich. D.h. die Erfolgswahrscheinlichkeit pro einzelnem Versuch ist pTrail=238/256 (Konfidenzlevel CL=0.5).
Der Test zeigt allerdings folgende Besonderheit:
Es gibt mehrfach direkt hintereinander folgende Fehlversuche. Drei Mal gab es 2 Fehlversuche direkt hintereinander. Zwei Mal gab es sogar 3 Fehlversuche direkt hintereinander. (Dann bleiben 6 einzelne Fehlversuche). Zwischen den mehrfach direkt hintereinander liegenden Fehlversuchen liegen immer wieder Erfolgsreihen oder nur einzelne Fehlversuche.

Nun habe ich versucht die Wahrscheinlichkeit zu berechnen das bei pTrial=238/256 (Erfolgswahrscheinlichkeit) z.B. 2 mal drei Misserfolge nacheinander in 256 Versuchen auftauchen. Der Gedanke daran: Wenn das eine gute Wahrscheinlichkeit hat gilt die IID Bedingung noch, wenn die Wahrscheinlichkeit zwei Mal 3 aufeinander folgende Fehlversuche zu haben sehr klein ist, ist die IID Bedingung dahin.
Um die Wahrscheinlichkeit für drei folgende Fehlversuche bei n=256 Versuche zu berechnen habe ich die Binomialverteilung angesetzt. Die Wahrscheinlichkeit mit (1-(238/256))^3. Hoch drei wegen drei Fehlversuchen in Folge. (1-pTrial), weil Fehlversuche gesucht sind.
Da zwei Mal die 3 Fehlversuche in Folge aufgetreten sind ist k=2. Für n=256, p=(1-(238/256))^3, k=2 ergibt die Binomialverteilung (PDF) 0.00361071. Die Wahrscheinlichkeit 3 hintereinander folgende Fehlversuche in 256 Tests zu sehen ist 0.00361.

Ist das der richtige Ansatz und das richtige Ergebnis?
Wenn dem so ist, ist meine Schlussfolgerung, dass die IID Bedingung nicht erfüllt ist, weil eine derartige Häufung von Fehlversuchen sehr unwahrscheinlich ist. Ist das dann richtig?

Ich kann auch die Versuchschronologie mit 0 und 1 posten/schicken, wenn das der Analyse hilft.
Isbjörn
Mitglied
Mitglied
 
Beiträge: 29
Registriert: Di 14. Okt 2014, 21:33
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Annahme zu IID im Test widerlegt?

Beitragvon bele » Sa 23. Jul 2022, 11:36

Hallo Isbjörn,

Isbjörn hat geschrieben:Ich kann auch die Versuchschronologie mit 0 und 1 posten/schicken, wenn das der Analyse hilft.


Schaden tut es in der Regel nicht, wenn man die Rohdaten teilt. Rohdaten sind geil.

Ich weiß nicht, wie man Dein Problem optimal angeht, mache aber folgenden Vorschlag. Wir betrachten die 18 Fälle von Misserfolg und untersuchen, ob diese unabhängig von ihrem unmittelbaren Vorgänger sind. Wenn ein Misserfolg aufgetreten ist, dann sollte das unter der Nullhypothese ("i.i.d") keine Prognose zulassen, was beim Wurf zuvor oder danach passiert. Wenn nicht gerade der erste oder der letzte Wurf ein Misserfolg waren, ist das symmetrisch. Aus Deiner Schilderung entnehme ich, dass vor 7 der Misserfolge ein Misserfolg lag und dass vor 11 der Misserfolge ein Erfolg lag. Nehmen wir an, Du hast den Anteil der Erfolge ausreichend sicher bestimmt, dann testen wir ob die Quote von 11 Erfolgen vor einem Misserfolg aus 18 Versuchen mit einer Wahrscheinlichkeit von 238/256 vereinbar ist. Dafür können wir einen Binomialtest verwenden. In R beispielsweise:

Code: Alles auswählen
> binom.test(x = 11, n =  18, p = 238/256)

   Exact binomial test

data:  11 and 18
number of successes = 11, number of trials = 18, p-value = 0.000135
alternative hypothesis: true probability of success is not equal to 0.9296875
95 percent confidence interval:
0.3574512 0.8270141
sample estimates:
probability of success
             0.6111111


Der p-Wert ist weit unter 5% und damit ist die Nullhypothese der Unabhängigkeit nicht haltbar.

Ich stimme Dir also (mit einem anderen Ansatz) zu und würde sagen, Du musst zur Auswertung wahrscheinlich Verfahren für Zeitreihen anwenden.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Isbjörn

Re: Annahme zu IID im Test widerlegt?

Beitragvon Isbjörn » Sa 23. Jul 2022, 22:20

Großartig. Ein anderer Weg, nachvollziehbar geschrieben. Vielen Dank. Ich wollte den Beitrag nicht mit unnötigen Dingen füllen, da du gefragt hast: Der Vollständigkeit halber unten die Daten in chronologischer Folge. Deine Folgerungen (18,11,7) sind richtig.
Mit der Zeitreihenanalyse habe ich mich noch nicht befasst. Nachdem die Unabhängigkeit der Ereignisse passé ist: Was würdest du bei den Daten als nächstes prüfen? Zu dem Stichwort muss ich mich dann schlau machen.

Testdaten:
1,1,1,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,0,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,0,1,1,0,0,1,1,1,1,1,1,1,1,0,0,1,1,1,1,0,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
Isbjörn
Mitglied
Mitglied
 
Beiträge: 29
Registriert: Di 14. Okt 2014, 21:33
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Annahme zu IID im Test widerlegt?

Beitragvon bele » So 24. Jul 2022, 11:27

Hallo Isbjörn,

zunächst einmal kenne ich mich mit Zeitreihen nicht aus, deshalb werde ich da keine große Hilfe sein. Zum anderen ist die Frage, was man als nächstes prüfen sollte, nicht so sinnvoll, wenn man nicht weiß, worum es bei der ganzen Analyse gehen soll.
Momentan stelle ich mir das vor wie einen Motor, von dem man immer wieder prüft, ob er anspringt. Wenn er einmal abgesoffen ist, dann springt er nicht mehr so leicht an wie wenn er vorher normal gelaufen ist. Sowas ließe sich vielleicht durch unvollständig ausgestoßene Verbrennungsrückstände vom vorherigen Versuch erklären. In so einem Fall könnte ich mir vorstellen, dass man die Wahrscheinlichkeit des Nicht-Anspringens nach Anspringen, nach einmaligem Nicht-Anspringen, nach mehrfachem Nicht-Anspringen bestimmt. Ganz unabhängig davon, ob das Deine Situation widerspiegelt oder nicht: Mit nur 18 Ereignissen wird man solche Wahrscheinlichkeiten nur sehr, sehr grob bestimmen können und das halte ich für jedes andere Zeitreihenverfahren für eine kleine Zahl. Aber wie gesagt, ich kenne mich damit nicht aus.

Wenn man nach "time series finite state" googelt, kommen einige Treffer. Ob das ein Hinweis in die völlig falsche Richtung ist, weiß ich dagegen nicht.

Viel Erfolg,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Annahme zu IID im Test widerlegt?

Beitragvon Isbjörn » So 24. Jul 2022, 13:38

Hallo Bernhard,

Dein "Motor"-Gleichnis passt im Prinzip. Ich habe auch schon überlegt, ob man sich hier ins Reich der bedingten Wahrscheinlichkeiten begeben muss. Also die Wahrscheinlichkeit eines Fehlers mit Vorbedingung da war schon ein Fehler berechnen.

Ich habe versucht in eine alternative Richtung zu gehen. Erstmal verstehen was im iid-Fall zu analysieren ist.
Mehr Daten sind da sinnvoll, daher habe ich ein Programm geschrieben was mir Zufallsreihen generiert mit viel mehr Daten. Diese Zufallsreihen sind dann iid. Z.B. beim Würfeln eine 6 zu bekommen ist p[1]=1/6, zwei 6er hintereinander p[2]=1/36. Da weiß man ja was da raus kommt. Damit könnte ich z.B. dein binom.test nachvollziehen. Für die obigen Datan un das Würfelexperiment kann ich das auch.
Beim Würfelexperiment komme ich jetzt auch auf die erwarteten p[2]=1/36 :D . Damit werden ich noch mal ein bisschen simulieren.

Prinzipiell ist das Ziel aus den Daten des Experiments die Wahrscheinlichkeit zu ermitteln, dass drei Fehlversuche hintereinander auftreten. Bei der erfüllten iid-Bedingung war die Idee mit der ermittelten Erfolgswahrscheinlichkeit p (Experiment) eine rechnerische dreifachen "oder"-Verknüpfung von p (ein Versuch von drei muss Erfolg haben damit das Ereignis Erfolg ergibt, für zwei Versuche ist das: P(AorB)=P(A)+P(B)–P(AandB)). Das darf man nun nicht machen. Das Ziel ist immer noch die Wahrscheinlichkeit für drei mal hintereinander stattfindende Fehlversuche die Wahrscheinlichkeit zu berechnen.
Isbjörn
Mitglied
Mitglied
 
Beiträge: 29
Registriert: Di 14. Okt 2014, 21:33
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Annahme zu IID im Test widerlegt?

Beitragvon bele » So 24. Jul 2022, 15:06

Tja, unter klaren Annahmen (bernoulli, binomial, iid) ist immer gut zu simulieren. :-) Ohne das helfen eine gute Theorie oder Unmengen von Daten. Kannst Du mit dem Konstrukteur des Motors sprechen, ob der eine Idee zum data generating process hat?

Übrigens- wo ist denn das zweite Mal mit drei Misserfolgen hintereinander? Ich sehe da überhaupt nur 9 Misserfolge. Naja, derzeit hilft das wohl eh nicht.

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Annahme zu IID im Test widerlegt?

Beitragvon Isbjörn » Mo 25. Jul 2022, 07:51

Ich simuliere nur noch, das macht die Welt viel einfacher :geek: . Tatsächlich hilft das die Auswertealgorithmen und Zusammenhänge zu verstehen, die man auf die echten Daten loslassen kann.
Derzeit mache ich versuche mit bedingten Wahrscheinlichkeiten. Mehr Versuchsdaten werden generiert. Ich bin mal gespannt ob die auch so aussehen (Reproduzierbarkeit :P ).

Zu den alten Daten:
Der erste "3er" ist vorn in der ersten Zeile, der zweite "3er" in der zweiten Reihe in der Mitte. Ich hatte mal die "Wartezeiten" zwischen den Fehlzündungen berechnet. Das gehorcht allerdings keiner Verteilung (Geometrische Verteilung, Poissonverteilung). Die 97 hintereinander fehlerfreien Versuche (Daten sind unten) passen da nicht rein. Es stellt sich die Frage ob äußere Einflüsse die nicht kontrolliert sind, aber werden sollten, noch eine Rolle spielen. Am data generating process arbeiten ist noch ein guter Punkt.


Anzahl der Erfolge bis zum nächsten Misserfolg:
4,0,0,97,0,0,24,14,11,11,2,0,8,0,4,3,15,0,45
Isbjörn
Mitglied
Mitglied
 
Beiträge: 29
Registriert: Di 14. Okt 2014, 21:33
Danke gegeben: 4
Danke bekommen: 0 mal in 0 Post

Re: Annahme zu IID im Test widerlegt?

Beitragvon bele » Mo 25. Jul 2022, 10:34

Isbjörn hat geschrieben:Ich simuliere nur noch, das macht die Welt viel einfacher :geek:


Das ist sehr gut und wird auch von Profistatistikern gerne so gehandhabt.

Zu den alten Daten:
Der erste "3er" ist vorn in der ersten Zeile, der zweite "3er" in der zweiten Reihe in der Mitte.


Ich hatte gestern wohl Tomaten auf den Augen.

Ich hatte mal die "Wartezeiten" zwischen den Fehlzündungen berechnet. Das gehorcht allerdings keiner Verteilung (Geometrische Verteilung, Poissonverteilung).


Wenn Du das weiter verfolgen willst, würde ich Exponentialverteilung und Weibull-Verteilung als Kandidaten in den Ring werfen. Als kontinuierliche Verteilungen passen die natürlich nur so halb, aber Exponential wird gerne zum Modellieren von Wartezeiten genutzt, Weibull bietet mehr Flexibilität, wenn Exponential nicht passt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5927
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 11 Gäste

cron