Vergleich von 3 Samples -welcher Test passt?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Vergleich von 3 Samples -welcher Test passt?

Beitragvon carolita » Do 13. Jul 2017, 16:02

Hallo zusammen

Ich bin ein Statistik-Neuling und bin auf der Suche nach Hilfe. Ich habe das Forum durchsucht, aber keine Antwort auf meine Frage gefunden. Ich poste meine Frage hier im allgemeinen Forum, da ich mir nicht sicher bin, in welches die Frage sonst besser passen würde. Ich schreibe eine Seminararbeit in forensischer Linguistik und habe ein statistisches Problem. Ich untersuche 2 Twitteraccounts und möchte einige anonyme Posts einem der beiden User zuordnen (die anonymen Posts sind auf jeden Fall von einem der beiden untersuchten User). Dies ist nun mein Problem:

Ich habe zwei grosse Datensätze, die ich mit einem zweiseitigen Z Test (two-tailed z test for the comparison of proportions) miteinander verglichen und den p Wert berechnet habe, um herauszufinden, ob es signifikante Unterschiede gibt.
Die Datensätze bestehen aus je einer Liste mit verschiedenen Wörtern, die in den Twitter-Posts vorkommen und der Anzahl dieser Wörter im Verhältnis zur Gesamtzahl aller Wörter. Datensatz 1 ist von Autor 1 und Datensatz 2 von Autor 2. Die Listen habe ich miteinander verglichen, um herauszufinden, ob ein Autor ein bestimmtes Wort statistisch signifikant häufiger braucht als der andere Autor. Dies habe ich anhand eines zweiseitigen Z Test berechnet mit dem Signifikanzlevel von 0.05.
Beispiel:
„xy“ wird von Autor 1 12x gebraucht bei einer Gesamtzahl von 13997 Wörtern.
Das gleiche Wort wird von Autor 2 51x gebraucht bei einer Gesamtzahl von 11121 Wörtern.
Der Z Test ergibt einen p Wert von 0.00000000445922188063719, der Unterschied ist also statistisch signifikant.
Dies wurde für jedes Wort berechnet, das in beiden Listen vorkommt.

Nun habe ich einen kleinen Datensatz „Anonym“ mit insgesamt 181 Wörtern, von dem ich nicht weiss, ob er von Autor 1 oder 2 ist. Ich möchte versuchen, diesen Datensatz einem der beiden Autoren zuzuordnen anhand der Liste der Wörter, die im Datensatz vorkommen und ihrer Häufigkeit.

Wie kann ich testen, ob der kleine Datensatz „Anonym“ zu Autor 1 oder 2 passt? Gibt es einen statistischen Test, mit dem ich die Daten von diesem Datensatz mit den Daten von den beiden grossen Datensätzen vergleichen kann?
Anders ausgedrückt:
„Anonym“ verwendet „xy“ 5x in 181 Wörtern.
Autor 2 verwendet es 86x in 11121 Wörtern.
Autor 1 verwendet es 251x in 13997 Wörtern.
Wie kann ich diese Daten miteinander vergleichen und einen statistischen Unterschied feststellen? Ich weiss, dass Autor 1 dieses Wort signifikant häufiger verwendet als Autor 2. Verwendet Anonym dieses Wort ähnlich häufig wie Autor 1 oder ähnlich häufig wie Autor 2?
Ich habe überlegt, den gleichen Test nochmals durchzuführen und einmal Anonym mit Autor 1 zu vergleichen und einmal Anonym mit Autor 2. Aber was würde mir das Resultat dann sagen? Was wäre die Nullhypothese für diese zwei Tests? Oder bin ich völlig auf der falschen Spur?

Ich bin dankbar für jeden Tipp :)
carolita
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 13. Jul 2017, 15:35
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon PonderStibbons » Do 13. Jul 2017, 17:22

Mit statistischer Signifikanz kommt man hier kein bißchen weiter, scheint mir.
Suche doch einmal nach dem Stichwort "Bayes-Statistik" bzw. Bayes-Theorem.
Dieser Ansatz ist für forensische Fragestellungen ohnedies geeigneter als die
frequentistische Statistik mit Signifikanztestungen, soweit ich weiß.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
carolita

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon carolita » Fr 14. Jul 2017, 11:07

Vielen Dank für die rasche Antwort!
Ich habe nach Bayes Statistik gesucht und die Anwendung einigermassen verstanden glaube ich, aber verstehe nicht, wie ich die Formel auf mein Problem anwenden kann.
Ich versuche mal zu beschreiben, was ich mir überlegt habe:
Ich müsste Anonym mit Autor 1 vergleichen und dann Anonym mit Autor 2, nicht alle drei miteinander, um herauszufinden, ob es wahrscheinlicher ist, dass Anonym Autor 1 zugeordnet werden kann oder eher Autor 2.
Das Wort xy kommt bei Anonym 5x in 181 Wörtern vor, also zu 2,76%.
Bei Autor 2 kommt es 86x in 11121 Wörtern vor, also zu 0,77%.

Für die folgende Formel ℙ(A|B)=(ℙ(B|A)⋅ℙ(A))/ℙ(B) hätte ich dann ℙ(A) für Anonym, also 2,76%. Für Autor 2 hätte ich ℙ(B) 0,77%. Stimmt das? Wie kann ich dann berechnen, wie wahrscheinlich es ist, dass A eintritt, wenn B gegeben ist, also ℙ(A|B)? Da fehlt mir doch noch ℙ(B|A) oder? Irgendwie fehlen mir ein paar Zahlen für diese Berechnung. :?:

Ich hoffe, meine Überlegung war einigermassen nachvollziehbar und entschuldige mich für mein Unwissen und meine vielleicht blöde Frage :oops:
carolita
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 13. Jul 2017, 15:35
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon PonderStibbons » Fr 14. Jul 2017, 11:59

Ich fürchte, die Sache ist etwas komplizierter. A und B sind in der wikipedia-Formel nicht die beiden Alternativen.

Die apriori-Wahrscheinlichkeit p(Autor 1 ist der Anonymus) wäre vermutlich = 0,5 anzusetzen, dito p(Autor 2 ist der Anonymus).

Jetzt wäre die Wahrscheinlichkeit p(D|H1) zu berechnen, mit der z.B. ein Autor Nr. 1, der xy mit einer Rate 0.0077 (86/11121) verwendet, in einem Text mit 181 Wörtern (trials) 5x das Wort verwenden würde. Das folgt der Binomialverteilung (gibt es online-Rechner für), die resultierende Wahrscheinlichkeit ist 0,0106.

Für den anderen Autor Nr. 2, der xy mit einer Rate 0,0179 (251/13997) verwendet, beträgt die entsprechende Wahrscheinlichkeit für 5 Verwendungen in einem Text mit 181 Wörtern p(D|H2)=0,117.

Solche Sachen kann man dann in einen Calculator füttern wie http://psych.fullerton.edu/mbirnbaum/ba ... esCalc.htm und bekommt für Autor Nummer 1 (der mit 86/11121) als a posteriori-Wahrscheinlichkeit p(H1|D)=0,083 (also 8,3%), entsprechend für den anderen Autor 91,7%.

Hätte man frequentistisch 2 Signifikanztests berechnet (Chi²-Tests), so wäre Autor 1 mit p=0,0029 auf dem konventionellen 5-%-Niveau "signifikant" von Anonymus verschieden, Autor 2 mit p=0,33 hingegen nicht. Das wäre vermutlich kein sonderlich vernünftiges Entscheidungsverfahren, aber vielleicht in Deiner Umgebung akzeptiert.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
carolita

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon carolita » Fr 14. Jul 2017, 18:02

Super, vielen vielen Dank für die Antwort, das hat mir sehr geholfen!
Jetzt scheint mir alles klar, nun kann ich mich ans Berechnen machen :D
carolita
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 13. Jul 2017, 15:35
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon carolita » So 16. Jul 2017, 12:51

Sorry, ich habe doch nochmal eine (vielleicht blöde) Frage:
Ich bin gerade am berechnen. Die Binomialverteilung habe ich hinbekommen, und ich will jetzt die Daten in den Rechner von deinem Link eingeben. Wenn ich z.B. für Autor 1 0.0077 für P(H), 0.0106 für P(D|H) und 0.9894 für P(D|H') eingebe, kommt 0.000083 heraus für P(H|D), und nicht 0.083, wie du es geschrieben hast. Habe ich etwas falsch eingegeben? Das wären dann ja nur 0.0083% Wahrscheinlichkeit..
Wenn ich das gleiche für Autor 2 mache (also 251/13997), gebe ich für P(H) 0.0179 ein, für P(D|H) 0.1175 und für P(D|H') 0.8825. Dann kommt 0.00242 für P(H|D) heraus. Stimmt das? Kann es sein, dass die Wahrscheinlichkeiten so gering sind? :?:
Ich bedanke mich nochmal herzlich für die Hilfe! :)
carolita
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 13. Jul 2017, 15:35
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon PonderStibbons » So 16. Jul 2017, 14:09

Wenn ich z.B. für Autor 1 0.0077 für P(H),

p(H) ist die a-priori-Wahrscheinlichkeit der Hypothese "Der Text stammt von Autor A".
Da es von A bzw. B einer sein MUSS, man aber keine weiteren Vorab-Informationen hat, wird man diese Wahrscheinlichkeit mit 50% ansetzen.
0.0106 für P(D|H) und 0.9894 für P(D|H') eingebe

Du kannst hier keine Gegenwahrscheinlichkeit angeben. p(D|H') bezeichnet "Wahrscheinlichkeit von 5 Vorkommen von xyz, wenn der Autor die Person B wäre". Das ist ein Wert analog zu dem für p(D|H). Wie bereits angegeben betrug er 0,117.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
carolita

Re: Vergleich von 3 Samples -welcher Test passt?

Beitragvon carolita » So 16. Jul 2017, 14:14

Achso, dann habe ich das falsch verstanden. Vielen lieben Dank für die Aufklärung! Jetzt sollte alles klar sein ;)
carolita
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Do 13. Jul 2017, 15:35
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste