Hallo zusammen
Ich bin ein Statistik-Neuling und bin auf der Suche nach Hilfe. Ich habe das Forum durchsucht, aber keine Antwort auf meine Frage gefunden. Ich poste meine Frage hier im allgemeinen Forum, da ich mir nicht sicher bin, in welches die Frage sonst besser passen würde. Ich schreibe eine Seminararbeit in forensischer Linguistik und habe ein statistisches Problem. Ich untersuche 2 Twitteraccounts und möchte einige anonyme Posts einem der beiden User zuordnen (die anonymen Posts sind auf jeden Fall von einem der beiden untersuchten User). Dies ist nun mein Problem:
Ich habe zwei grosse Datensätze, die ich mit einem zweiseitigen Z Test (two-tailed z test for the comparison of proportions) miteinander verglichen und den p Wert berechnet habe, um herauszufinden, ob es signifikante Unterschiede gibt.
Die Datensätze bestehen aus je einer Liste mit verschiedenen Wörtern, die in den Twitter-Posts vorkommen und der Anzahl dieser Wörter im Verhältnis zur Gesamtzahl aller Wörter. Datensatz 1 ist von Autor 1 und Datensatz 2 von Autor 2. Die Listen habe ich miteinander verglichen, um herauszufinden, ob ein Autor ein bestimmtes Wort statistisch signifikant häufiger braucht als der andere Autor. Dies habe ich anhand eines zweiseitigen Z Test berechnet mit dem Signifikanzlevel von 0.05.
Beispiel:
„xy“ wird von Autor 1 12x gebraucht bei einer Gesamtzahl von 13997 Wörtern.
Das gleiche Wort wird von Autor 2 51x gebraucht bei einer Gesamtzahl von 11121 Wörtern.
Der Z Test ergibt einen p Wert von 0.00000000445922188063719, der Unterschied ist also statistisch signifikant.
Dies wurde für jedes Wort berechnet, das in beiden Listen vorkommt.
Nun habe ich einen kleinen Datensatz „Anonym“ mit insgesamt 181 Wörtern, von dem ich nicht weiss, ob er von Autor 1 oder 2 ist. Ich möchte versuchen, diesen Datensatz einem der beiden Autoren zuzuordnen anhand der Liste der Wörter, die im Datensatz vorkommen und ihrer Häufigkeit.
Wie kann ich testen, ob der kleine Datensatz „Anonym“ zu Autor 1 oder 2 passt? Gibt es einen statistischen Test, mit dem ich die Daten von diesem Datensatz mit den Daten von den beiden grossen Datensätzen vergleichen kann?
Anders ausgedrückt:
„Anonym“ verwendet „xy“ 5x in 181 Wörtern.
Autor 2 verwendet es 86x in 11121 Wörtern.
Autor 1 verwendet es 251x in 13997 Wörtern.
Wie kann ich diese Daten miteinander vergleichen und einen statistischen Unterschied feststellen? Ich weiss, dass Autor 1 dieses Wort signifikant häufiger verwendet als Autor 2. Verwendet Anonym dieses Wort ähnlich häufig wie Autor 1 oder ähnlich häufig wie Autor 2?
Ich habe überlegt, den gleichen Test nochmals durchzuführen und einmal Anonym mit Autor 1 zu vergleichen und einmal Anonym mit Autor 2. Aber was würde mir das Resultat dann sagen? Was wäre die Nullhypothese für diese zwei Tests? Oder bin ich völlig auf der falschen Spur?
Ich bin dankbar für jeden Tipp