Liebe Statistikkundige,
Ich schreibe gerade an meiner Masterarbeit in englischer Sprachwissenschaft zum Thema "Geschlechterspezifische Verwendung von Adverbialsätzen in Scots (=Minoritätensprache in Schottland)". Ich untersuche dabei insbesondere, ob Männer dazu neigen, vorangestelle (also vor dem Hauptsatz stehende) Konzessivsätze zu benutzen während Frauen möglicherweise eher dazu neigen, nachgestellte Kausalsätze zu benutzen. Dazu habe ich zwei Datensätze, einen zum Thema Konzessivsätze und einen zum Thema Kausalsätze.
Eigentlich wollte ich gar keine quantitative Studie machen, nun ist es aber doch eine geworden und das Problem ist, dass ich in Mathe eigentlich eine totale Null bin.
Ich habe nun also die zwei Datensätze, von denen ich einen mit dem Chi-Quadrat-Test und den anderen mit dem Fisher Exact Test untersuchen kann (der Datensatz zu den Kausalsätzen enthält Zellen, in denen die Anzahl unter 5 liegt).
Das habe ich bereits getan und mir ist auch soweit klar, wie der Chi-Quadrat-Test funktioniert (wobei ich nicht wirklich verstehe, wie genau mir dieser Test diese Zahl ausspuckt, aber das muss ich vielleicht auch nicht alles verstehen). Ich muss allerdings sagen, ich habe nur einmal den Chi-Test zur Probe durchgerechnet und geguckt, ob ich auf das gleiche Ergebnis wie der Onlinerechner komme. Das hat auch geklappt.
Den Fisher-Test habe ich nur mit dem Online-Rechner gemacht und weiß, dass der 2-tails-p-value für mich ausschlaggebend ist.
Die erste Frage ist eine zum logischen Verständnis, womit es bei mir leider nicht sehr weit her ist.
Ich habe ja immer eine Nullhypothese, die besagt "Die Benutzung der unterschiedlichen Arten von Adverbialsätzen ist bei Männern und Frauen gleich." oder anders formuliert "Die Merkmale 'Position von Adverbialsätzen' und 'Geschlecht' sind unabhängig" oder noch anders formuliert "Die beobachteten und die erwarteten Häufigkeiten stimmen überein".
Meine Alternativhypothese wäre dann je nach Untersuchung (sind zwei, die nochmal aufgesplittet sind) "Männer benutzen mehr vorangestellte Konzessivsätze" oder "Frauen benutzen mehr nachgestelle Kausalsätze".
Wenn der Online-Chi-Test nun sagt, das Ergebnis sei nicht signifikant, heisst das dann also, dass die Nullhypothese zutrifft und die Verteilung ganz normal ist?
Außerdem spuckt der Test ja noch einen p-Wert aus. Wenn der z.B. bei 0,3768 (das sind dann nach meinem Verständnis etwa 4%) liegt, heisst das dann, dass die Wahrscheinlichkeit, dass die Nullhypothese zutrifft 4% oder 96% beträgt? Weil, wenn die Wahrscheinlichkeit 4% beträgt, verstehe ich nicht, warum man dann sagt dass die Hypothese zutrifft.
Aus den erwarteten Zahlen kann ich ablesen, dass es zumindest eine Tendenz gibt, dass meine Alternativhypothesen zutreffen, also das der Wert zB für Männer, die vorangestellte Konzessivsätze in meinen beobachteten Daten kleiner ist als der erwartete Wert und der Wert für nachgestellte Konzessivsätze größer ist als erwartet. Oder verstehe ich das falsch?
Nun weiß ich nicht, was mein Ergebnis ist.
Außerdem frage ich mich, ob ich das bei den Daten, für die ich den Fisher-Test brauche dann genauso sagen kann, oder sagt der p-Wert da etwas anderes aus?
Ich schreibe einfach nochmal die Daten meiner zwei Datensätze dazu.
Konzessivsätze (beobachtet): Frauen vorangestellt: 41, Männer vorangestellt 29; Frauen nachgestellt 65, Männer nachgestellt 60.
Kausalsätze (beobachtet): Frauen vorangestellt 4, Männer vorangestellt 4; Frauen nachgestellt 121, Männer nachgestellt 57.
Außerdem verstehe ich nicht so richtig, ob es jetzt ausschlaggebend ist, dass im zweiten Beispiel die Anzahl der von Männern geäußerten Sätze nur halb so groß ist wie die Anzahl der Sätze, die von Frauen formuliert wurden (125 vs. 61). Der Chi-Test berechnet doch eigentlich so, dass alles normalisiert wird, oder?
Das andere Problem ist die Gesamtzahl von Sprechern in meinem Korpus (=Textsammlung). Ich habe 147 weibliche Sprecher und nur 83 männliche. Das gibt mir eigentlich - so wie ich das verstehe - einen Hinweis darauf, dass Adverbialsätze im Großen und Ganzen von Frauen häufiger verwendet werden und verändert doch auch irgendwie die Sicht auf meine Daten, oder?
D.h. wenn mein ich bei den Konzessivsätzen etwa gleich viele Sätze für Frauen und Männer habe (105 vs. 89, was zumindest ausgeglichener ist als bei den Kausalsätzen), dann heisst es doch eigentlich, dass die Wahrscheinlichkeit, dass Männer diese Sätze benutzen höher ist, weil die Gesamtzahl der Männer, die zum Korpus beitragen kleiner ist, oder?
Ich bin wirklich aufgeschmissen und weiß ehrlich gesagt auch nicht, wo es bei mir hakt, dass ich die Zusammenhänge nicht interpretieren kann bzw. verunsichert bin und wäre SEHR, SEHR dankbar für Tipps und Anregungen.
Vielen Dank im Voraus,
Nemi