STATISTIK-FORUM.de

SandSturm · von **SandSturm** » Fr 17. Apr 2020, 23:33

Liebe Forummitglieder,

folgendes angenommen:

Wenn ich fünf (oder fünfhundert) zufällig ausgewählte Wikipedia-Texte über das Thema Physik nehme und sie mische, dann habe ich einen gemeinsamen Text bestehend aus 10.000 Wörtern. Dasselbe mache ich nun z. B. mit Online-Artikeln aus irgendeiner Nachrichten-Seite zum Thema Physik. Und hier habe ich als Gesamttext eine Wortanzahl von 7.000 Wörtern.

Ich untersuche beide Texte auf die Wortarteneinteilung. Ich möchte wissen, wo der Anteil der Adjektive häufiger ist.
Ich stelle die Hypothese auf, dass im Wikipedia-Text weniger Adjektive vorkommen als im Nachrichten-Text.

Die Analyse ergibt, dass beim Wikipedia-Text insgesamt 30% Adjektive vorkommen und im Nachrichten-Text 40%.

Wie müsste man statistisch vorgehen, um diese Ergebnisse zu überprüfen? Ist es Zufall, dass beim Wikipedia-Text weniger Adjektive vorkommen als beim Nachrichten-Text?
Es geht also darum, anhand von zwei verschiedenen Texten, die aus mehreren Texten zu einem gemischt wurden, die Anzahl von irgendetwas zu vergleichen. Hat Text A mehr cc,bb,zz als Text B? Falls ja, basiert das Ergebnis auf ein Zufall oder nicht? Da ich keinerlei Ahnung von Statistik Ahnung habe, würde ich zumindest die Punkte kennen, mit welchen Verfahren man vorgehen würde bei meinem beschriebenen Fall.

Und darf man mehrere Texte zu einem mischen? Oder muss jeder Einzeltext (Wiki) mit dem anderen Einzeltext (Nachrichtenseite) verglichen werden?

Schöne Grüße,
Sebastian

PonderStibbons · von **PonderStibbons** » Sa 18. Apr 2020, 00:43

Da ich keinerlei Ahnung von Statistik Ahnung habe,

Aber wozu dann die Frage? Wenn Du keinerlei Ahnung hast, was willst Du mit Lösungsvorschlägen anfangen?

Mit freundlichen Grüßen

PonderStibbons

SandSturm · von **SandSturm** » Sa 18. Apr 2020, 08:47

Hallo,

dann wüsste ich, mit was ich mich genau zu beschäftigen habe.

Schöne Grüße,
Sebastian

PonderStibbons · von **PonderStibbons** » Sa 18. Apr 2020, 10:31

Man könnte eine Kreuztabelle (Vierfeldertafel) erstellen mit
"Quelle" (Nachrichtenseiten versus Wikipedia) x "Wortart" (Adjektiv
versus anderes). Die Nullhypothese wäre, dass in der Grundgesamtheit,
aus der die 7.000 Nachrichten-Wörter stammen, das Verhältnis
von Adjektiven zu nicht-Adjektiven exakt (!) dasselbe ist wie
in der Grundgesamtheit, aus der die 10.000 Wikipedia-Wörter
stammen; dass also Unterschiede zwischen den Stichproben
rein auf Zufälligkeiten bei der Stichprobenziehung basieren.

Inwieweit die Stichprobendaten dieser Nullhypothese
entsprechen, lässt sich mit dem Chi²-Test analysieren.
Sieht man, dass die Stichprobendaten nur wenig dem entsprechen,
was bei gegebener Stichprobengröße unter der Nullhypothese zu
erwarten wäre, entscheidet man sich, die Nullhypothese zu
verwerfen.

Notabene, falls der Test ergibt, die Nullhypothese zu verwerfen,
dann heißt dieses "statistisch signfikante" Ergebnis nicht, es
liege ein großer/erheblicher/wichtiger Unterschied vor, nur
dass überhaupt irgendein Unterschied von der exakten
Gleichverteilung angenommen werden kann.

Mit freundlichen Grüßen

PonderStibbons

SandSturm · von **SandSturm** » Sa 18. Apr 2020, 17:46

Vielen Dank PonderStibbons. Damit kann ich schon mal was anfangen.

Macht es einen Unterschied, ob ich die Texte einzeln oder gemischt untersuchen würde?
Also komplett gemischter Wiki-Text (10.000 Wörter) gegen komplett gemischtem Nachrichten-Text (7.000 Wörter)
vs.
Jeder Wiki-Text einzeln (W1, W2, W3) gegen Nachrichten-Text einzeln (N1, N2, N3).

Würde man dann auch Chi-Quadrat nutzen?

Schöne Grüße,
Sebastian

SandSturm · von **SandSturm** » Do 30. Apr 2020, 19:19

Hallo,

folgendes angenommen:
In einem Text, mit den Namen D, kommen aus 46450 Wörtern insgesamt 5305 Adjektive vor.
Im anderen Text, mit dem Namen N, kommen aus 48238 Wörtern insgesamt 5702 Adjektive vor.

Meine Hypothese: Die Adjektivhäufigkeit im Text D unterscheidet sich signifikant von der Adjektivhäufigkeit im Text N. (sofern richtig formuliert, es soll also einen Unterschied geben)

Es gibt im Web verschiedene Chi-Quadrat-Online-Rechner, wie müsste ich dort die Zahlen eingeben?

Bild

Und meine Frage aus meinem vorherigen Post, die leider nicht beantwortet wurde:
Wird die Population nicht verfälscht, wenn Texte miteinander gemischt werden? Ist der Chi-Quadrat-Test dann trotzdem geeignet?

STATISTIK-FORUM.de

Texte miteinander vergleichen

Texte miteinander vergleichen

Re: Texte miteinander vergleichen

Re: Texte miteinander vergleichen

Re: Texte miteinander vergleichen

Re: Texte miteinander vergleichen

Re: Texte miteinander vergleichen

Wer ist online?