Liebe Forummitglieder,
folgendes angenommen:
Wenn ich fünf (oder fünfhundert) zufällig ausgewählte Wikipedia-Texte über das Thema Physik nehme und sie mische, dann habe ich einen gemeinsamen Text bestehend aus 10.000 Wörtern. Dasselbe mache ich nun z. B. mit Online-Artikeln aus irgendeiner Nachrichten-Seite zum Thema Physik. Und hier habe ich als Gesamttext eine Wortanzahl von 7.000 Wörtern.
Ich untersuche beide Texte auf die Wortarteneinteilung. Ich möchte wissen, wo der Anteil der Adjektive häufiger ist.
Ich stelle die Hypothese auf, dass im Wikipedia-Text weniger Adjektive vorkommen als im Nachrichten-Text.
Die Analyse ergibt, dass beim Wikipedia-Text insgesamt 30% Adjektive vorkommen und im Nachrichten-Text 40%.
Wie müsste man statistisch vorgehen, um diese Ergebnisse zu überprüfen? Ist es Zufall, dass beim Wikipedia-Text weniger Adjektive vorkommen als beim Nachrichten-Text?
Es geht also darum, anhand von zwei verschiedenen Texten, die aus mehreren Texten zu einem gemischt wurden, die Anzahl von irgendetwas zu vergleichen. Hat Text A mehr cc,bb,zz als Text B? Falls ja, basiert das Ergebnis auf ein Zufall oder nicht? Da ich keinerlei Ahnung von Statistik Ahnung habe, würde ich zumindest die Punkte kennen, mit welchen Verfahren man vorgehen würde bei meinem beschriebenen Fall.
Und darf man mehrere Texte zu einem mischen? Oder muss jeder Einzeltext (Wiki) mit dem anderen Einzeltext (Nachrichtenseite) verglichen werden?
Schöne Grüße,
Sebastian