Hallo in die Runde,
für ein Forschungsprojekt möchte ich eine kleine Korpusstudie durchführen, die Sprachverwendung im zeitlichen Verlauf kontrastiert. Ich arbeite also nicht mit Populationen, sondern mit einer relativ kleinen (und mir bekannten) Grundgesamtheit von Texten, z.B. 40 sehr umfangreiche Texte zum Zeitpunkt 1. Für jeden Zeitpunkt gibt es außerdem eine andere grundgesamtheit, in etwa so:
ZP 1: N=25
ZP 2: N=30
ZP 3: N=40
Da die Analyse recht aufwändig ist, kommt eine Vollerhebung nicht in Frage. Ich würde es aber schaffen, bspw. 20 dieser Texte als randomized sample zu erheben und zu analysieren. Meine Frage ist nun, ob ihr es für sinnvoller haltet, für bsp. 3 alle drei Zeitpunkte einen gewissen Prozentsatz der Daten zu erheben, d.h. z.B. für alle 50% oder die sample-Zahl bei jeder Stichprobe gleich zu halten, also z.B. ZP 1 n=20, ZP 2 n= 20, ZP 3 n=20. Ich bin leider nicht so firm auf dem Gebiet der quantifizierenden Analysen.
Von dem was ich bisher gelesen habe, scheint es wichtig, ein randomized bzw. stratified randomized sample zusammenzustellen, um dann auf die Gesamtheit der Daten schließen zu können. Ich bin vor allem unsicher wegen der kleinen grundgesamtheit der Texte. Macht es da überhaupt Sinn, induktiv zu rechnen?
Ich danke sehr herzlich und entschuldige mich schon einmal, falls es arger Irrsinn ist, den ich hier frage - habt Nachsicht