Hi,
ich bin gerade mit einem Text-Mining-Projekt beschäftigt und habe eine Frage zur Stichprobenziehung. Bei dem Projekt geht es um eine automatisierte Inhaltsanalyse, die mit einem Amazon-Datensatz durchgeführt wird. Über einen Zeitraum von Mai 1996 bis Juni 2014 wurden die gesamten Kundenreviews (142.8 Millionen) von Amazon extrahiert. Der Datensatz enthält Reviews und Produktmetadaten. Insgesamt sind 24 Produktkategorien mit unterschiedlicher Fallzahl enthalten. Auch wenn es sich um Text-Mining handelt, ist es unmöglich den gesamten Datensatz zu bearbeiten.
Meine Frage ist, wie man bei der Stichprobenziehung vorgeht, um möglichst generalisierbare Schlüsse ziehen zu können? Meine Idee war eine geschichtete Stichprobe zu ziehen, wobei die Produktkategorien die einzelnen Schichten darstellen würden. Das Konfidenzintervall habe ich auf 95% und den Standardfehler auf 5% festgelegt. Wenn man es so machen würde, wäre der Gesamtaufwand noch vertretbar. Allerdings stellt der Datensatz nicht die Grundgesamtheit dar, sondern der ist ja ebenfalls nur eine Stichprobe. Hat jemand vielleicht ne Idee wie man da vorgehen könnte?