STATISTIK-FORUM.de

Kaiser · von **Kaiser** » Do 5. Okt 2017, 20:31

Hi,

ich bin gerade mit einem Text-Mining-Projekt beschäftigt und habe eine Frage zur Stichprobenziehung. Bei dem Projekt geht es um eine automatisierte Inhaltsanalyse, die mit einem Amazon-Datensatz durchgeführt wird. Über einen Zeitraum von Mai 1996 bis Juni 2014 wurden die gesamten Kundenreviews (142.8 Millionen) von Amazon extrahiert. Der Datensatz enthält Reviews und Produktmetadaten. Insgesamt sind 24 Produktkategorien mit unterschiedlicher Fallzahl enthalten. Auch wenn es sich um Text-Mining handelt, ist es unmöglich den gesamten Datensatz zu bearbeiten.
Meine Frage ist, wie man bei der Stichprobenziehung vorgeht, um möglichst generalisierbare Schlüsse ziehen zu können? Meine Idee war eine geschichtete Stichprobe zu ziehen, wobei die Produktkategorien die einzelnen Schichten darstellen würden. Das Konfidenzintervall habe ich auf 95% und den Standardfehler auf 5% festgelegt. Wenn man es so machen würde, wäre der Gesamtaufwand noch vertretbar. Allerdings stellt der Datensatz nicht die Grundgesamtheit dar, sondern der ist ja ebenfalls nur eine Stichprobe. Hat jemand vielleicht ne Idee wie man da vorgehen könnte?

strukturmarionette · von **strukturmarionette** » Do 5. Okt 2017, 23:19

Hi,

Meine Frage ist, wie man bei der Stichprobenziehung vorgeht, um möglichst generalisierbare Schlüsse ziehen zu können?

- einfache Zufallsstichprobe

Das Konfidenzintervall habe ich auf 95%

- worum geht es denn? Thema? Fragestellungen?

Standardfehler auf 5% festgelegt

- Googlo?

Allerdings stellt der Datensatz nicht die Grundgesamtheit dar, sondern der ist ja ebenfalls nur eine Stichprobe

- s.o.

Gruß
S.

Kaiser · von **Kaiser** » Fr 6. Okt 2017, 21:16

Hi,

danke für die Antwort.
Ziel der Studie ist die Customer Experience der Kunden zu ermitteln und diese in Bezug zur Kundenzufriedenheit zu setzten. Customer Experience ist vereinfacht gesagt die Gesamterfahrung mit einem Produkt und lässt sich anhand von sechs Dimensionen bestimmen. Dabei wird nicht nur das Auftreten, sonderen auch die Valenz und Qualität bestimmt. Dies ist mit einer 3-Stufingen Skalierung geaplant (0 = wertneutral, 1 = positiv, - 1 = negativ, NA = Nicht vorhanden). Kundenzufriedenheit wird anhand der Bewertungen/Rating der Produkte operationalisiert. Das Ganze basiert auf einer automatisierten Inhaltsanalyse mit einem navive bayes Klassifikator.

VG

STATISTIK-FORUM.de

Stichprobenziehung bei Datensätzen

Stichprobenziehung bei Datensätzen

Re: Stichprobenziehung bei Datensätzen

Re: Stichprobenziehung bei Datensätzen

Wer ist online?