Hallo zusammen,
ich wäre extrem dankbar, wenn sich jemand die Zeit für mein Problem nehmen würde
Ich untersuche im Rahmen meiner Masterthesis als Hauptfrage ob Produkttester die von Amazon gesponsored sind positivere Bewertungen verfassen als normale User.
Ich habe nun einen Datensatz von 1061 Online Reviews von verschiedenen Produkten, dabei wurden Produkte gewählt die jeweils etwa 50 Reviews besitzen und sowohl von Vine-Club-Mitgliedern (Gratisprodukte durch Amazon) als auch normalen Usern bewertet wurden. Glücklicherweise wurden dabei zwei fast identisch starke Gruppengrößen erzielt.
Erhoben habe ich neben der individuellen Bewertung in Sternen noch verschiedene Variablen (Wordcount, Produktypus (Such- oder Erfahrungsgut), Preis, Review Durchschnitt, Test im Rahmen des Vine-Programmes und Top Produkttester).
Derzeit sind die Codierungen wie folgt:
Individuelle Bewertung in Sternen: 1-5
Wordcount: Absolute Wortanzahl, muss aber vermutlich umcodiert werden?
Produkttypus: 1 oder 0
Preis: Wurde logarithmiert
Review Durchschnitt: Range 1-5 im Kommabereich
Test im Rahmen des Vine Programmes: 1 oder 0
Top Produkttester: 1 oder 0
Als Abhängige Variable wurde die Individuelle Bewertung in Sternen identifiziert und für eine erste Analyse lediglich "Test im Rahmen des Vine Programmes" herangezogen.
Meine Betreuerin hat mir bei der Auswahl der Analyse relativ freie Wahl gelassen, allerdings eine Regressionsanalyse in den Raum gestellt.
Also habe ich mir einmal eine Korrelationsmatrix angeschaut mit den verschiedenen Variablen:
Schaut man sich die Korrelation von der individuellen Bewertung und der Zugehörigkeit in dem Vine-Club an, stellt man keine Korrelation fest, was meiner Meinung nach bereits eine erste Aussage darstellt?
Weiterhin verstört mich etwas, dass die Folgende Grafik im Zusammenhang mit einer Regression eher schwierig zu fassen sein wird?
Da ich aber davon ausgehe, dass ich es dabei nicht belassen kann, habe ich mich weiter informiert und festgestellt, dass eine normale Regression bei meiner Datenlage (Abhängige Variable ordinal Skaliert und nicht wirklich Normalverteilt) nicht korrekt ist.
Die Lösung hierfür scheint demnach die ordinale Regression zu sein:
Wie vermutet ist die Aussagekraft in etwa bei 0.
Nun ist meine prinzipielle Frage, stehe ich völlig auf dem Schlauch und bin auf dem falschen Weg? Oder kann ich damit arbeiten und so argumentieren, dass damit die Hypothese widerlegt ist (Viner bewerten eben nicht besser als normale User) ?
Viele Grüße
und danke an jeden der bis hier gelesen hat