Hallo,
könnt Ihr mir bitte Feedback geben, inwiefern ich bei folgendem multivariaten Testverfahren ein Problem mit Multikollinearität habe und wie ich dieses ggf. lösen kann?
Es geht um die Anordnungs-Reihenfolge von Artikeln in einem Online-Shop (Artikel die weiter oben stehen, sind erfolgreicher - das ist bereits vorab belegt):
Die Artikel werden grundsätzlich nach 4 verschiedenen Kriterien angeordnet: Wirtschaftlichkeit, Verfügbarkeit, Kauffrequenz und Neuartigkeit (jeweils mit einer Zahl zwischen 0 und 100 bewertet)
Zu vergleichen sind nun verschiedene Gewichtungen dieser Anordnungskriterien - Beispiel: Gewichtung 30 - 50 - 70 - 50 oder auch 0 - 50 - 70 - 0 (es werden nur die Werte 0, 30, 50 oder 70 vergeben; die Summe kann 100 übersteigen)
Getestet wurden nun 108 Versionen mit verschiedenen Gewichtungen dieser Anordnungskriterien, mit insgesamt ca. 1 Mio. Besuchern auf der Website (jede Version hat dabei etwa gleich viele Besuche erfahren)
Die Frage ist nun, welche Version am erfolgreichsten ist, d.h. den meisten Umsatz generiert.
In Form einer Regressionsgleichung also: Umsatz = b0 + b1 * (Gewichtung Wirtschaftlichkeit) + b2 * (Gewichtung Verfügbarkeit) + b3 * (Gewichtung Frequenz) + b4 * (Gewichtung Neuartigkeit) + andere Faktoren
(Die Variablen sind also innerhalt des Testverfahrens die jeweiligen Gewichtungen, da ja z.B. die Wirtschaftlichkeit an sich über alle 108 Versionen konstant ist)
Als Ergebnis des Tests habe ich nun eine eindeutige Reihenfolge bekommen, welche Version den größten Erfolg (=Umsatz) bringt - soweit so gut.
Aus meiner Sicht bestehen nun aber 2 mögliche Probleme im Hinblick auf Multikollinearität:
1. Wirtschaftlichkeit, Verfügbarkeit, Frequenz und Neuartigkeit sind in der Realität nicht unabhängig voneinander - das sollte aus meiner Sicht aber kein Problem sein, da es sich hier ja nicht um die eigentlichen Variablen handelt (die Variablen sind die Gewichtungen)
2. Da die Gewichtungen in relativen Werten berücksichtigt werden, hängt z.B. die Gewichtung der Wirtschaftlichkeit immer auch von der Gewichtung der Verfügbarkeit ab usw.
Nun ist die Frage, ob mein Testergebnis dennoch brauchbar ist?
(da ich ja keine Korrelationen errechne im Sinne von "wie stark hängt der Erfolg von der Gewichtung der Verfügbarkeit ab?" sondern nur die Aussage treffe "Version 54 ist die Beste")
Brauche ich für eine Aussage über die beste Version bereits einen Test auf Multikollinearität?
wenn ja, wie muss dieser aussehen (wahrscheinlich mit Korrelationsmatrix und Bestimmtheitsmaß R^2? - dann bekomme ich aufgrund der Aufteilung der relativen Anteile wohl hohe negative Korrelationen heraus: Ist diese Vorgehensweise sinnvoll?)
Kann ich Problem 1. dabei wirklich vernachlässigen?
Falls das Testergebnis auch ohne Test brauchbar ist, bekomme ich dann evtl. doch Probleme bei einer detaillierteren Betrachtung (z.B. Aussage nur für Sortiment 1, mit nur 100.000 Besuchern)
Vielen Dank für Euer Feedback, ist wohl kein ganz triviales Problem: Das Testergebnis liegt vor und jetzt kann keiner sagen ob man was damit anfangen kann
Sagt mir bitte Bescheid, falls bestimmmte Punkte unklar sind oder ihr weitere Infos braucht.
Vielen Dank und viele Grüße
Christoph