STATISTIK-FORUM.de

karl · von **karl** » Mi 22. Feb 2012, 16:46

Hallo,

könnt Ihr mir bitte Feedback geben, inwiefern ich bei folgendem multivariaten Testverfahren ein Problem mit Multikollinearität habe und wie ich dieses ggf. lösen kann?

Es geht um die Anordnungs-Reihenfolge von Artikeln in einem Online-Shop (Artikel die weiter oben stehen, sind erfolgreicher - das ist bereits vorab belegt):
Die Artikel werden grundsätzlich nach 4 verschiedenen Kriterien angeordnet: Wirtschaftlichkeit, Verfügbarkeit, Kauffrequenz und Neuartigkeit (jeweils mit einer Zahl zwischen 0 und 100 bewertet)

Zu vergleichen sind nun verschiedene Gewichtungen dieser Anordnungskriterien - Beispiel: Gewichtung 30 - 50 - 70 - 50 oder auch 0 - 50 - 70 - 0 (es werden nur die Werte 0, 30, 50 oder 70 vergeben; die Summe kann 100 übersteigen)

Getestet wurden nun 108 Versionen mit verschiedenen Gewichtungen dieser Anordnungskriterien, mit insgesamt ca. 1 Mio. Besuchern auf der Website (jede Version hat dabei etwa gleich viele Besuche erfahren)
Die Frage ist nun, welche Version am erfolgreichsten ist, d.h. den meisten Umsatz generiert.
In Form einer Regressionsgleichung also: Umsatz = b0 + b1 * (Gewichtung Wirtschaftlichkeit) + b2 * (Gewichtung Verfügbarkeit) + b3 * (Gewichtung Frequenz) + b4 * (Gewichtung Neuartigkeit) + andere Faktoren

(Die Variablen sind also innerhalt des Testverfahrens die jeweiligen Gewichtungen, da ja z.B. die Wirtschaftlichkeit an sich über alle 108 Versionen konstant ist)

Als Ergebnis des Tests habe ich nun eine eindeutige Reihenfolge bekommen, welche Version den größten Erfolg (=Umsatz) bringt - soweit so gut.

Aus meiner Sicht bestehen nun aber 2 mögliche Probleme im Hinblick auf Multikollinearität:
1. Wirtschaftlichkeit, Verfügbarkeit, Frequenz und Neuartigkeit sind in der Realität nicht unabhängig voneinander - das sollte aus meiner Sicht aber kein Problem sein, da es sich hier ja nicht um die eigentlichen Variablen handelt (die Variablen sind die Gewichtungen)
2. Da die Gewichtungen in relativen Werten berücksichtigt werden, hängt z.B. die Gewichtung der Wirtschaftlichkeit immer auch von der Gewichtung der Verfügbarkeit ab usw.

Nun ist die Frage, ob mein Testergebnis dennoch brauchbar ist?
(da ich ja keine Korrelationen errechne im Sinne von "wie stark hängt der Erfolg von der Gewichtung der Verfügbarkeit ab?" sondern nur die Aussage treffe "Version 54 ist die Beste")

Brauche ich für eine Aussage über die beste Version bereits einen Test auf Multikollinearität?
wenn ja, wie muss dieser aussehen (wahrscheinlich mit Korrelationsmatrix und Bestimmtheitsmaß R^2? - dann bekomme ich aufgrund der Aufteilung der relativen Anteile wohl hohe negative Korrelationen heraus: Ist diese Vorgehensweise sinnvoll?)
Kann ich Problem 1. dabei wirklich vernachlässigen?
Falls das Testergebnis auch ohne Test brauchbar ist, bekomme ich dann evtl. doch Probleme bei einer detaillierteren Betrachtung (z.B. Aussage nur für Sortiment 1, mit nur 100.000 Besuchern)

Vielen Dank für Euer Feedback, ist wohl kein ganz triviales Problem: Das Testergebnis liegt vor und jetzt kann keiner sagen ob man was damit anfangen kann :-)

Sagt mir bitte Bescheid, falls bestimmmte Punkte unklar sind oder ihr weitere Infos braucht.

Vielen Dank und viele Grüße
Christoph

PonderStibbons · von **PonderStibbons** » Do 23. Feb 2012, 11:33

Ich verstehe nicht, was eine Regression da leisten soll. Es gab 108 Versionen,
die Reihenfolge der Artikel festzulegen, die Versionen unterscheiden sich
hinsichtlich der Gewichtungen der Artikelattribute. Die 108 Varianten lassen sich
anhand des Erfolgskriteriums in eine Reihenfolge bringen. Damit ist doch die Frage
gelöst, welche Gewichtung die beste ist (anhand der gewaltigen Falzahlen sind
Signfikanztests wohl entbehrlich). Deine Regression versucht anscheinend mit
n=108, die Gewichtungen (Prädiktoren) gewichtet zu addieren, den Zweck aber
erkenne ich wie gesagt nicht.

Mit freundlichen Grüßen

P.

karl · von **karl** » Do 23. Feb 2012, 15:51

Vielen Dank für Deine Antwort.

Verstehe ich Dich nun richtig? Beispielsweise hat sich Version 54 als die Beste erwiesen. Da das durch den umfangreichen Test ja empirisch belegt ist, kann es mir völlig egal sein wie stark die unabhängigen Variablen (Gewichtungen der Artikelattribute) miteinander korrelieren. Ich kann also ruhigen Gewissens die Aussage treffen, das Version 54 die Beste ist.

Anders wäre es doch, wenn ich Aussagen treffen möchte im Sinne von "der Erfolg korreliert positiv mit der relativen Gewichtung von Artikelattribut 1" oder "die Korrelation mit der Gewichtung von Artikelattribut 1 ist höher als die Korrelation mit der Gewichtung von Artikelattribut 2". Wenn ich dann also in einem zweiten Schritt die Korrelationskoeffizienten zwischen Erfolg und relativem Gewicht von Artikelattribut 1 usw. berechnen würde, dann müsste ich mich doch mit dem Multikollinearitätsproblem befassen oder? (D.h. es wäre ein Test notwendig mit Korrelationsmatrix, Bestimmtheitsmaß etc.)

Mir geht es eben auch darum, innerhalb des Projektteams zu verdeutlichen, dass die erste Aussage (welche ist die beste Version) problemlos möglich ist, während für letztgenannte Aussagen (Korrelationen usw.) ein weit höherer Aufwand notwendig wäre und vor allem auch die Einbeziehung von Spezialisten. (Bei mir waren solche Analysen ja auch irgendwann mal relevant im VWL-Studium, aber ich will mit diesem "Halbwissen" nicht in einem Online-Shop mit so hohen Besucherzahlen rumpfuschen)

In jedem Fall schonmal vielen Dank für die Hilfe
Viele Grüße
C.

PonderStibbons · von **PonderStibbons** » Do 23. Feb 2012, 16:23

Normalerweise könnte man es überhaupt nicht rechnen, da sich
alle Gewichtungen zu 1 addieren müssten, die Spalten wären
linear abhängig. Wie das mit wechselnden Gewichtungssummen
funktionieren kann, weiß ich nicht.

Generell ist Multikollinearität für die Schätzung von Parametern
(b-Gewichten der Regression) kein Problem, die Standardfehler
der Schätzungen können allerdings extrem hoch werden. Bei sehr
hohen Fallzahlen spielt das aber auch wieder nur eine begrenzte
Rolle, weil der Standard-Schätzfehler natürlich mit steigenden
Fallzahlen sinkt.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
karl

karl · von **karl** » Do 23. Feb 2012, 17:57

Vielen Dank für Deine Hilfe, ich denke damit kann ich nun wirklich auf dem richtigen Weg an die Sache ran gehen.

STATISTIK-FORUM.de

spezielles Multikollinearitäts-Problem

spezielles Multikollinearitäts-Problem

Re: spezielles Multikollinearitäts-Problem

Re: spezielles Multikollinearitäts-Problem

Re: spezielles Multikollinearitäts-Problem

Re: spezielles Multikollinearitäts-Problem

Wer ist online?