STATISTIK-FORUM.de

Thomas111 · von **Thomas111** » Sa 15. Feb 2014, 14:48

Hallo,

ich möchte eine Kundenzufriedenheitsbefragung auswerten, bin im Bereich der Statistik eher ein Neuling und würde gerne von Euch Feedback bekommen.

Ich habe eine Kundenzufriedenheitsbefragung vorgenommen, bei der einerseits die Gesamtzufriedenheit sowie auch einige Attribute, die die Gesamtzufriedenheit beeinflussen, auf einer fünfstufigen Likert-Skala abgefragt wurden.

Mein Anliegen ist nun neben einer rein deskriptiven Beschreibung der Daten auch explorativ vorzugehen.
Dabei hatte ich in der Literatur ein interessantes Verfahren entdeckt, das versucht die Wichtigkeit der Attribute zu identifizieren, wenn die Gesamtzufriedenheit hoch bzw. wenn die Gesamtzufriedenheit niedrig ist.

Das erste Verfahren ist im Prinzip eine multiple lineare Regression und wird als Penalty-Reward-Contrast-Analysis bezeichnet. Die Attribute (fünfstufig skaliert) werden in Dummyvariablen zerlegt. Dabei entstehen für jedes Attribut 2 Dummyvariablen.
Beispiel:
Dummyvariable für positive Wahrnehmung wird codiert:
• Werte 4-5 -- > 1
• Werte 1-3 -- > 0
Dummyvariable für negative Wahrnehmung wird codiert:
• Werte 1-2 -- > 1
• Werte 3-5 -- > 0
Anschließend wird mit den Dummyvariablen eine multiple lineare Regression auf die Gesamtzufriedenheit durchgeführt. Die Regressoren sollen dann den Einfluss des Attributs auf die Gesamtzufriedenheit bei positiver und negativer Wahrnehmung darstellen.

Das Problem ist jetzt jedoch, dass die Regression nicht vernünftig ausgeführt werden kann, da leider für einige Dummy-Variablen die Varianzen 0 sind bzw. die Variablen aus mir unerklärlichen Gründen rausgeschmissen werden.

Da ich jedoch trotzdem irgendwie gerne eine Aussage über die Wichtigkeit der einzelnen Attribute in Bezug auf die Gesamtzufriedenheit machen möchte, habe ich es mit einer „einfachen“ multiplen linearen Regression versucht. D.h. die Attribute und die Gesamtzufriedenheit genommen und in SPSS mittels Regression ausgeben lassen. Das Problem ist jedoch, dass obwohl jedes der Attribute mit der Gesamtzufriedenheit korreliert ist (teils deutlich), einige Regressionskoeffizienten ein negatives Vorzeichen haben und damit für meinen Zweck nicht vernünftig interpretierbar sind. Mir geht es ja gerade den Einfluss der Attribute festzustellen und nicht die Gesamtzufriedenheit vorherzusagen.
Dieses Problem scheint mir auf das Problem der Multikollinearität zurückzuführen zu sein, da die Variablen teils deutlich untereinander korreliert sind.

Da ich jedoch gerne irgendwie Hypothesen bzw. Handlungsempfehlungen aus den Daten ableiten möchte, habe ich nun die einfache Korrelation zwischen Attribut und Gesamtzufriedenheit berechnet. Dies funktioniert auch gut, jedoch lasse ich dabei jegliche Korrelation der Attribute untereinander außer Acht!

Ich würde daher gerne von Euch wissen, ob dies eine „halbwegs“ vernünftige Herangehensweise an die explorative Datenanalyse ist bzw. was Ihr dabei als Probleme seht. Glaubt Ihr mit einer einfachen Korrelationen von Attributen und Gesamtzufriedenheit, bei der ich die Korrelationen der Attribute untereinander außer Acht lasse, erhalte ich trotzdem vernünftig interpretierbare Ergebnisse?
Vielleicht gibt es ja auch alternative Herangehensweisen.

Ich bin für jeden Hinweis dankbar. In meiner Arbeit würde ich nämlich ungern falsche bzw. unsinnige Interpretationen vornehmen. Davon gibt’s ja bereits genügend im Internet.

Vielen Dank
Thomas

daniel · von **daniel** » Sa 15. Feb 2014, 18:35

[...] wenn die Gesamtzufriedenheit hoch bzw. wenn die Gesamtzufriedenheit niedrig [...]
[...] abei entstehen für jedes Attribut 2 Dummyvariablen. [...]
[...] Die Regressoren sollen dann den Einfluss des Attributs auf die Gesamtzufriedenheit bei positiver und negativer Wahrnehmung darstellen. [...]

Derartige Argumentationen höre ich sehr häufig und Ich verstehe ja auch, dass man die Welt gerne Schwarz-Weiß hätte, weil es dann alles so viel einfacher ist. Aber mal ehrlich, wozu macht man sich die Mühe Attribute und Zufriedenheit differenziert auf 5-Punkt Liker-Typ Items (keine Skalen! Eine Likert-Skala entsteht erst durch das Zusammenfassen mehrere Likert-Typ-Items) zu erheben, um dann bei der Auswertung den Großteil der Varianz wieder in die Tonne zu trenen, in dem man sich mit binären Indikatoren behilft? Das konnte mir bisher niemand auch nur annähernd verständlich machen.

In meiner Arbeit würde ich nämlich ungern falsche bzw. unsinnige Interpretationen vornehmen

Leider scheinst Du ein wenig auf genau diesem Weg zu sein. Denn Dein Argument, dass

einige Regressionskoeffizienten ein negatives Vorzeichen haben und damit für [D]einen Zweck nicht vernünftig interpretierbar sind

erweckt doch stark den Eindruck, dass Du solange rumschrauben willst, bis das rauskommt, was Du gerne hättest bzw. ohnehin erwartest. Das ist immer und grundsätzlich unzulässig und führt jegliche inferenzstatistsche Theorie komplett ad absurdum.

Wenn die Attribute untereinander stark korrelieren, dann ist es mit höchster Wahrscheinlichkeit keine gute Idee bivariate Korrelationen zu berechnen. Besser wäre es evtl. eine explorative Faktorenanalyse durchzuführen, um besser beurteilen zu können, welche der Attribute potentiell die gleiche latente Dimension abbilden. Diese könnten dann in Likert-Skalen zusammengefasst und simultan in einer Regressionsanalyse untersucht werden. Ob das gewünscht ist, hängt aber von der exakten Forschungsfrage ab. Inferenzstatistik ist nicht (zumindest ohne weiters) dazu gedacht, aus den Daten zu lernen, sondern bestehende theoretische Überlegungen zu prüfen.

folgende User möchten sich bei daniel bedanken:
PonderStibbons

Thomas111 · von **Thomas111** » Mi 19. Feb 2014, 15:55

Hallo daniel,

ich danke Dir für Deine ausführliche Antwort, in der interessante Ansätze stecken. Jedoch glaube ich, dass ich mich teilweise bezüglich meiner Intentionen nicht immer korrekt ausgedrückt habe. Ich bin mir nämlich immer noch nicht ganz sicher inwiefern ich nun aus meinen Daten explorative Schlüsse ziehen kann.

daniel hat geschrieben:
[...] wenn die Gesamtzufriedenheit hoch bzw. wenn die Gesamtzufriedenheit niedrig [...]
[...] abei entstehen für jedes Attribut 2 Dummyvariablen. [...]
[...] Die Regressoren sollen dann den Einfluss des Attributs auf die Gesamtzufriedenheit bei positiver und negativer Wahrnehmung darstellen. [...]

Derartige Argumentationen höre ich sehr häufig und Ich verstehe ja auch, dass man die Welt gerne Schwarz-Weiß hätte, weil es dann alles so viel einfacher ist. Aber mal ehrlich, wozu macht man sich die Mühe Attribute und Zufriedenheit differenziert auf 5-Punkt Liker-Typ Items (keine Skalen! Eine Likert-Skala entsteht erst durch das Zusammenfassen mehrere Likert-Typ-Items) zu erheben, um dann bei der Auswertung den Großteil der Varianz wieder in die Tonne zu trenen, in dem man sich mit binären Indikatoren behilft? Das konnte mir bisher niemand auch nur annähernd verständlich machen.

Danke für die Richtigstellung von Likert-Skala vs Likert-Typ Items.
Ich verstehe Deinen Einwand bezüglich des Verlustes an Varianz. Das ist sicherlich nicht ganz unkritisch zu sehen. Dennoch finde ich es ein interessantes Verfahren, bei der durch die Zerlegung der Attribute in Dummyvariablen (jedes Attribut wird in 2 Dummyvariablen zerlegt (eine für positive Wahrnehmung mit Codierung 4-5 -- > 1 und 1-3 -- > 0 und für negative Wahrnehmung mit Codierung 1-2 -- > 1 und 3-5 -- > 0). Nach der Theorie lässt sich dann also eine multiple lineare Regression mit den Attributen (8 Attribute -- > 16 Dummyvariablen) auf die Gesamtzufriedenheit durchgeführt werden. Trägt man dann jeweils die Regressoren für die 2 Dummyvariablen eines Attributes gegeneinander auf, sieht man wie stark das Attribut bei positiver Wahrnehmung die Gesamtzufriedenheit beeinflusst, und wie stark das Attribut bei negativer Wahrnehmung die Gesamtzufriedenheit beeinflusst. Dies ist natürlich aus marketingtechnischer Sicht ein interessantes Verfahren. Daher rührt auch mein Interesse für diese Auswertung.

In meiner Arbeit würde ich nämlich ungern falsche bzw. unsinnige Interpretationen vornehmen

Leider scheinst Du ein wenig auf genau diesem Weg zu sein. Denn Dein Argument, dass

einige Regressionskoeffizienten ein negatives Vorzeichen haben und damit für [D]einen Zweck nicht vernünftig interpretierbar sind

erweckt doch stark den Eindruck, dass Du solange rumschrauben willst, bis das rauskommt, was Du gerne hättest bzw. ohnehin erwartest. Das ist immer und grundsätzlich unzulässig und führt jegliche inferenzstatistsche Theorie komplett ad absurdum.

Ich habe, wie ich gerade sehe, leider nicht dazugeschrieben, dass die bivariaten Korrelationen der Attribute mit der Gesamtzufriedenheit alle positiv (teils deutlich) und oftmals sehr ähnlich sind. Dies ist soweit auch zu erwarten, da keines der Attribute einen negativen Einfluss auf die Gesamtzufriedenheit hat (natürlich habe ich hier gewisse Annahmen bezüglich der Kausalität getroffen, jedoch würde das niemand, der in diesem Bereich tätig ist bestreiten, dass hier positive Korrelationen der Attribute mit der Gesamtzufriedenheit vorliegen (lediglich die Höhe ist nicht immer klar)). Ich möchte auch keine inferenzstatistischen Aussagen treffen, das war nie meine Absicht. Ich befinde mich hier lediglich auf dem Pfad der explorativen Datenanalyse.
Da jedoch bei der linearen Regression für die Regressoren auch negative Werte herauskommen, was jedoch bei den hohen bivariaten Korrelationen nicht so sein sollte, bin ich von Multikollinearität ausgegangen.

Wenn die Attribute untereinander stark korrelieren, dann ist es mit höchster Wahrscheinlichkeit keine gute Idee bivariate Korrelationen zu berechnen. Besser wäre es evtl. eine explorative Faktorenanalyse durchzuführen, um besser beurteilen zu können, welche der Attribute potentiell die gleiche latente Dimension abbilden. Diese könnten dann in Likert-Skalen zusammengefasst und simultan in einer Regressionsanalyse untersucht werden. Ob das gewünscht ist, hängt aber von der exakten Forschungsfrage ab. Inferenzstatistik ist nicht (zumindest ohne weiters) dazu gedacht, aus den Daten zu lernen, sondern bestehende theoretische Überlegungen zu prüfen.

An eine explorative Faktorenanalyse hatte ich auch schon gedacht und versuche diese nun einmal durchzuführen. Nochmals, es geht mir lediglich um explorative Datenanalyse, bei der ich gerne als Ergebnis Hypothesen bzw. Handlungsempfehlungen aufstellen möchte, die anschließend als Diskussionsgrundlage bzw. Ansatz weiterer Forschung dienen können.
Und da vermutlich aufgrund der Multikollinearität eine multiple lineare Regression keine sinnvoll interpretierbaren Regressoren liefert, stellt sich mir weiterhin die Frage, inwiefern ich im Sinne explorativer Datenanalyse auch die bivariaten Korrelationen der Attribute mit der Gesamtzufriedenheit interpretieren kann (zur Aufstellung von Hypothesen) und welche Probleme sich dabei ergeben.

daniel · von **daniel** » Mi 19. Feb 2014, 17:10

Ich kann nicht viel mehr dazu sagen, als ich es bereits getan habe. Lass mich dennoch die Inkonsistenzen in Deiner Argumentation ein letztes Mal verdeutlichen.

[...] bei der durch die Zerlegung der Attribute in [...] positive Wahrnehmung mit Codierung 4-5 -- > 1 und 1-3 -- > 0 und für negative Wahrnehmung mit Codierung 1-2 -- > 1 und 3-5 -- > 0)

Ein Problem mit diesem Ansatz ist eine Variante des Fehler absoluter Interpretation relationaler Maßzahlen. Die Grenze was "positive" und was "negative" Wahrnehmung ist, wird völlig abiträr post-hoc bei einem (streng genommen ordinalen) Wert gesetzt. Ob dieser Wert tatsächlich, i.e. empirisch der Grenze entspricht, und ob es eine solche Grenze in erster Linie überhaupt empirisch gibt, ist völlig unklar und eine relativ starke Annahme. Zudem wiegt die Frage, wesshalb man nicht von vornherein dichotom misst, wenn man die Annahme trifft, dass die Welt ohnehin dichtotom ist, vor diesem Hintergrund noch deutlich schwerer. Man würde dann ja mit den zusätzlichen Ausprägungen nur "white noise" messen, also Messfehler produzieren. Du siehts die Inkonsitenz in dieser Argumentation?

Zudem argumentierst Du später selbst, dass

keines der Attribute einen negativen Einfluss auf die Gesamtzufriedenheit hat

Wie ist diese Aussage vereinbbar mit der Annahme, dass es (nur!) "positive" und "negative" Wahrnehmungen gibt? Sollte eine negative Wahrnehmung nicht auch einen negativen Effekt auf die Zufriedenheit haben? Hier implizierst Du das Gegenteil.

aufgrund der Multikollinearität eine multiple lineare Regression keine sinnvoll interpretierbaren Regressoren liefer [...] stellt sich mir weiterhin die Frage, inwiefern ich im Sinne explorativer Datenanalyse auch die bivariaten Korrelationen der Attribute mit der Gesamtzufriedenheit interpretieren kann

Einfache Antwort: gar nicht. Hier ist der Grund. In einer bivariaten (manchmal: einfachen) Regression -- die im Übrigen genau einer Korrelation entspricht -- sind die geschätzen "Effekte" dan verzerrt , wenn der Prädikator in der Regression mit anderen Prädikatoren korreliert. Genau das ist der Grund wesshalb wir eine Regression schätzen: die Prädikatoren sind korreliert. Genau dies ist der Fall bei Dir. Dein Argument lautet also: Da die Prädikatoren korreliert sind, und bivariate Korrelationen daher nicht aussagekräftig, schlage ich vor, bivariate Korrelationen zu berechnen. Du siehst den offensichtlichen Widerspruch?

Eher von technischer Seite gibt es diverse Diagnosewerkzeuge für Kollinearität. Hast Du die angesehen?

Um mehr zu sagen, braüchte man mehr Informationen. Welche Items (exakte Formulierung, Herkunft der Items etc.) wurden mit welcher Antwortskala (exakte Formulierung der Antwortoptionen) bei wievielen Personen, die wie ausgewählt wurden erhoben?

STATISTIK-FORUM.de

Interpretation von Attributen auf Gesamtzufriedenheit

Interpretation von Attributen auf Gesamtzufriedenheit

Re: Interpretation von Attributen auf Gesamtzufriedenheit

Re: Interpretation von Attributen auf Gesamtzufriedenheit

Re: Interpretation von Attributen auf Gesamtzufriedenheit

Wer ist online?