Hallo zusammen,
ich will im Rahmen meiner Bachelorarbeit eine Kundensegmentierung durchführen und würde dazu eine Clusteranalyse anwenden.
Mein Problem ist, dass ich mit Statistik bis jetzt noch nicht viel am Hut hatte.
Stichprobe: N=1053
Variablen:
SP1: "Wie viele Sportarten treiben Sie mindestens einmal pro Woche?" Ausprägungen: 0-5
PS2: "Wie groß ist allgemein Ihr Interesse an Sportübertagungen (TV,Öffentlichkeit, Stadion)?" Ausprägungen auf einer Skala von 0-5 (0=sehr gering, 5=sehr groß)
Zunächst die Frage: Kann ich diese beiden Kriterien miteinander vergleichen? (Stichwort: Skalenniveau)
Wenn ich die Werte in einem Streu-/Punktdiagramm gegenüber stelle, sieht das für mich nicht aus, als ob man damit sinnvolle Cluster erstellen kann.
http://www.directupload.net/file/d/3690 ... cc_png.htm
Es geht im Prinzip darum aus dem aktiven Sportkonsum (Wie viele vesch. Sportarten werden getrieben) und dem passiven Sportkonsum (Wie groß ist das Interesse an Sport im TV usw.) Kundensegmente zu bilden.
Idealbild wäre: 4 Cluster: viel aktiv+viel passiv; viel aktiv+wenig passiv; wenig aktiv+viel passiv; wenig aktiv+wenig passiv.
Welches Verfahren muss ich anwenden? Welches Proximitätsmaß und welchen Fusionierungsalgorithmus?
Ich habe teilweise auch schon versucht alles in binäre Daten umzuwandeln, aber habe das Gefühl, dass dann noch mehr Schmu rauskommt. Will ja schon eine gewisse Rangfolge durch die Werte von SP1 un PS2 ausdrücken. Also wer viel Sport treibt hat eine 5 bei SP1 und wer viel schaut eine 5 bei PS2 und die will ich dann in einem Cluster haben.
Weitere Variablen wären: Geschlecht, Alter, Berufstätigkeit, Bildung, Einkommen, Sportarten (nicht Anzahl wie bei SP1, sondern Ausprägungen wie "Fußball", "Handball",...)
Wie lassen sich diese miteinbeziehen?
Ich habe mir jetzt schon etliche Bücher durchgelesen und Webseiten abgeklappert, aber irgendwie komme ich auf keinen grünen Zweig.
Vielleicht brauche ich auch einfach grundsätzlich Anregungen, ob ich mich in die richtige Richtung bewege oder ob ich ganz andere Werte einbeziehen sollte, oder ob die Clusteranalyse so gar nicht durchgeführt werden kann und nur unsinnige Ergebnisse rauskommen.
Vielen Dank im Voraus.
LG T.