Hallo zusammen,
ich möchte eine hierarchische Clusteranalyse durchführen. Es liegen Daten als Prozentverteilung vor. D.h. konkret, 6 Items sollten hinsichtlich ihrer Wichtigkeit eingeschätzt werden, wobei Prozentwerte vergeben wurden, die sich über alle 6 Items hinweg auf 100% summieren.
Das würde für mich doch heißen, ich müsste als Distanzmaß das Chi2-Maß auswählen, richtig? Oder kann ich so eine Verteilung einfach, wie für metrische Daten üblich, mit dem quadrierten euklidischen Distanzmaß rechnen?
Da mit Chi2 jedoch geprüft wird, ob die Verteilung zwischen 2 Fällen aus der gleichen Grundgesamtheit kommt, bin ich ziemlich sicher, dass dies in diesem Falle das richtige Proximitätsmaß ist.
Wenn ich nun Chi2 wähle, erhalte ich eigentlich nur mit der Ward-Methode sinnvolle Ergebnisse (gleiche Ergebnisse mit Phi2). Mit Average Linkage kommt leider keine ordentliche Lösung heraus.
Unter Verwendung der Ward-Methode in Verbindung mit Chi2 wirft SPSS allerdings eine Warunung aus: "Das quadrierte euklidische Distanzmaß sollte verwendet werden, wenn die Cluster-Methoden CENTROID, MEDIAN oder WARD gewünscht sind."
Kurzum:
1. Ist das Proximitätsmaß für diese Daten richtig, oder kann/sollte ich mit der quadrierten euklidischen Distanz rechnen?
2. Ist es ein Fehler, die Clusteranalyse unter Verwendung der Ward-Methode in Verbindung mit dem Chi2-Maß zu rechnen?
Bin dankbar für jegliche Lösungsvorschläge!
Beste Grüße
Obidamn