Hallo zusammen,
ich stehe bzgl. einer Aufgabe im Studium vor folgender Fragestellung:
Gegeben ist eine Datentabelle crabs.txt (mit Tabulator als Spaltentrenner und mit Spaltenüberschriften) mit
Angaben zu Krabben: O = orange male, o = orange female, B= blue male, b = blue female.
Jede Krabbe ist durch 8 Messwerte näher charakterisiert: FL = frontal lobe size (mm), RW = rear width
(mm), CL = carapace length (mm), CW = carapace width (mm).
Die nächsten vier Variablen besitzen ein 's' als Präfix und entstehen aus den ersten vier Variablen, indem
diese jeweils durch die Körperlänge dividiert wurden und anschließend einer Z-Score-Normalisierung
unterzogen wurden.
a. Führen Sie eine hierarchische Cluster-Analyse mit den vier s-Variablen durch. Welcher Linakge-Typ
liefert die besten Ergebnisse?
b. Führen Sie mit dem besten Linkage-Typ und den vier Nicht-s-Variablen erneut eine Cluster-Analyse
durch. War die Normalisierung wirklich hilfreich?
Folgende Dendrogramme (Complete und Average) konnte ich mittels einer Anaylse herausarbeiten (siehe Anhang).
Leider kann ich nicht beurteilen, welche der beiden Clusteranalysen nun "bessere" Ergebnisse liefert. Entscheide ich hier nach den vier Krabben-Klassen, wie nahe diese beisammen liegen, oder nach dem Cluster an sich, welche Cluster sich schneller vereinen etc.?
In der Grafik sind die Merkmale farbig markiert (rot=B, grün=b; hellblau = O, dunkelblau=o)
Bin über jede Hilfe dankbar. Ist leider auch etwas dringend
Datensatz ist eine .txt datei und leider nicht hinzufügbar, kann dies aber gerne per Mail nachreichen, wenn ihn jemand möchte.
Vielen Dank im Voraus.