Hallo zusammen,
ich würde gerne Wards Methode zur Bildung von Clustern anhand einer Distanzmatrix nutzen, die ich in einem vorherigen Schritt (in meinem Fall anhand eines Event-Logs mit Gowers distance) generiert habe.
Mein Verständnis zur Anwendung von Wards Algorithmus habe ich größtenteils aus dem Buch "Cluster Analysis for Reseachers" von Charles Romesburg, zu finden hier (ab Seite 129):
https://books.google.de/books?id=ZuIPv7 ... &q&f=false
Angenommen, ich gehe von der folgenden beispielhaften Distanzmatrix aus:
https://imgur.com/a/iiJNIVr
Zu Beginn des Verfahrens ist ja jeder Knoten (also 1-5) je ein eigener Cluster.
Im nächsten Schritt will ich nun die beiden Knoten zu einem Cluster zusammenfassen, für die die gesamte Varianz am wenigsten steigt.
Hier aber mein Problem: Ich habe keine Werte für einzelne Knoten meiner Tabelle (z.B. für 1), sondern nur die oben verlinkte Distanzmatrix.
Knoten haben also nur relative Abstände zueinander, aber keinen eigenen Wert.
Zu Berechnung einer Varianz benötige ich aber schon mal den Mittelwert eines Clusters (Seite 130 des Buchs). Diesen habe ich jedoch nicht.
Kann ich Wards Methode überhaupt anwenden für mein Problem?
Oder habe ich etwas völlig falsch verstanden?
Nachdem ich die letzten zwei Tage erfolglos durch das Internet geirrt bin, bin ich leider mit meinem Latein am Ende.
Ich bin für absolut jede Hilfe sehr dankbar.
Beste Grüße
Benjamin