Hallo Experten,
derzeit clustere ich Daten für meine Diplomarbeit (N=1565, 43 Variablen)
Um mit etwas mehr Sicherheit zu clustern, möchte ich gerne vorher eine Ausreißeranalyse vornehmen. Überall steht zwar, dass man Single Linkage dafür nehmen soll, aber ich finde nichts dazu, wie genau man das machen soll. Ich würde erwarten, dass es große Cluster gibt plus ein oder mehrere Cluster mit einigen wenigen Personen.
Meine Frage ist also: Wie viele Cluster soll ich Single Linkage vorgeben, um Ausreißer zu identifizieren?
Ich habe mal spaßeshalber 2 bis 50 Cluster angegeben. Ergebnis ist, dass immer 1 riesiges Cluster rauskommt plus 1-Personencluster je nach Anzahl der vorgegeben Cluster. Also z.B. bei 30 vorgegebenen Clustern ein großes Cluster mit mehr als 1000 Personen plus 29 Cluster mit jeweils nur einer Person.
Das bedeutet doch, dass keine Ausreißer drin sind oder? Denn der Algorithmus trennt einfach die am schlechtesten passende Person zwangsweise ab?
Ich bin auf schlaue Antworten gespannt
Danke schon mal!