Hallo Leute,
Ich habe ein relativ kompliziertes Clustering Problem und finde kein geeignetes Verfahren, deshalb dachte ich, dass ich mal in einem Forum frage. Ich hoffe ihr könnt mir helfen.
Folgende Anforderungen:
Ab 16 Dimensionen aufwärts (weiß noch nicht wie viele genau)
Viele Millionen Datensätze (Punkte im X-Dimensionalen Raum)
Die Anzahl der Cluster ist unbekannt
Es kommen ständig neue Datensätze dazu (immer wenn das passiert sollten nicht alle datensätze neu gelustert werden müssen)
Es gibt viele Datensätze die gar keinem Cluster zugeordnet werden können(Es sollen also nicht alle Datensätze zwangsläufig in einem Cluster landen)
Die Daten sind vermutlich normalverteilt
Folgende Clusterverfahren hab ich schon in Betracht gezogen
Hierarchische Clusteranalyse (Dauert vermutlich recht lange, man braucht immer alle Datensätze (nicht nur die neuen))
k-Means (kenne die Anzahl der Cluster nicht, Es werden immer alle Datensätze geclustert)
GMM (kenne die Anzahl der Cluster nicht)
selbstorganisierende Karten (dauert wohl auch recht lange, es werden immer alle Datensätze benötigt)
Kann mir jemand einen Tipp geben?
MfG
Willy