Hallo zusammen!
Ich bin relativ neu auf dem Gebiet der Clusteranalyse und habe folgendes Problem:
Ich habe 11 Features anhand derer ich Produkte clustern möchte. Alles sind nominale Features (z.B. Marke, Location, Produktgruppe,...). Die Features haben eine unterschiedliche Anzahl an verschiedenen Ausprägungen (dies reicht von binären Features zu Features mit 25 verschiedenen Ausprägungen). Nun möchte ich die Produkte clustern. Es geht mir primär darum, am Ende möglichst die Cluster so gebildet zu haben, dass z.B. in jedem Cluster immer Produkte sind, die in mindestens zwei (und zwar innerhalb des Clusters immer die zwei gleichen) Features gleich sind (oder auch drei oder mehr). Gibt es eine Möglichkeit/ein Clusterverfahren, bei dem ich so etwas vorgeben kann? Also: Gib mir so viele Cluster aus, sodass in jeder Gruppe die Datenpunkte in mindestens zwei Features übereinstimmen. Zwischen den Gruppen können diese zwei Features natürlich wechseln.
Zur Veranschaulichung nochmal am Beispiel. Die Produkte sollen klassifiziert werden und die Features haben Buchstaben als Ausprägungen. Die Features sind spaltenweise angeordnet. Folgendes soll das Ergebnis sein:
Cluster 1:
Produkt 1: A B C D E F G
Produkt 2: A B D E C E E
Produkt 3: A B R R E P P
Produkt 4: A B I P C G G
Cluster 2:
Produkt 5: Q R S T U V W
Produkt 6: R G S T Q N M
Produkt 7: A G S T M N P
usw.
Ich arbeite in R.
Ich hoffe, mir kann jemand helfen und danke im Voraus für die Hilfe!
VG
Franzi