Hallo zusammen,
ich bin seit einiger Zeit verzweifelt auf der Suche nach einem Ähnlichkeitsmaß für mehr als zwei Cluster mit 50-100 binär codierten Variablen. Ich möchte das an einem einfach Beispiel erläutert. Nehmen wir an, wir haben 2 Familien mit 4 Familienmitglieder (Vater, Mutter, Tochter, Tochter) und eine Familie mit 6 Familienmitgliedern (Vater, Mutter, Tochter, Tochter, Sohn, Sohn). Ich möchte nun herausfinden, welche der beiden Familien bezüglich 4 binär codierten Merkmalen (Frau ja/nein, blond ja/nein, Augenfarbe blau ja/nein, und größer als 1.70 ja/nein) ähnlicher ist als die andere. Die Variablen sind übrigens asymmetrisch, dass heißt nur eine Kategorie ist wichtig. Ähnlichkeit besteht also nur, wenn sie tatsächlich größer als 1.70 sind (ja), aber nicht wenn sie kleiner sind (nein).Wenn ich den Jaccard Koeffizienten heranziehen würde, würde ich innerhalb der beiden Familien nur die Merkmale miteinander vergleichen, die alle besitzen. Wenn also alle in Familie A blond sind und alle in Familie B die gleiche Augenfarbe haben, aber ansonsten keinerlei Merkmale bei allen Familienmitgliedern identisch sind, dann hätten beide Familien den gleichen Jaccard-Koeffizienten. Unabhängig davon, ob in Familie A zusätzlich 3 von 4 die gleiche Augenfarbe haben, 3/4 größer als 1.70 sind und 3/4 weiblich sind, während in Familie B dies nicht der Fall ist. Das Problem ist in meinem Fall sogar noch größer, denn ich vergleiche mehr als nur 2 Cluster oder um beim Beispiel zu bleiben Familien.
Nun habe ich zwei Ideen zur Lösung parat, aber konnte leider kein statistisches Maß finden, welches dem entsprechen würde. Lösung 1: Ich überprüfe für jede Variable, wie viele Personen in der Familie über das Merkmal verfügen, also z. B. in Familie A sind 3/4 Frauen, 3/4 haben blaue Augen, 3/4 sind größer als 1.70 und 4/4 sind blond. Die höchstmögliche Ähnlichkeit (oder genauer Identität) bestünde, wenn es sich um 4 Frauen mit blauen Augen, blonden Haaren über 1.70 m handeln würde, unabhängig davon, ob dies realistisch ist oder nicht. Dann würde ich (3/4+3/4+3/4+4/4)/(4/4+4/4+4/4+4/4) teilen und hätte mein Ähnlichkeitsmaß. Bei der anderen Familie würde ich ähnlich vorgehen und hätte meinen Vergleichswert.
Lösung 2: Alternativ könnte ich auch einfach den Jaccard Koeffizienten für jedes Paar in der Familie einzeln anwenden. Also zuerst Mutter und Vater vergleichen, dann Mutter Tochter etc. und am Ende durch die Anzahl an Vergleichen teilen. Ich würde also jedes Familienmitglied in der Familie für jede Variable einzeln miteinander vergleichen und die Ergebnisse addieren, um sie anschließend durch die Anzahl der durchgeführten Vergleiche zu teilen. Das Gleiche tue ich mit der anderen Familie und anschließend kann ich die Familien miteinander vergleichen. Die Methode ist deutlich aufwendiger, aber ich könnte mich zumindest teilweise auf ein bewährtes statistsisches Maß stützen.
Hat jemand eine bessere Lösung? Möglicherweise eine viel einfachere und nahe liegendere, die mir nur nicht eingefallen ist?
Mit besten Grüßen