Hallo miteinander,
ich hätte eine Frage zu der Auswertung meiner Ergebnisse und kämpfe da gerade ein wenig mit. Da das Beispiel sehr einfach ist, benutze ich es kurz um das Problem zu erklären:
Ich nehme Stichproben von verschiedenen Häusern einer Stadt und speichere für jedes die Grundfläche und den Abstand zu den umliegenden Häusern. Danach ordne ich zu jedem Haus über das Telefonbuch zu, ob und wie viele Einträge existieren. Nun möchte ich diejenigen Gruppen-Intervalle von Grundflächen und Abständen bestimmen die ähnliche Werte bestmöglich zusammenfassen. Es gehört nicht in das typische Clustering, da Häuser gerne mal keinen und plötzlich sehr viele Adressen besitzen können, obwohl sie die gleichen Eigenschaften besitzen. Wenn ich nun direkt clustern würde, würde das Programm alle Null Einträge zusammenführen. Aber das bringt mir nichts, die Eigenschaften der Cluster müssten noch nahe beieinander liegen.
Also bspw.: Wenn man [50 - 80]m^2 Grundflächen und [5-8]m Abstände als eine Gruppe zusammenfasst, ist die Varianz der Telefonbucheinträge am niedrigsten. Bspw. im Durchschnitt 0.8 Einträge pro Haus mit Varianz von 0.44. Wenn man nun von der angenommenen optimalen Grenze von 80 abweicht und bspw. 85 wählt, würde sich die Varianz vergrößern. Es sollen immer eine gewisse Mindestzahl pro Intervall angenommen werden.
Ich wollte jetzt anfangen daraus ein Optimierungsproblem zu machen, aber eventuell hat das ja schon einmal wer gemacht? Könnte mir vorstellen, dass dieses Problem bekannt ist?
Viele Grüße und vielen Dank im Voraus!
Jan