Gruppierung von Messwerten um Gesamtvarianz zu minimieren

Fragen, die sich auf kein spezielles Verfahren beziehen.

Gruppierung von Messwerten um Gesamtvarianz zu minimieren

Beitragvon jan_gh » Do 19. Jul 2018, 15:48

Hallo miteinander,

ich hätte eine Frage zu der Auswertung meiner Ergebnisse und kämpfe da gerade ein wenig mit. Da das Beispiel sehr einfach ist, benutze ich es kurz um das Problem zu erklären:

Ich nehme Stichproben von verschiedenen Häusern einer Stadt und speichere für jedes die Grundfläche und den Abstand zu den umliegenden Häusern. Danach ordne ich zu jedem Haus über das Telefonbuch zu, ob und wie viele Einträge existieren. Nun möchte ich diejenigen Gruppen-Intervalle von Grundflächen und Abständen bestimmen die ähnliche Werte bestmöglich zusammenfassen. Es gehört nicht in das typische Clustering, da Häuser gerne mal keinen und plötzlich sehr viele Adressen besitzen können, obwohl sie die gleichen Eigenschaften besitzen. Wenn ich nun direkt clustern würde, würde das Programm alle Null Einträge zusammenführen. Aber das bringt mir nichts, die Eigenschaften der Cluster müssten noch nahe beieinander liegen.

Also bspw.: Wenn man [50 - 80]m^2 Grundflächen und [5-8]m Abstände als eine Gruppe zusammenfasst, ist die Varianz der Telefonbucheinträge am niedrigsten. Bspw. im Durchschnitt 0.8 Einträge pro Haus mit Varianz von 0.44. Wenn man nun von der angenommenen optimalen Grenze von 80 abweicht und bspw. 85 wählt, würde sich die Varianz vergrößern. Es sollen immer eine gewisse Mindestzahl pro Intervall angenommen werden.

Ich wollte jetzt anfangen daraus ein Optimierungsproblem zu machen, aber eventuell hat das ja schon einmal wer gemacht? Könnte mir vorstellen, dass dieses Problem bekannt ist?

Viele Grüße und vielen Dank im Voraus!
Jan
jan_gh
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Do 19. Jul 2018, 15:31
Danke gegeben: 2
Danke bekommen: 1 mal in 1 Post

Re: Gruppierung von Messwerten um Gesamtvarianz zu minimiere

Beitragvon strukturmarionette » Do 19. Jul 2018, 17:44

Hi,

Es gehört nicht in das typische Clustering

- Geht es Dir hierbei um die Auswahl /Anwendung einer geeigneten statistischen Clusteranalyseprozedur?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
jan_gh

Re: Gruppierung von Messwerten um Gesamtvarianz zu minimiere

Beitragvon jan_gh » Do 19. Jul 2018, 18:38

Hi, vielen Dank für deine Antwort darauf :) Es geht weniger um die Prozedure. Ich kann es mir im Moment einfach nicht vorstellen. Wenn man sonst Cluster für R1 und R2 durch "freie" Wolken sucht, möchte ich jetzt irgendwie horizontale Riegel einschieben und die Cluster dürfen nur innerhalb dieser Riegel sein.

Ich habe das im Anhang mal versucht zu zeichnen. Wie das dann geclustert wird ist weniger wichtig, aber wie kann man das überhaupt machen? Oder ist es ganz einfach?
Zeichnung: https://picload.org/view/dldlogiw/clust ... m.png.html (Das Hochladen hat hier irgendwie nicht geklappt)


Vielen Dank noch einmal und viele Grüße,
Jan
jan_gh
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Do 19. Jul 2018, 15:31
Danke gegeben: 2
Danke bekommen: 1 mal in 1 Post

Re: Gruppierung von Messwerten um Gesamtvarianz zu minimiere

Beitragvon bele » Sa 21. Jul 2018, 11:46

Hi!

Aus Deiner Zeichnung geht nicht wirklich hervor, wie das Ganze aussehen soll, wenn man auch die dritte Dimension (Abstände) in das Modell hinein nimmt.

Anhand Deiner Zeichnung ließe sich das Problem ggf. auch als Regressionsproblem, also das Vorhersagen der Anzahl der Telefonanschlüsse (abhängige Variable) aus Grundfläche und Abständen verstehen. Wenn das so ist, könnte man außer Clusterverfahren auch Regressionsverfahren in Betracht ziehen. Wenn Du "horizontale Riegel" willst, könnte ein Regressionsbaum (z. B. CART) funktionieren.

LG,
Bernhard


Edit: Ich habe mal versucht, das Beispiel in Deiner Zeichnung in R nachzustellen:

Code: Alles auswählen
telefone <- c(0,0,0,0,0,1,1,1,1,2,2,2,3,3,3,3)
flaeche <- c(15,18,20,27,34,
             17,25,28,31,
             28,35,39,
             15,27,39,41)

library(rpart)
baum <- rpart(telefone ~ flaeche,
              control = rpart.control(minsplit=1))
plot(baum);text(baum)


Das zieht jetzt je eine Grenze bei 32,5 und 34,5 qm, was zwar nicht Deiner Vorstellung von der Lösung entspricht, aber durchaus auch Sinn macht:

Code: Alles auswählen
plot(flaeche ~ telefone, pch="x")
abline(h=c(32.5, 34.5))


Vielleicht hilft's ja.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5915
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

folgende User möchten sich bei bele bedanken:
jan_gh

Re: Gruppierung von Messwerten um Gesamtvarianz zu minimiere

Beitragvon jan_gh » Mo 23. Jul 2018, 16:03

Hi Bernard,

erst einmal vielen Dank für deine Antwort! Wie es mit zusätzlichen Dimensionen dann aussehen soll, kann ich gerade auch noch nicht sagen.

Danke für den Tipp mit der Regressionsanalyse, das hatte ich am Anfang kurz in Betracht gezogen, ich erwarte aber keine stetigen Korrelationen. Deshalb ist das eher weniger gut. Aber eventuell ist es bis jetzt der beste Ansatz!

Vielen Dank und viele Grüße,
Jan
jan_gh
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Do 19. Jul 2018, 15:31
Danke gegeben: 2
Danke bekommen: 1 mal in 1 Post

Re: Gruppierung von Messwerten um Gesamtvarianz zu minimiere

Beitragvon bele » Mo 23. Jul 2018, 20:55

Ich weiß leider nicht, was stetige Korrelationen sind oder warum es beim vorgeschlagenen Regressionsbaum auf Stetigkeit ankommen sollte. Ein Zugang über Optimierungen ist sicher auch denkbar, aber dann musst Du Dir Gedanken über das Verhalten in allen erforderlichen Dimensionen machen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5915
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 16 Gäste

cron