Danke für die bisherigen Antworten!
Ja, ich stehe tatsächlich noch am Anfang meines Projektes, die Erhebung hat also noch nicht stattgefunden. Aber genau jetzt muss ich ja festlegen was ich genau messen möchte und wie ich es auswerten will/kann, denn das hat ja Einfluss auf die bevorstehende Erhebung.
Die Faktorenanalyse ist mir durchaus ein Begriff, ich kenne Sie aber eher vor dem Hintergrund der Dimensionsreduktion, und damit der Vorbeugung/Lösung von Homoskedastizitäts-Problemen. Das Auftreten von Variablen die sich inhaltlich (und dann auch mathematisch) zu einem Teil überlagern wird auch bei mir gegeben sein, das Verfahren hatte ich also bereits im Hinterkopf. Am Ende des Tages möchte ich aber auf eine Aussage der folgenden Art hinaus, "mit einer gegebenen Wahrscheinlichkeit von X ist die Person Y der Gruppe "gesundlebender Menschen" zuzuordnen".
Die Verfahren die mir hierfür zuerst in den Sinn kommen sind:
- logistische Regression
- Diskriminanzanalyse
- Neuronale Netze
- Clusteralgorithmen (z.B. kNN)
- SVM
Alle Ansätze haben ihre eigenen Vor- und Nachteile. Wenn ich das Clustering jetzt mal ausklammere haben aber alle Verfahren gemein, dass es sich um "überwachte" Verfahren handelt, dass ich also eine Stichprobe habe bei der die Ausprägung der abh. Variable bereits ex ante bekannt ist/sein muss. Dann "trainiere" ich das Modell (der Begriff ist bei der log. Regr. natürlich etwas schief) und kann dann ggfs. auch out-of-sample performance messen - alles klar. Nur das klappt in meinem Fall ja eben nicht (oder doch?).
Bei dem k-Nearest-Neighbour Clustering (oder ähnlichen Verfahren) ist dies nicht nötig. Voraussetzung ist lediglich, dass die Anzahl an zu findenden Klassen (k) ex ante bekannt ist, dies ist ja hier der Fall --> 2. Problem ist aber das dieses Verfahren die Daten auf Basis ihrer Entfernung zueinander aufteilt, ich also keinen Einfluss darauf habe was die beiden entstehenden Klassen effektiv/inhaltlich unterscheidet. (Die Probleme bei der Betrachtung unterschiedlicher Dichte lassen wir mal außen vor
). Das Verfahren scheint also ebenfalls ungeeignet.
@ strukturmarionette: Dein Einwurf mit der Operationalisierbarkeit der abh. Variable ist völlig korrekt, nur ist das nicht worauf ich hinaus möchte. Würde ich deinem Rat folgen würde ich etwas völlig anderes messen, also eher inwieweit bestimmte Lebensweisen (Bsp. regelmäßiger Sport) die persönliche Einschätzung in Bezug auf "Gesund Leben" beeinflussen. Analog zu meiner Aussage oben wäre dies dann, "Das regelmäßige Treiben von Sport erhöht die Wahrscheinlichkeit um X sich der Gruppe "gesundlebender Menschen" zuzuordnen. Dies ist leider nicht was ich messen möchte.
---------------------------
Mein "Kompromiss-Vorschlag"
ist folgender:
anstatt zu prüfen/messen welche Variablen einen positiven bzw. negativen Einfluss auf die abh. Var. ausüben, lege ich ex ante bereits fest die Wirkungsrichtung zu kennen. Beispiel, "täglicher Alkoholkonsum" hat einen negativen und eben nicht positiven Einfluss darauf als "gesund lebender Mensch" klassifiziert zu werden. Wenn ich diese Annahme setze (und ggfs. durch Literatur jeweils belege) kann ich im Anschluss die Umfrage auswerten und die Top 25% der Testpersonen mit den besten/positivsten Ergebnissen ermitteln. Diese Fälle werden dann von mir besagter Gruppe zugeordnet, alle anderen nicht (1/0). Jetzt kann ich messen mit welcher Wahrscheinlichkeit eine Testperson zu diesen 25% gehört. Ich kann die Ergebnisse daraus dann zwar nicht wirklich Verallgemeinern, aber das wäre in diesem Fall auch nicht das Ziel. Ich verändere hierdurch natürlich die Fragestellung der Untersuchung, mit der neuen Fragestellung kann ich aber sehr gut leben.
Was haltet ihr von dieser Vorgehensweise?