dies ist mein erster Post,
ich hoffe, dass ich alles richtig mache.
Ich habe diverse Verständnisfragen zur ordinalen Regressionsanalyse und hoffe, dass jemand meine Gedanken nachvollziehen und evtl. meinen Knoten im Kopf lösen kann....
ok, ich leg einfach mal los:
Wenn ich die Literatur richtig verstehe, gibt es zwei große Methoden zur ordinalen Regression: das Proportional Odds Model und das Continuation Ratio Model.
Proportional Odds Model
-----------------------
Wenn ich es richtig verstehe, gibt mir diese Methode EINEN(!) universellen Koeffizienten zurück, der den Einfluss der unabhängigen Variable auf meine ordinale Zielvariable beschreibt. Meine Frage ist:
Wie kann es sein, dass es nur EINEN Koeffizienten gibt, der für jeden Level-Wechsel gültig ist, wenn doch die Level-Abstände der ordinalen Variable sehr unterschiedlich sind? Wenn ich als Beispiel Schulnoten nehme, dann wäre dieser Koeffizient gültig für sowohl den Wechsel von "mangelhaft" nach "ausreichend" als auch für den Wechsel von "gut" nach "sehr gut" - es will mir nicht in den Kopf, wie das funktionieren soll. Ich hätte erwartet, dass ich für jede Level-Grenze einen eigenen(!) Koeffizienten erhalte....
Zusätzlich finde ich in der Literatur den Hinweis, dass es bei multiplen unabhängigen Variablen vorkommen kann, dass dieser "universelle" Koeffizient nur für einige Variablen errechnet werden kann, nicht aber für alle (die nennen das dann "partial proportional
model"). Meine Frage wäre, was mit Variablen geschieht, die keinen solchen "universellen" Koeffizienten aufweisen: Fliegen die aus dem Modell oder muss für diese Variabeln "etwas anderes" berechnet werden?
Continuation Ratio Model
------------------------
Bei diesem Modell habe ich verstanden, dass es "Vorwärts" und "Rückwärts" Methoden gibt, die je nach Risikolevel gewählt werden (wenn das höchste Risiko im "ersten" Level ist, wählt man vorwärts; andernfalls rückwärts).
Ich nehme beispielsweise folgende Dummy-Daten:
- Code: Alles auswählen
healthy | slighly ill | moderateely ill | ill | seriously ill
20 | 34 | 12 | 41 | 52
Laut Literatur müsste ich bei der Vorwärtsmethode mit Level "healthy" starten, und dieses gegen "alle anderen" fitten:
Step 1:
- Code: Alles auswählen
healthy | ALL OTHERS
20 | 139
Im zweiten Schritt fallen alle "healthy"-Fälle weg, und ich fitte "slightly ill" gegen "alle übrigen"
Step 2:
- Code: Alles auswählen
healthy | slightly ill | ALL REMAINING
--- | 34 | 105
Im dritten Schritt fallen alle "slightly ill"-Fälle heraus, und ich fitte:
Step 3:
- Code: Alles auswählen
healthy | slightly ill | moderately ill | ALL REMAINING
--- | --- | 12 | 93
usw.
Step 4:
- Code: Alles auswählen
healthy | slighly ill | moderateely ill | ill | seriously ill
--- | --- | --- | 41 | 52
Meine Fragen hierzu wären:
- Warum werden die Fälle eines vorherigen Schrittes gelöscht (z.B. alle "healthy" in Schritt 2). Ich hätte jetzt aus dem Bauch geschossen, dass es "besser" wäre diese zu kumulieren, also für Schritt 2 "healthy" + "slightly ill" gegen den Rest zu fitten.
- Ich hätte auch hier vermutet, dass ich für jeden Schritt einen eigenen Koeffizienten erhalte. In der Literatur kommen diese Einzelschritt-Koeffizienten aber gar nicht vor, vielmehr wird auch bei dieser Methode ein "universeller" Koeffizient präsentiert. (Womit ich wieder bei meiner obigen Frage wäre).
Und ganz allgemein gefragt:
Woran mache ich aus, ob ich nun besser ein Continuation Model oder ein Proportional Modell rechne?
Viele Grüße
produnis