STATISTIK-FORUM.de

lassekongo · von **lassekongo** » Do 2. Jan 2014, 22:21

Liebes Forum,

ich schreibe eine Masterarbeit in der unter anderem der Frage nachgegangen werden soll, welche Faktoren die krankheitsbedingten Fehlzeiten von Schülern erklären können. Ich bin Statistik-Autodidakt und habe mich bislang noch nicht tiefergehend mit Regressionsmodellen beschäftigt. Ich bin daher gerade dabei mich einzulesen. Da ich vieles noch nicht wirklich verstehe, habe ich gleich mehrere Fragen. Zunächst aber kurz zum Modell bzw. zum geplanten Modell:

Die AV ist eine ordinalskalierte Variable mit den krankheitsbedingten Fehlzeiten der Schüler (once per week / once per month / once every two months /once every three months or less).

Als unabhängige Variablen sind eine ganze Reihe von unterschiedlich skalierten Variablen vorgesehen

Alter (metrisch)
Gender (nominal/binär)
Klassenzugehörigkeit (nur zwei Klassenstufen, daher binär)
Ausreichende Wasserverfügbarkeit (ordinal evtl. dichotomisiert)
Zustand der Toiletten (ordinal, vier Antwortmöglichkeiten)
Sozioökonomischer Status der Eltern (nominal/binär)
Handwaschverhalten (ordinal, vier Antwortmöglichkeiten)
usw.

Fallzahl liegt ungefär bei 1100.

Meine Fragen sind:
1) Ist es grundsätzlich korrekt, bei dieser Datenstruktur eine ordinale regression anzuwenden?
2) Ich habe zwar gelesen, dass es hinsichtlich der Skalierung der UV keine Beschränkungen gibt, aber kann man die verschiedenen Skalenniveaus da einfach alle zusammen reinwerfen?
3) Sofern ich die ordinalen UV alle in binäre-Dummys umwandelns muss - wovon ich ausgehe - werden ich schnell eine Modell mit mehr als 25 UV haben. Ist das gangbar bzw. auswertbar?
4) An 3 anschließend, habe ich auch gelesen, dass die proportional odds assumption bei vielen Variablen tendentiell eher nicht erfüllt ist. Wie würde dann weiterverfahren werden? Gibt es dann andere Modelle die man anwenden kann?
5) Die Variable zum Handwasch-Verhalten und die Wasserverfügbarkeit korrelieren aller Voraussicht nach recht stark miteinander (SPSS grade nicht zur Hand), ich habe gelesen, dass dass für eine ordinale regression nicht so optimal ist. muss ich dann eine der beiden Variablen rausnehmen?

Hoffe die Fragen sind nicht allzudoof, mir ist klar, dass ich mich da nochmal von Grund auf mit beschäftigen muss.

Freue mich über Hilfe!
Christoph

daniel · von **daniel** » Fr 3. Jan 2014, 13:42

1) Ist es grundsätzlich korrekt, bei dieser Datenstruktur eine ordinale regression anzuwenden?

Wäre ein passendes Modell für Dein outcome. Je nach Stichprobenziehung solltest Du genetstete Sturkturen (Schüler in Klassen in Schulen etc.) berücksichtigen. Das kannst Du entweder mit Mehrebenenmodellen oder mit korrigierten Standradfehlern tun. Beides wird in SPSS meiner Kenntnis nach vermutlich eher schwer umsetzbar.

2) Ich habe zwar gelesen, dass es hinsichtlich der Skalierung der UV keine Beschränkungen gibt, aber kann man die verschiedenen Skalenniveaus da einfach alle zusammen reinwerfen?

Ja. Die einzig relevante Unterscheidung ist die zwischen (quasi)metrischem und nicht metrischem Skalenniveau. Alle Variablen, die kein metrisches Skalenniveau aufweisen, werden als k - 1 Indikatorvariablen (wobei k die Anzahl der Ausprägungen darstellt) in das Modell aufgenommen.

3) Sofern ich die ordinalen UV alle in binäre-Dummys umwandelns muss - wovon ich ausgehe - werden ich schnell eine Modell mit mehr als 25 UV haben. Ist das gangbar bzw. auswertbar?

Ja, wobei Du in der Tat bei einer Fallzahl von ca. 1000 Beobachtungen da langsam in den Grenzbereich kommst. Insgesamt scheint mir die Analysestrategie relativ "explorativ". Das muss nicht schlecht sein, aber Regressionsmodelle sind eigentlich eher dazu gedacht, Effkte einzelner theoriegeleitet als relvant eingestufter Faktoren zu überprüfen.

4) An 3 anschließend, habe ich auch gelesen, dass die proportional odds assumption bei vielen Variablen tendentiell eher nicht erfüllt ist. Wie würde dann weiterverfahren werden? Gibt es dann andere Modelle die man anwenden kann?

Es gibt verallgemeinerte geordnete Modelle (vermutlich nicht in SPSS), die es einzelnen Parametern erlauben, über die Ausprägungen des outcomes zu variieren. Diese Modelle sind dann quasi ein Mix aus geordnetem und multinomialem Modell. Eine andere Möglichkeit betseht im Verwerfen von Information durch Dichotmisierung des outcomes. Bei letzterer würde ich aber Sensitivitätsanalysen vorschlagen, um zu zeigen, dass der arbiträre cut-off die Ergebnisse nicht massiv verändert.

5) Die Variable zum Handwasch-Verhalten und die Wasserverfügbarkeit korrelieren aller Voraussicht nach recht stark miteinander (SPSS grade nicht zur Hand), ich habe gelesen, dass dass für eine ordinale regression nicht so optimal ist. muss ich dann eine der beiden Variablen rausnehmen?

Auch Alter und Klasse wird stark korrelieren. Du wirst an den Standradfehlern sehen, wie stark das Problem wird.

lassekongo · von **lassekongo** » Mo 13. Jan 2014, 19:16

Vielen Dank für die Hilfe und Rückmeldung!

Ich hab mich mittlerweile gegen eine Regression entschieden. Dennoch hab ich noch eine grundsätzliche Frage: Wäre es methodisch zu kritisieren, wenn ich die AV dichotomisiere? Am median dichotomisieren würde bei der Verteilung keinen Sinn ergeben, vielmehr würde ich auf Basis einer theoretischen Überlegung trennen:

Variable: krankheitsbedingten Fehlzeiten der Schüler (once per week / once per month / once every two months /once every three months or less)

mich interessiert eigentlich in erster Linie die Gruppe die einmal pro Woche oder häufiger fehlt (was ja schon sehr häufig ist) udn die Gruppe die einmal im Monat oder weniger fehlt (was mir einigermaßen normal vorkommt). Wenn ich auf dieser Basis dichotomisiere, dann kann ich ja eine "normale" logistische Regression anwenden. Wäre das zu kritisieren?

Ist aber eine eher akademische Frage, ich hab die log. Regression bereits gerechnet und es kommt onehin wenig bis nichts raus, sodass ich mich entschieden habe, den quantiativen Teil der Arbeit mit einfacheren Methoden abzuhandeln (Kreutabellen, nominale und ordinale Zusammenhangsmaße) um dann den qualitativen Teil (Interviewauswertung) einzuleiten.
Allerdings stellt sich natürlich auch bei Kreuztabellen die Frage, ob ich die AV dichotomisiere oder nicht.

Beste Grüße
Christoph

daniel · von **daniel** » Mo 13. Jan 2014, 22:23

Wäre es methodisch zu kritisieren, wenn ich die AV dichotomisiere?

Ja. Zunächst ist der cut-off point immer in gewisser Hinsicht arbiträr. Abgesehen davon verwirfst Du viel Varianz, was die Schätzungen grundsätzlich ineffizienter macht.

STATISTIK-FORUM.de

Ordinale Regression als anwendbares Modell?

Ordinale Regression als anwendbares Modell?

Re: Ordinale Regression als anwendbares Modell?

Re: Ordinale Regression als anwendbares Modell?

Re: Ordinale Regression als anwendbares Modell?

Wer ist online?