Liebes Forum,
ich schreibe eine Masterarbeit in der unter anderem der Frage nachgegangen werden soll, welche Faktoren die krankheitsbedingten Fehlzeiten von Schülern erklären können. Ich bin Statistik-Autodidakt und habe mich bislang noch nicht tiefergehend mit Regressionsmodellen beschäftigt. Ich bin daher gerade dabei mich einzulesen. Da ich vieles noch nicht wirklich verstehe, habe ich gleich mehrere Fragen. Zunächst aber kurz zum Modell bzw. zum geplanten Modell:
Die AV ist eine ordinalskalierte Variable mit den krankheitsbedingten Fehlzeiten der Schüler (once per week / once per month / once every two months /once every three months or less).
Als unabhängige Variablen sind eine ganze Reihe von unterschiedlich skalierten Variablen vorgesehen
Alter (metrisch)
Gender (nominal/binär)
Klassenzugehörigkeit (nur zwei Klassenstufen, daher binär)
Ausreichende Wasserverfügbarkeit (ordinal evtl. dichotomisiert)
Zustand der Toiletten (ordinal, vier Antwortmöglichkeiten)
Sozioökonomischer Status der Eltern (nominal/binär)
Handwaschverhalten (ordinal, vier Antwortmöglichkeiten)
usw.
Fallzahl liegt ungefär bei 1100.
Meine Fragen sind:
1) Ist es grundsätzlich korrekt, bei dieser Datenstruktur eine ordinale regression anzuwenden?
2) Ich habe zwar gelesen, dass es hinsichtlich der Skalierung der UV keine Beschränkungen gibt, aber kann man die verschiedenen Skalenniveaus da einfach alle zusammen reinwerfen?
3) Sofern ich die ordinalen UV alle in binäre-Dummys umwandelns muss - wovon ich ausgehe - werden ich schnell eine Modell mit mehr als 25 UV haben. Ist das gangbar bzw. auswertbar?
4) An 3 anschließend, habe ich auch gelesen, dass die proportional odds assumption bei vielen Variablen tendentiell eher nicht erfüllt ist. Wie würde dann weiterverfahren werden? Gibt es dann andere Modelle die man anwenden kann?
5) Die Variable zum Handwasch-Verhalten und die Wasserverfügbarkeit korrelieren aller Voraussicht nach recht stark miteinander (SPSS grade nicht zur Hand), ich habe gelesen, dass dass für eine ordinale regression nicht so optimal ist. muss ich dann eine der beiden Variablen rausnehmen?
Hoffe die Fragen sind nicht allzudoof, mir ist klar, dass ich mich da nochmal von Grund auf mit beschäftigen muss.
Freue mich über Hilfe!
Christoph