Hallo zusammen,
Ich bräuchte wirklich seeeehr dringend eure Hilfe!!
Ich muss eine Regressionsanalyse über Kindersterblichkeit durchführen. Ich habe mehrere Hypothesen aufgestellt, die ich beweisen möchte.
Ich arbeite mit STATA
Zielvariable:
dead5 ist dichotom
Einflussvariablen:
twin ist dichotom
child_sex ist dichotom
region ist kategorial mit 10 Ausprägungen
hhs (Anzahl der Haushaltsmitglieder) ist metrisch? (da bin ich mir nicht sicher ob das kategorial oder metrisch ist, die Anzahl geht von von 1 bis 14)
Hypothesen:
Wenn das Geschlecht weiblich ist, dann ist die Wahrscheinlichkeit von Kindersterblichkeit niedriger -> Einflussvariable ist child_sex
Wenn das Kind als Zwilling zur Welt kommt, ist die Wahrscheinlichkeit einer Kindersterblichkeit höher. -> Einflussvariable ist twin
Je niedriger die Anzahl der Haushaltsmitglieder, desto wahrscheinlicher eine niedrigere Kindersterblichkeit. -> Einflussvariable ist hhs
Wenn die Region im Süden liegt, ist die Wahrscheinlichkeit von Kindersterblichkeit niedriger. Einflussvariable ist region
Nun denke ich mir, dass nichts gegen eine logistische Regression spricht (zumindest ist mir beim Durchlesen der Voraussetzungen dafür nichts aufgefallen).
Was ich nicht wirklich weiß ist wie man die Analyse an sich durchführt und ob es üblich ist noch Kreuztabelle oder Korrelationsmatrix vorher zu machen? Wenn ja, was genau ist meine Konsequenz daraus bzw. wirklich sich das erst auf meine Interpretation aus, richtig?
Eine wichtige Frage für mich ist, ob es einen Unterschied macht die Daten einzeln in ein Modell zu nehmen , also Befehl „logit dead5 twin“, „ logit dead5 child_sex“, logit dead5 region“ … oder alle auf einmal „logit dead5 twin child_sex… ?
Ich hab das mal versucht, aber da waren die Ergebnisse unterschiedlich bei den einzelnen im Vergleich dazu wenn man alle auf einmal rein nimmt…
Ich hab mir mal die Mühe gemacht und für alle Ausprägungen von region Dummys zu kodieren. Also für jede einzelne eine 0/1 Variable. Das Gleiche habe ich auch für die Haushaltsmitglieder gemacht, weil ich mir dachte, dass das der Fehler ist warum unterschiedliche Ergebnisse rauskommen, aber ich denke dann muss ich eines als Referenz weglassen, richtig?
Ich weiß, für Statistikchecker ist es bestimmt so spannend sich mit meinen Ausführen zu beschäftigen wie wenn in China ein Fahrrad umfällt… aber ich bräuche wirklich ganz dringend eure Hilfe.
Also quasi den Schritt für Schritt Ablauf vom Datensatz bis zur Interpretation.
LG, Claudia