Hallo Leute,
Ich Beschäftige mich momentan mit einer Regressionsanalyse. In dem mir vorliegenden Beispiel geht es um eine Krankheit (die zu erklärende bzw analysierende Y-Variable).
Die Beschreibenden X-Variablen sind allerdings zum Teil Ordinal (Also zum Beispiel Altersgruppen von 21-30, 31-40, 41-50, usw...), zum Teil Nominal (Mann/Frau) und zum Teil Kardinal (Körpergröße in cm) skaliert.
Das Ziel soll hierbei darin liegen, aus den jeweiligen X-Werten eine Prognose hin zum Y-Wert zu ermöglichen und gleichzeitig den Einfluss der einzelnen Variablen zu analysieren.
Der mir vorliegende Excel-Datensatz hat folgende Form (Spalten von links nach rechts):
Altersgruppe ; Geschlecht ; Körpergröße ; Anzahl an Personen (mit den Merkmalen links) gesamt ; Davon Erkrankte Personen
Die Tabelle hat in meinem Fall auch mehrere hundert Zeilen, in denen fiktive Daten zu insgesamt rund 50000 fiktiven Testpersonen zu finden sind.
Das Problem ist nun, dass nicht für jeden einzelnen "Studienteilnehmer" eine eigene Zeile existiert, sondern alle Studienteilnehmer, die dieselbe Körpergröße haben und in derselben Altersgruppe sind und dabei noch das gleiche Geschlecht haben sind hierbei in einer Zeile. Für Analysen bei SPSS oder Excel braucht man ja in der Regel Datensätze, in der jede einzelne Person in einer "eigenen" Zeile ist. So gibt es zum Beispiel im Datensatz 185 Männer zwischen 21 und 30 Jahren mit einer Körpergröße von 181cm, von denen 3 erkrankt sind.
Wie würdet ihr in solch einem Szenario vorgehen? Wie würdet ihr den Datensatz aufbereiten? Welche Methoden zur deskriptiven Analyse existieren dazu? Welche mathematischen Modelle sind dort sinnvoll? Würdet ihr zu Excel oder SPSS greifen?
Vielen Dank für eure Hilfe.
Bei Fragen einfach anschreiben
Beste Grüße