Hallo,
bislang habe ich es eher mit T-Tests und Korrelationen zu tun gehabt, also recht einfache Maße. Nun habe ich einen Fall, der mich leider etwas überfordert. Es geht darum, dass ich überprüfen möchte, in wieweit ich eine Datenbasis nach unterschiedlichen nominalen Kategorien aufteilen sollte oder nicht.
Die Datenbasis:
- Beobachtungszeitraum ist jeweils ein Kalenderjahr.
- In jedem Zeitraum habe ich Datensätze von mehreren zigtausend Personen.
- Von den Personen kenne ich eine Reihe von nominalen Eigenschaften (Geschlecht, Migrationshintergrund, Postleitzahl,...) sowie deren Geburtstag.
- Zusätzlich ist registriert, wenn eine Person verstorben ist.
Ich bin also in der Lage, die Mortalitätsrate pro Lebensaltersjahr zu berechnen. Im einfachsten Fall ignoriere ich alle nominalen Eigenschaften und fasse die Personen als große Gruppe auf. Dann kann ich für jedes Lebensalter (1, 2, 3,...,100) berechnen, wie hoch in dieser Altersgruppe im Jahr x die Mortalitätsrate war. 0,004 für Alter 19 würde demnach bedeuten, dass im entsprechenden Kalenderjahr 4 von 1.000 19-jährigen verstorben sind.
Ich kann die Mortalitätsraten aber auch differenzierter berechnen, indem ich nach den o.g. Eigenschaften unterteile, also z.B. Mortalitätsraten getrennt nach Geschlecht. Oder nach Postleitzahl. Oder nach einer Kombination aus beidem. Die Anzahl der Kategorien kann hier sehr schnell ansteigen und die Datenbasis pro Kategorie wird dementsprechend auch dünner.
Ich möchte daher gerne herausfinden, nach welchen Eigenschaften eine Filterung sinnvoll ist und welche ich nicht weiter zur Differenzierung heranziehen sollte. Falls sich herausstellen sollte, dass sich die Mortalitätsrate signifikant nach Geschlecht unterscheidet, würde ich danach splitten. Falls sich herausstellen sollte, dass die Postleitzahl keinen Einfluss hat, ignoriere ich die Variable, usw.
Nun frage ich mich aber, welches Maß ich zum Vergleich heranziehen soll. Ein T-Test wird ja nicht klappen, da ich keine Mittelwerte vergleiche, sondern komplexere Daten. Hat jemand vielleicht einen Tipp oder ein Stichwort für mich?
PS: Es geht nicht nur um die Mortalitätsraten, sondern auch um eine ganze Reihe anderer Entwicklungen. Aber dies ist vielleicht das einfachste Beispiel. Bin für jeden Tipp dankbar!