Hallo,
ich möchte die Sterbefälle für Deutschland auswerten und habe mir vom statischen Bundesamt die offiziellen Zahlen geholt, die sie aufgeschlüsselt nach Monat, Tag und Kalenderwoche anbieten für 2016 bis 2020. Ich habe dann einen doppelseitigen ungepaarten T-Test darüber laufen lassen und bekomme leider völlig unterschiedliche Ergebnisse (n=365 beim tagesbasierten Datensatz, n=12 beim monatsbasierten Datensatz).
Wenn ich den Datensatz nach Tagen verwende, sind praktisch ALLE Vergleiche zwischen den Jahren statistisch hoch signifikant unterschiedlich. Wenn ich den Datensatz nach Monat verwende (29.02. habe ich entfernt, um gleiche Bedingungen zu haben), ist kein einziger Vergleich signifikant.
Es ist klar, dass wir Unterschiede sehen, weil der monatsbasierte Datensatz stark geglättet ist. Ich hatte aber nicht eine derart drastische Differenz erwartet. Das eigentliche Problem ist aber: Welcher Datensatz ist denn jetzt zulässig? Oder verwende ich hier einen völlig falschen Test.
Ich habe dann die Datensätze auf Normalverteilung geprüft (Kolmogorow-Smirnow, Shapiro-Wilk, Anderson-Darling) und habe tatsächlich oft keine Normalverteilung gefunden. Daraufhin habe ich die Tests wiederholt mit Mann-Whitney und bekomme das prinzipiell gleiche Bild.
Jetzt bleibt die Frage: Mit welcher zulässigen Begründung kann ich den einen Datensatz verwenden und den anderen nicht? Das kann ich ja nicht vom Ergebnis abhängig machen. Kann mir jemand auf die Sprünge helfen?