t-test ergibt unterschiedliche Ergebnisse

t-test ergibt unterschiedliche Ergebnisse

Beitragvon MKJJ » Mi 20. Jan 2021, 14:26

Hallo,

ich möchte die Sterbefälle für Deutschland auswerten und habe mir vom statischen Bundesamt die offiziellen Zahlen geholt, die sie aufgeschlüsselt nach Monat, Tag und Kalenderwoche anbieten für 2016 bis 2020. Ich habe dann einen doppelseitigen ungepaarten T-Test darüber laufen lassen und bekomme leider völlig unterschiedliche Ergebnisse (n=365 beim tagesbasierten Datensatz, n=12 beim monatsbasierten Datensatz).

Wenn ich den Datensatz nach Tagen verwende, sind praktisch ALLE Vergleiche zwischen den Jahren statistisch hoch signifikant unterschiedlich. Wenn ich den Datensatz nach Monat verwende (29.02. habe ich entfernt, um gleiche Bedingungen zu haben), ist kein einziger Vergleich signifikant.

Es ist klar, dass wir Unterschiede sehen, weil der monatsbasierte Datensatz stark geglättet ist. Ich hatte aber nicht eine derart drastische Differenz erwartet. Das eigentliche Problem ist aber: Welcher Datensatz ist denn jetzt zulässig? Oder verwende ich hier einen völlig falschen Test.

Ich habe dann die Datensätze auf Normalverteilung geprüft (Kolmogorow-Smirnow, Shapiro-Wilk, Anderson-Darling) und habe tatsächlich oft keine Normalverteilung gefunden. Daraufhin habe ich die Tests wiederholt mit Mann-Whitney und bekomme das prinzipiell gleiche Bild.

Jetzt bleibt die Frage: Mit welcher zulässigen Begründung kann ich den einen Datensatz verwenden und den anderen nicht? Das kann ich ja nicht vom Ergebnis abhängig machen. Kann mir jemand auf die Sprünge helfen?
MKJJ
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 20. Jan 2021, 13:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon bele » Mi 20. Jan 2021, 14:41

Hallo MKJJ,

Du schreibst:

MKJJ hat geschrieben:leider völlig unterschiedliche Ergebnisse (n=365 beim tagesbasierten Datensatz, n=12 beim monatsbasierten Datensatz)


und wahrscheinlich steckt da die Antwort schon drin. Tagesbasiert hast Du ein viel höheres n und kannst damit die Schwankungsbreite von Tag zu Tag viel präziser bestimmen, bzw. die Freiheitsgrade sind viel höher als bei n = 12. Es ist keine ÜBerraschung, dass der Test mit den vielen Beobachtungen schneller signifikant wird als der mit wenigen.

Welcher Datensatz ist denn jetzt zulässig? Oder verwende ich hier einen völlig falschen Test.


Du hast uns nicht gesagt, welche Art von Frage Du beantworten möchtest oder wie Du diesen Test eingesetzt hast (für welche Gruppen, welche Jahre). Wie sollen wir da eine Meinung dazu haben, ob der Test an dieser Stelle geboten ist?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon MKJJ » Mi 20. Jan 2021, 15:03

Hallo Bernhard,

die Frage ist: unterscheidet sich ein Jahr signifikant von einem anderen bezüglich der absoluten Zahl der Sterbefälle. Die Gesamtzahl ist ja identisch, egal ob ich per Tag, per Woche, per Monat oder per Jahr rechne. Nur eignen sich natürlich nicht alle Datensätze für einen Test. Vermutlich mache ich irgendwo einen Denkfehler. Ich bin davon ausgegangen, dass sich die Datensätze grundsätzlich betrachten lassen wie z.B. eine Medikamentenstudie (Wirkstoff vs. Placebo). Der Unterschied ist halt, dass wir bei den üblichen Studien einen konsistenten Datensatz haben. In meinem Fall kann ich entscheiden, welchen Cluster ich wähle. Allerdings brauche ich dafür eine plausible Begründung. Sonst könnte ich den Datensatz ja nach meinem gewünschten Ergebnis aussuchen.

Ich habe den Test einmal mit den Tagesdaten (n=365) gemacht und einmal mit den Monatssummen (n=12). Und zwar in allen möglichen Kombinationen:

2016 - 2017
2016 - 2018
2016 - 2019
2016 - 2020
2017 - 2018
2017 - 2019
2017 - 2020
2018 - 2019
2018 - 2020
2019 - 2020
MKJJ
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 20. Jan 2021, 13:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon PonderStibbons » Mi 20. Jan 2021, 15:18

die Frage ist: unterscheidet sich ein Jahr signifikant von einem anderen bezüglich der absoluten Zahl der Sterbefälle.

Definitiv, da braucht man keinen Test.

Falls Du inferenzstatistisch signifikant mit "deutlich, relevant, wichtig" übersetzen solltest,
liegst Du damit falsch. Du kannst mit einem statistischen Signifikanztest nur die Nullhypothese
überprüfen, ob die Anzahl der Sterbefälle sich zwischen den beiden Jahren um exakt
0,00000000000000... unterscheidet. Dass das so sein wird, ist banal und ein signifikantes
Ergebnis uninformativ. Wenn Du bei derart großen Fallzahlen kein statistisch signifikantes
Ergebnis erhälst, hast Du die falsche Vorgehensweise verwendet (wie bei der Aufteilung
in 12 Monate, siehe beles Ausführungen).

Ein geeigneter Test für sowas wäre übrigens der Einstichproben-Chi² Test mit 2 Zellen.
Die spezifische statistische Nullhyypothese wäre für diesen Test, dass in Bezug auf
die Gesamtzahl der Todesfälle beider Jahre auf jedes einzelne Jahr exakt der
Anteil 50,0000000...% entfällt.

Die Gesamtzahl ist ja identisch, egal ob ich per Tag, per Woche, per Monat oder per Jahr rechne.

Dein n im t-Test ist 2*365 (Tage) bzw. 2*12 (Monate). Die Hunderttausenden Verstorbenen
sind in Deiner Vorgehensweise nicht mehr einzelne Fälle, sondern wurden zur abhängigen
Variable aggregiert.

Mit freundlichen Grüßen

PinbderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon MKJJ » Mi 20. Jan 2021, 15:36

Bin nicht sicher, ob ich das kapiere. Gehen wir kurz zurück zu einer medizinischen Studie. Wir haben eine Kontrollgruppe und eine Gruppe mit Behandlung. Wir wollen wissen, ob die Wirkung, die wir in Gruppe 2 beobachten, zufällig ist oder mit einer definierten Wahrscheinlichkeit nicht zufällig. Die Grenze legen wir in der Regel bei 5% Irrtumswahrscheinlichkeit. Man könnte hier einen einseitigen T-Test machen, aber in der Regel wird zweiseitig gestestet.

Warum ist bei den Sterbefällen das Szenario anders? Wir haben eine Kontrollgruppe (die Jahre 2016 bis 2019) und die Gruppe mit einem angenommenen Einfluss. Es geht in diesem Fall natürlich um Corona, aber es könnte auch die flächendeckende Einführung von Morgensport für alle sein oder die Fluoridierung des Trinkwassers oder was auch immer. Es gibt eine Einflussgröße und die Frage: Ist ein Unterschied in der beeinflussten Gruppe mit einer Wahrscheinlichkeit von 95% nicht zufällig.

Ihr versteht bestimmt viel mehr davon als ich und habt Recht. Ich kapiere nur logisch noch nicht den Unterschied zwischen den beiden Szenarien. Bitte um etwas Nachsicht, wenn ich gerade auf der Leitung stehe.
MKJJ
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 20. Jan 2021, 13:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon PonderStibbons » Mi 20. Jan 2021, 16:25

und die Frage: Ist ein Unterschied in der beeinflussten Gruppe mit einer Wahrscheinlichkeit von 95% nicht zufällig.

Das ist nicht die Frage eines inferenzstatistischen Signifikanztests.
Der befasst sich mit der Frage, ob die beobachteten Stichprobendaten
mit der Nullhypothese vereinbar sind. Nicht, ob eine Hypothese
mit einer gegebenen Wahrscheinlichkeit stimmt oder nicht. Das
wäre Bayes-Statistik.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon MKJJ » Do 21. Jan 2021, 11:05

Ich glaube, jetzt ist der Groschen bei mir gefallen. Wenn ich es richtig verstehe, liegt der Hase hier im Pfeffer: Eine Studie untersucht eine Stichprobe. Umgangssprachlich sagt man zwar, dass die Daten signifikant seien. Aber das ist streng genommen nicht richtig. Es geht ja um Ablehnung oder Annahme der Nullhypothese und der Übertragbarkeit der Ergebnisse auf die Gesamtheit mit einer gewissen Irrtumswahrscheinlichkeit. Bei den Sterbefällen haben wir aber keine Stichprobe, sondern die Grundgesamtheit. Das muss man erst einmal auf den Schirm kriegen, wenn man bisher ausschließlich mit Studien in der Medizin zu tun hatte.

Habe ich das richtig verstanden?

Gibt es denn überhaupt ein Kritierium, um die Relevanz einer Abweichung objektiv einschätzen zu können? Oder ist das dann alles Geschmackssache?
MKJJ
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 20. Jan 2021, 13:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: t-test ergibt unterschiedliche Ergebnisse

Beitragvon PonderStibbons » Do 21. Jan 2021, 11:47

Bei den Sterbefällen haben wir aber keine Stichprobe, sondern die Grundgesamtheit.

Die kann man auch als Stichproben konzeptualisieren, nur sind die Stichproben dermaßen groß und dadurch der
Stichprobenfehler so unendlich winzig, dass sich ein formaler Test erübrigt und man sich die Deskriptivstatistiken
ansehen kann (dessen Eingedenk, dass die deutschlandweite Erhebung solcher Daten nicht ganz präzise sein kann
und man zudem auch etwaige Veränderungen des Dokumentations- und Berichtssystems im Auge behalten muss).
Gibt es denn überhaupt ein Kritierium, um die Relevanz einer Abweichung objektiv einschätzen zu können?

Kommt auf die konkrete Studie und deren Kontext und Ziel an. Meiner eigenen Erfahrung nach lässt sich meist
eine begründete Einschätzung formulieren.

Mit freundlichen Grüßen

PonderStibbonns
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts


Zurück zu t-Test

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste

cron