STATISTIK-FORUM.de

garryman90 · von **garryman90** » Do 21. Jul 2022, 15:26

Hallo,

ich benötige Hilfe bei meiner Berechnung von Effektstärken. Der Sachverhalt: Pretest-Posttest-Studiendesign ohne Kontrollgruppe. Prestest (t0) und 3-mal Posttest (t1,t2,t3), Spanne ist 12 Monate, n=232. Gemessen wird Selbstbewusstsein, metrisch skaliert aus 10-Item Likert-Skala.

Bevor ich Zwischensubjektfaktoren untersuche, möchte ich den Haupteffekt darstellen. Ich arbeite mit SPSS und wähle Varianzanalyse mit Messwiederholung, lege 4 Faktostufen fest und berechne geschätzte Randmittel mit Bonferroni-Korrektur, um die Unterschiede der einzelnen Messzeitpunkte untereinander zu erhalten. Ich möchte untersuchen, ob die Intervention zwischen t0 und t1 einen signifikanten Effekt hat und ob dieser Effekt bestehen bleibt (über Zeit).

Die Ergbnisse habe ich hier kurz als Bild hochgeladen: https://imgur.com/a/1NJSsi1

Nach Hyunh-Feldt-Korrektur ist der Haupteffekt signifikant, 11,5% der Varianz zwischen den Messzeitpunkten können auf den Faktor Messzeitpunkt zurückgeführt werden. Für mein Interventionsmodell ist das erst mal nicht sehr aussagekräftig, da mich in erster Linie der Effekt zwischen T0 und T1 interessiert und dann, ob sich der Effekt über Zeit verändert. Ich nehme hierfür keinen t-test aus 2 Gründen: Erstens verstehe ich es so, dass die Die Alpha-Fehler-Kumulierung hier in Kraft treten würde. Das führt mich zur ersten Frage:

1. Trifft das in diesem Design zu? Würden gepaarte T-Tests für abhängige Stichproben für diese 4 Messzeitpunkte den Alpha-Fehler kumulieren?

Der zweite Grund keine T-Test zu verwenden ist mein Vorhaben, Zwischensubjektfaktoren im nächsten Schritt ins Modell mit einzuberechnen, um deren Einfluss auf die Varianz zu beschreiben. Es scheint mir unprofessionell, zunächst T-Tests für alle zeitpunkte zu rechnen und dann nochmal Anovas zu rechnen, die eigentlich eine Erweiterung der T-Tests sind.

Das bringt mich zur nächsten Frage, da ich nun durch die paarweisen Vergleiche genau das erhoffte Ergebnis erhalte: Ich habe signifikante Effekte zwischen t0-t1, t0-t2, t0-t3, t1-3 und t2-t3, nicht aber von t1-t2. Das ermöglicht natürlich großartige Interpretationen, auf die ich nicht weiter eingehe. Mein Problem hier ist, dass ich diese angepasste Bonferroni-Vergleiche zwischen den Messzeitpunkten gerne in Effektstärken darstellen würde. Der Grund: Ich will diese Effekte mit den Effekten aus anderen Instrumenten mit unterschiedlichen Skalenniveaus vergleichen. Eine Darstellung der Mittelwerte wie im oben gezeigten Plot-beispiel reicht also nicht. Für gewöhnlich habe ich bei T-Tests immer cohens d berechnet. Eine ANOVA gibt mir das partielle Eta-Quadrat aus. Meine beiden nächsten Fragen also:

2. Wie kann ich die Effektstärke bzw. das Eta-Quadrat aus den paarweisen Vergleichen in der ANOVA berechnen, gezeigt in der Tabelle "Paarweise Vergleiche"? (sofern t-tests hier nicht zulässig sind)

3. Kann ich aus dem eta-Quadrat cohens d für gepaarte Stichproben bilden? Ich habe es hier einmal versucht unter Punkt 14: https://www.psychometrica.de/effektstaerke.html , habe dann für das gesamte Modell eine Effektstärke von d=0,72 erhalten, nachdem ich einen Eta-Quadrat-Wert von 0,115 eingegeben habe, was mir zu hoch erscheint, da sogar der größte Effekt im T-Test zwischen T0 und T1 kleiner wäre.

Vielen Dank für die Hilfe und mit freundlichen Grüßen

Garry

PonderStibbons · von **PonderStibbons** » Do 21. Jul 2022, 19:16

Ich verstehe den Sinn nicht ganz. Du kannst mit Stichprobendaten keine Effektstärken berechnen.
Effektstärken sind Aussagen über Grundgesamtheiten. Natürlich kann man in Stichproben
Effektstärkemaße berechnen, aber das sind eben keine korrekten Effektstärken, weil durch
den Stichprobenfehler größer oder kleiner sind als der "wahre" Effekt. Eben darum wird ja
die Signifikanztesterei betrieben.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
garryman90

garryman90 · von **garryman90** » Do 21. Jul 2022, 23:08

Ich will sicherstellen, dass ich die Antwort richtig verstehe. Die n=232 Datensätze bilden knapp 60% der Grundgesamheit der Interventionsteilnehmenden ab. Die Interventionsteilnehmenden sind die Grundgesamtheit, über die ich eine Aussage treffen möchte. Sie müssen nicht repräsentativ für die Gesamtbevölkerung in D sein. Welche Bedingung müsste erfüllt sein, damit die Stichprobe repräsentativ für alle Interventionsteilnehmenden ist? Alle Teilnehmenden wurden adressiert, die n=232 sind diejenigen Datensätze, die zu allen 4 Testzeitpunkten geantwortet haben.

Die Intervention kann nicht kontroliert werden, da alle angemeldeten Teilnehmenden in die Intervention müssen, aus Geldgebersicht. Wenn ich nun keine wahre Effektstärke errechnen darf, welche Aussage dürfte ich denn über den Interventionseffekt treffen? Darf ich ANOVA und t-tests rechnen, aber kein Eta-Quadrat bzw. Cohens d interpretieren? Dann würde ich nur die korrekten Signifikanztests beider Analysemethoden beschreiben?

Die Methode der Effektstärkenberechnung wurde bereits vor meiner Zeit in den Projekten wie beschrieben angewendet, ich will aber dennoch nicht eine falsche Methode blind wiederholen, also will ich hier nachhaken.

Mit freundlichen Grüßen und danke sehr

Garry

PonderStibbons · von **PonderStibbons** » Fr 22. Jul 2022, 13:30

garryman90 hat geschrieben:Ich will sicherstellen, dass ich die Antwort richtig verstehe. Die n=232 Datensätze bilden knapp 60% der Grundgesamheit der Interventionsteilnehmenden ab.

Du machst doch statistische Signifikanztests, oder? Das heißt, Du rechnest mit einer n=232 großen Stichprobe aus einer infiniten Grundgesamtheit.

Die Interventionsteilnehmenden sind die Grundgesamtheit, über die ich eine Aussage treffen möchte. Sie müssen nicht repräsentativ für die Gesamtbevölkerung in D sein.

Du ermittelst Werte von Zufallsvariablen. Eine Grundgesamtheit hat nichts mit "repräsentativ für die deutsche
Bevölkerung" zu tun. Bei den Signifikanztests wird davon ausgegangen, dass Du eine Stichprobe aus einer
Grundgesamtheit ziehst. Wie diese jeweils definiert ist, das ist von den Merkmalen der Studie und der
Teilnehmergewinnung abhängig.

Die Methode der Effektstärkenberechnung wurde bereits vor meiner Zeit in den Projekten wie beschrieben angewendet, ich will aber dennoch nicht eine falsche Methode blind wiederholen, also will ich hier nachhaken.

Leider ist es verbreitet, die Berechnung eines Effektstärkemaßes in der Stichprobe mit der Bestimmung einer Effektstärke
gleichzusetzen. Das kann aber so nicht gehen, weil das Stichproben-Effektstärkemaß durch den Stichprobenzufall
mitbestimmt wird. Selbst bei einem nicht-Effekt einer UIntervention würde in der Stichprobe per Zufall eine Effektstärke
ungleich null auftreten (zumindest wäre es ein äußerst rares Ereignis, exakt einen Stichprobenwert 0 für ein Effektstärkemaß
zu erhalten)

Ich kann dem nichts abgewinnen. Mit diesem Vorgehen würde man in einer Studie A mit n=8 und Cohens d = 0,2 und
einer Studie B mit n=8 und d=0,3 einen Unterschied reklamieren dürfen? Will man zwischen Studien vergleichen, dann
muss man z.B. wieder statistische Signifikanztests dafür durchführen.

Bei n=232 ist der Stichprobenzufall nicht mehr gar so wild, aber Du kannst Dir mal die 95%-Konfidenzintervalle rund
um die ermittelten Parameter ansehen, um einen Eindruck zu bekommen, wie zuverlässig mögliche Vergleiche zwischen
Studien sind.

Aber gut, wenn in Deinem Fachbereich bzw. bei Deinem Studiengegenstand das Auflisten von Effektstärkemaßen,
deren Interpretation und auch noch Vergleiche mit Effektstärkemaßen aus anderen Studien üblich oder erwünscht
ist, dann geht davon die Welt auch nicht unter. Die Detailfragen in Deinem Ausgangsbeitrag kann ich leider nicht
beantworten. Was eta angeht, liegt meistens eine Verwechslung von eta square mit partial eta square vor bzw.
irgendwas mit speziellen Begriffsverwendungen seitens der Statistiksoftware SPSS.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
garryman90

garryman90 · von **garryman90** » Di 26. Jul 2022, 17:47

Betriebsreise begründet kommt meine Antwort erst jetzt, ich wollte mir Zeit dafür nehmen.

Ich bin, ohne das wertend zu verstehen, etwas schockiert über die Diskrepanz meiner Vorgehensweise und der statistisch korrekten Durchführung. Aber eins nach dem anderen:

Du machst doch statistische Signifikanztests, oder? Das heißt, Du rechnest mit einer n=232 großen Stichprobe aus einer infiniten Grundgesamtheit.

Ja genau, die Stichprobe bildet zwar derzeit eine finite Gruppe ab (wir haben ja eine maximale Teilnehmendenzahl), das Programm könnte aber auf eine infinite Grundgesamtheit ausgeweitet werden. Ich beschreibe das so umfangreich, da ich mir bereits bei der Terminologie oft unsicher bin.

Du ermittelst Werte von Zufallsvariablen.

Korrekt. Nachdem ich ein paar Quellen gelesen habe, sind es Zufallsvariablen, ich hätte das fälschlicherweise davor verneint.

Bei den Signifikanztests wird davon ausgegangen, dass Du eine Stichprobe aus einer
Grundgesamtheit ziehst.

Hier liegt der Hund evtl. begraben. Ich komme aus dem Feld der Epidemiologie und ich habe es tatsächlich seit Beginn an so gelernt, dass Effekstärkmemaße berechnet werden, um die Magnitüde der signifikanten Effekte zu bestimmen und zwar IMMER. Hier aber ein kuzer Hinweis: Es ist dabei eher unüblich, die Effektstärkenunterschiede zwischen Studien zu diskutieren. Weshalb wir dies tun liegt eher am Wesen der epidemiologischen Interventionen. Die indikationsunspezifischen Patientenschulungen, die wir im epidemiologischen Feld durchführen, haben meist Auswirkungen auf viele Aspekte der Probanden. So untersucht man generell oft die Lebensqualität, den Gesundheitszustand, das Wohlbefinden oder im Beispiel hier das Selbstbewusstsein. Die Berechnung des Effektstärkemaß dieser verschiedenen validierten Instrumente, die zur Erfassung eingesetzt wurden, ermöglicht eine Einschätzung, wo die Intervention/Schulung wirkt, wo sie nicht wirkt etc oder wo sie besonders effektiv ist. Inwieweit dieses Vorgehen im Widerspruch zu folgendem steht, ist mir nicht ganz klar:

Leider ist es verbreitet, die Berechnung eines Effektstärkemaßes in der Stichprobe mit der Bestimmung einer Effektstärke
gleichzusetzen.

Ich wusste bisher nicht, dass die Berechnung des Effektstärkemaß nicht in einer Effektstärke/Effektgröße resultiert, oder verstehe ich den Satz falsch? Ich ging bisher mit großer Sicherheit davon aus, dass das Effektstärkemaß die methodische Vorgabe ist, wie ein Effekt berechnet wird (Cohens d, partielles Eta-Quadrat, Hedges g etc.) und die Effektstärke/Effektgröße die numerische Magnitüde dieses Effektstärkemaß für die jeweilige Stichprobe wiedergibt.

Das kann aber so nicht gehen, weil das Stichproben-Effektstärkemaß durch den Stichprobenzufall
mitbestimmt wird

Also wenn ich das korrekt verstehe, dann müsste ich eine Zufallsstichprobe aus der Grundgesamtheit aller potentiellen Schulungsteilnehmenden ziehen, um einen interpretierbaren und studienübergreifend vergleichbaren Effekt zu erhalten? Wie würde man das realisieren? Die Grundgesamtheit ist hier alle chronisch erkrankten Deutschen, die an einer Teilnahme an der Intervention bereit wären.

Ich kann dem nichts abgewinnen. Mit diesem Vorgehen würde man in einer Studie A mit n=8 und Cohens d = 0,2 und
einer Studie B mit n=8 und d=0,3 einen Unterschied reklamieren dürfen? Will man zwischen Studien vergleichen, dann
muss man z.B. wieder statistische Signifikanztests dafür durchführen.

Bei n=232 ist der Stichprobenzufall nicht mehr gar so wild, aber Du kannst Dir mal die 95%-Konfidenzintervalle rund
um die ermittelten Parameter ansehen, um einen Eindruck zu bekommen, wie zuverlässig mögliche Vergleiche zwischen
Studien sind.

Das verstehe ich alles, ich denke dass die Studienvergleiche hier eher im Hintergrund stehen sondern innerhalb der Studie auf unterschiedliche Wirkungen geachtet wird. Dennoch werden Literaturrecherchen, wie ich sie auch durchführe, natürlich die Effektstärken gegenüberstellend betrachten, was zweifelsfrei zu einer Interpretation der Unterschiede führen kann. Ich bin tatsächlich baff, dass das Vorgehen statistisch so problematisch ist, denn ich weiß, dass dieses Forum / die Experten sehr präzise statistisch beraten und ich aus meinem Berufsfeld solch eine starke Diskrepanz dazu erkenne. Um das mal beispielhaft zu zeigen, eine anerkannte Studie aus dem Feld: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4286546/ Die Studie wurde an der Stanford Universität durchgeführt und sollte statistisch korrekt durchgeführt sein, da durch das Peer Review in einem renomierten Paper veröffentlicht wurde. Table 4 zeigt die besprochene Effektstärkenvergleiche der Skalen. Ich glaube aber natürlich, dass die oben beschriebene Limitation der Zufallsstichprobe kritisch zu betrachten ist. Es stellt sich mir die Frage, ob das Gebiet der Epidemiologie statistisch schlichtweg nicht so präzise arbeitet, wie ein rein mathematisches Statistikfeld, oder ob ich einfach grobe Aspekte übersehe. Wie gesagt, ich habe Statistik unter der Prämisse gelernt, dass man Signifikanztests stets durch Effetstärkemaße beschreibt, was eventuell aus einer Publisher-Sicht und nicht einer Evidenz-Sicht resultiert, Beispiel dieser Artikel: https://leader.pubs.asha.org/doi/10.104 ... 1102006.14

Ich finde das Feedback sehr spannend und bin bereit, Korrekturen meiner Methoden (zB keine Effektstärkenberechnungen) umzusetzen, wenn sie statistisch korrekter sind. Im Kontext meiner Ausführungen, die hoffentlich nicht zu langweilig waren, würde mich noch einmal Feedback dazu freuen.

Meine urpsrüngliche Frage bezog sich auf die Alpha-Fehler-Kumulierung. Ich bin mir nicht sicher, ob ich T-Tests zwischen den einzelnen Messzeitpunkten anwenden darf, oder ob eine Varianzanalyse mit 4 Faktorstufen und Bonferroni-Korrektur notwendig ist, um die Kumulierung zu verhindern. Das ist ein Verständnisproblem, an dem ich mich aufreibe. Habe ich eine Globalhypothese "alle Mittelwerte sind gleich?", wenn mich immer nur der paarweise Effekt ziwschen zwei Testzeitpunkten interessiert? Denn erst dann würde sich der Alpha-Fehler nach meinem Verständnis kumulieren.

Danke fürs Lesen und die Hilfe und
mit freundlichen Grüßen

Garry

PonderStibbons · von **PonderStibbons** » Di 26. Jul 2022, 23:37

In der Epidemiologie wird in der Regel mit sehr großén Fallzahlen und daher sehr kleinen Standardfehlern gearbeitet,
insofern richtet die Behandlung von Stichproben-Effektstärkemaßen als Populations-Effektstärken wohl wenig Schaden
an. Oder die betrachteten Gruppen sind keine Stichproben, dann stellt sich das Problem erst gar nicht.

Was die Frage nach t-Tests/Varianzanalysen angeht, man könnte einen Varianzanalyse für Messwiederholungen rechnen
und im Fall eines statistisch signifikanten Ergebnisses paarweise t-Tests. Ob man die Signifikanzniveaus der t-Tests angesichts
einer bereits statistisch signifikanten Globaltestung noch eigens korrigieren sollte, ist eine Frage der Philosophie. Ich
mache es nicht so.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
garryman90

garryman90 · von **garryman90** » Mi 27. Jul 2022, 11:54

Sehr gut, ich werde dann genauso vorgehen. Vielen Dank für das Feedback, hat mir sehr geholfen!

Mit freundlichen Grüßen

Garry

STATISTIK-FORUM.de

Effektstärken für ANOVA mit MW

Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Re: Effektstärken für ANOVA mit MW

Wer ist online?