Zweistichproben t-Test:
Hallo zusammen,
Ich komme gleich zum Kern meines Problems, wenn sich jemand für die näheren Umstände interessiert, kann er sie im Text unten nachlesen.
Kann mir jemand sagen, warum man beim Zweistichproben t-Test bei der Annahme gleicher Standardabweichungen diese dann doch noch mit dem Konzept der Freiheitsgrade entsprechend des jeweiligen Stichprobenumfangs gewichten muss (pooled variances)?
Wenn die Standardabweichungen (normalerweise wird von den Varianzen gesprochen) wirklich gleich sind, dann bewirkt diese Gewichtung nichts, da das Ergebnis natürlich wieder der ursprünglichen Standardabweichung entspricht. Wie verschieden dürfen die Standardabweichungen von n1 und n2 also sein, damit sie noch als 'gleich' gelten und man die Formel weiterhin anwenden darf?
Danach werden sie dann zusätzlich mit dem Konzept des Standardfehlers (ähnlich dem Behrens-Fischer Problem für ungleiche Standardabweichungen) in Abhängigkeit des jeweiligen Stichprobenumfangs (nach-) gewichtet. Hier ergibt sich dann allerdings ein Unterschied in der resultierende Standardabweichung in Abhängigkeit des gezogenen Stichprobenumfangs von n1 und n2.
Möglicherweise kann man die letztere Vorgehensweise dann verstehen, wenn man auch die Standardabweichung im Nenner der Behrens -Fischer Problems, also beim Zweistichproben t-Test mit ungleichen Varianzen der Stichprobenumfänge n1 und n2 versteht.
Zu der resultierenden Standardabweichung im Nenner (bei ungleichen Varianzen der Stichprobenumfänge n1 und n2) fällt mir nur ein, dass die beiden enthaltenen Standardfehler eben nach Grenzwertsatz genau die Standardabweichungen der Mittelwerte sind, die entstehen, wenn man aus der Grundgesamtheit unendlich oft eine Stichprobe mit dem Umfang n1 o. n2 entnimmt.
(So kommt man normalerweise zum Konfidenzintervall in Abhängigkeit vom Stichprobenumfang n. )
Dann macht man das, was man immer macht, wenn man Standardabweichungen (in diesem Fall die Standardfehler) ohne Kovarianzen addieren will, man schreibt sie als Quadrate unter die Wurzel der Gaussschen Fehlerfortpflanzung oder besser gesagt man addiert die Varianzen, was einer Faltung entspricht.
Damit erhält man also die Standardabweichung einer Verteilung , deren einzelne Werte im Histogramm sich aus der Addition der Mittelwerte der Stichproben n1 und n2 ergeben (also man addiert jeweils einen Mittelwert aus n1 und einen aus n2, setzt sie in das Histogramm der resultierende Verteilung. Das muss dann so oft wiederholt werden, bis das Histogramm der resultierende Verteilung ausreichend weit gegen seinen Grenzwert strebt (Grenzwertsatz). Dies entspricht dann einer Monte Carlo Simulation, wenn dies unter Einsatz eines Zufallsgenerators geschieht, was wiederum einer Faltung entspricht). Diese Faltung der Verteilungen der Aufenthaltswahrscheinlichkeiten der Mittelwerte der Stichprobenziehungen n1 und n2 ist dann wohl auch die Verteilung, die dem Behrens Fischer Problem (2 sample t Test mit unterschiedlichen Varianzen) zu Grunde liegt.
Nur was genau ist oder sagt mir die resultierende / gefaltete Verteilung der Mittelwerte aus den Stichprobenziehungen mit den Umfängen n1 und n2? Weshalb wählt man sie für diesen Test? Ich habe auch gelesen, dass bei Anwendung der Behrens -Fischer Formel ' das Vertrauensintervall nicht immer gehalten werden kann' oder so.
Als Absolvent eines Ingenieurstudienganges (vor ca. 15 Jahren) würde ich mich sicher nicht als Mathematikprofi betrachten und mir ist eingebläut worden, dass man Standardabweichungen nur in Form von Varianzen addieren /falten kann.
Was man aber doch eigentlich sucht ist ein Breitenmaß, in dem man den Abstand der beiden auf Signifikanz zu testenden Mittelwerte ausdrückt. Das macht man hier halt nicht in Meter oder Zentimeter, weil man damit dann keinen Vertrauensbereich vergleichen kann.
Ich würde rein instinktiv (wider besserem auswendig gelerntem Wissen von der Uni) im Nenner einfach den Mittelwert beider Standardabweichungen einsetzen. Dies macht der (parameterfreie) Lord Schnelltest (n<20) übrigens auch, allerdings mit den beiden Spannweiten von n1 und n2.
Sicher würde 'meine' Methode auf den ersten Blick die Systematik des Z- Tests und des Einstichproben t-Tests vorsetzten, wonach man den Abstand im Zähler einfach durch ein bekanntes Breitenmaß teilt.
Vermutlich hätte das zwei Nachteile:
- Man darf nur Varianzen aber niemals Standardabweichungen addieren, was man durch Faltung, Gausssche Fehlerfortpflanzung oder Monte Carlo Synthese erreichen kann ("Warum eigentlich?", höre ich mögliche Zuhörer jetzt schon fragen, gibt es hier eine gute Antwort?)
-Im Nenner des Zweistichproben t-Tests Stände keine einzelne Standardabweichung einer bestimmten Verteilung, sondern eben die addierte Breite der Standardabweichungen von Stichprobe 1 und 2. Dazu könnte man dann im Rahmen des Hypothesentests eben auch keinen z- oder t -Wert des Vertrauensbereiches vergleichen.
Dadurch, dass man beim Zweistichproben t-Test immer eine resultierende Standardabweichung errechnet, führt man eigentlich den Zweistichproben t-Test auf den Einstichproben t-Test zurück.
In der grafischen Darstellung hätte man also beim Zweistichproben wie beim Einstichproben t-Test eine Verteilung in die man einen Vertrauensbereich einzeichnen kann. Erbringt die oben diskutierte t-Wert Berechnung einen Wert außerhalb des Vertrauensbereichs, dann ist der Unterschied der Mittelwerte signifikant, da hat sich in der grafischen Darstellung absolut nichts geändert.
Allerdings bleibt die für mich GROSSE Frage, welche Bedeutung die Verteilung hier genau hat, deren Standardabweichung im Nenner des Zweistrichproben t-Tests steht?
In jedem Fall ist es die Faltung der erwarteten Standardabweichungen (hier ausgedrückt durch die beiden Standardfehler) der beiden Mittelwerteverteilungen, die durch die unendlich häufige Ziehung von Proben des Umfangs n1 und n2 entstanden sind.
Muss man also sagen, dass man den Abstand der beiden Mittelwerte im Zähler durch die Faltung der Standardabweichungen der Aufenthaltswahrscheinlichkeiten der beiden Mittelwerte im Nenner teilt, oder geht das auch einfacher und anschaulicher?
Wie kann man den Schritt der Bildung einer resultierenden Verteilung anschaulich darlegen?
Wie erklärt man die unterschiedlichen t-Werte in Abhängigkeit der Werte von n1 und n2 in Bezug auf den Vergleich des t-Wertes des Konfidenzintervalles, abgesehen davon, dass die Verteilungsbreite der Mittelwertsauftretenswahrscheinlichkeit mit steigendem Stichprobenumfang für die Mittelwertsbildung sinkt und dass man für verschiedene Größen der Freiheitsgrade auch verschiedene t-Werte erhält ?
Oft wird der Zweistichproben-t-Test durch die Überlappung von zwei (Normal-)Verteilungen visualisiert, bei denen Alfa abgeschnitten wurde.
Wenn man sich die Formel des Tests anschaut ist dies aber doch falsch, richtig?
Der Beweggrund:
Ich bin kein Mathematiker, sollte aber für eine Six Sigma Ausbildung (Einsatz von Statistik in der Industrie) Verfahren wie Hypothesentests in sehr gut verständlicher Art und Weise erklären können.
Dabei scheint es auf den ersten Blick besonders leicht verständlich zu sein mit dem Z-Test zu beginnen, dann zum einfachen t-Test zu wechseln um mit dem doppelten t-Test abzuschließen. Genau bei letzterem beginnen allerdings meine Probleme.
Einen t- oder z- Wert zu berechnen, ist vergleichsweise einfach darzulegen. Im Grunde teilt man den auf Signifikanz zu prüfenden Abstand im Zähler durch eine Standardabweichung (z. B. einen Standardfehler) im Nenner und kommt so zu einem z-Wert (Grundgesamtheit normal) oder t-Wert (Grundgesamtheit nicht zwingend normalverteilt). Man drückt also einen Abstand in Standardabweichungen der zugehörigen Verteilungsfunktionen aus, was relativ einfach zu erklären ist, wenn man weiß, dass die Hüllkurven von Verteilungsmodellen meistens asymptotisch verlaufen und der Abstand zwischen Hochpunkt und Wendepunkt (was eben genau die Standardabweichung ist) das einzig errechenbare Breitenmaß ist.
Aber genau diese Standardabweichung muss im Falle des Zweistichproben t-Tests berechnet werden, was ich in beiden Fällen, also gleiche und ungleiche Standardabweichungen für n1 (Werte der Stichprobe1) und n2 (Werte der Stichprobe2) leider nicht mehr so griffig und verständlich formulieren kann.
Gruß
Ralf