Hallo Bele,
zunächst vielen lieben Dank für Deinen letzten Beitrag! Ich werde mir später gleich nochmal mehrere Datensätze generieren und die p-Werte analysieren.
Folgend findest Du eine Beschreibung meines Sachverhalts sowie meiner aktuellen Vorgehensweise:
Zunächst möchte ich den Aufbau der Daten schildern:
Referenzdatensatz :
________ Spalte1: ____ Spalte2: ____ Spalte3: ___ ... _____ Spalte j :
Zeile 1: ____ 5 __________ 10 _______ 40 _______ ... _______ 20
Der Referenz-Datensatz besteht aus einer einzigen Zeile mit j Spalten; jeder Zellenwert ist der gebildete Mittelwert (über jede Spalte) aus einer großen Anzahl an durchgeführten i.O. Messungen.
Vergleichsmessungen:
________ Spalte1: ____ Spalte2: ___ Spalte3: ___ ... _____ Spalte j:
Zeile 1:____ 5,4_______ 10,3 _______ 43 _______ ... _______ 26
Zeile 2: ____ 4,7 _______10,7 ______ 38 _______ ... _______ 22
Zeile 3: ____ 5,7 _______ 13 _______ 45 _______ ... _______ 23
Zeile 4: ____ 4,5 _______ 12 _______ 41 _______ ... ______ 21,5
Zeile 30 ____4,6 _______11,7_______ 44_______ ... _______ 22,3
...
Zeile n-70: __10 _______ 20 _______ 55 _______ ... _______ 35
Zeile n-69: __12 _______ 22 _______ 60 _______ ... _______ 40
...
Zeile n: ____ 13 _______ 23 _______ 62 _______ ... _______ 44
Ich möchte die Vergleichsmessungen hinsichtlich statistisch signifikanten Veränderungen untersuchen und diese - falls gegeben - erkennen.
Der Vergleichsdatensatz ist so aufgebaut, dass jede Zeile einer Messung entspricht. Die Messwerte einer Vergleichsmessung streuen je Spalte im i.O. Zustand um den Mittelwert der entsprechenden Spalte aus dem Referenzdatensatz. Bei idealen Messungen sollten die Werte im i.O. Zustand immer gleich sein und den Mittelwerten der Referenzdaten entsprechen.
Ab Zeile n-5 wurden durch veränderte äußere Einflüsse Messergebnisse mit einer größeren Abweichung zum Mittelwert der Referenzdaten aufgenommen. Die Höhe der Änderung ist in Abhängigkeit der veränderten Einflüsse (z.B. Umgebungstemperatur).
*Alle hier genannten Werte sind beispielhaft genannt, stellen aber den zugrundeliegenden Zusammenhang dar.
Zur Auswertung bin ich wie folgt vorgegangen:
Mittels Referenzzeile und der ersten Vergleichsmessung führe ich eine lineare Regression durch. Dies mache ich mit allen Vergleichsmessungen und der Referenzzeile.
Sollte die Referenzmessung == Vergleichsmessung sein, ergibt der Koeffizient der linearen Regression 1, da die Vergleichsdaten == der Referenzdaten sind (somit eine Winkelhalbierende). Der Koeffizient der linearen Regression entspricht der Steigung und gibt mir einen Anhaltspunkt bezüglich der Korrelation der Daten. Nachdem die Koeffizienten der linearen Regression berechnet wurden, werden diese in einer Liste abgespeichert.
Um nun statistisch relevante Veränderungen zu erkennen (Ziel ist es die Veränderung der Messwerte ab Zeile n-5 zu detektieren), dachte ich hier an einen zweiseitigen T-Test den ich mit der Liste der berechneten Steigungen aus der lin. Regression füttere. Die Liste der Steigungen teile ich so auf, dass z.B. die ersten 30 Werte, ohne Veränderungen im Vergleichsdatensatz, meine Referenz im T-Test bilden. Die Zweite Datenhälfte muss ja gleich groß sein, daher nehme ich ebenfalls 30 an, jedoch entspricht 60 nicht dem kompletten Messumfang - welcher wie oben dargestellt 100 beträgt. Um alle Messungen untersuchen zu können, bilde ich daher die Vergleichshälfte im T-Test fließend:
- Code: Alles auswählen
gradient_list = ["Werte mit den berechneten Werten der Steigung"]
testumfang = 100
for i in range(1, testumfang - 30):
driftcheck = scipy.stats.ttest_ind(gradient_list[:29], [i:30+i])
Mit dem T-Test stoße ich hier jedoch wieder auf dasselbe Problem wie in meinem Ursprungsbeitrag. Dadurch, dass der P-Wert so sehr schwankt, konnte ich ihn bisher nicht für eine verlässliche Auswertung verwenden.
Hast Du eine Idee für mich? Wie kann ich hier vorgehen, damit ich die relevanten Veränderungen im Datensatz zuverlässig erkennen kann?
Viele Grüße!
Der Bücherwurm
PS: Ich hoffe bei Dir ist heute auch so wunderschönes Wetter