Standardabweichungen subtrahieren und dividieren

Univariate Statistik.

Standardabweichungen subtrahieren und dividieren

Beitragvon marinebioloj » Di 8. Mär 2016, 04:43

Hallo liebe Statistikkönner :)

Ich werte gerade die Daten meiner Masterarbeit aus und versuche seit mehreren Wochen erfolglos herauszufinden, wie ich korrekt mit den SDs verfahre, wenn ich die Mittelwerte verrechne. Weder Statistikstudenten noch andere Foren konnten mir bisher helfen.

Konkret ist das Problem Folgendes:

Ich habe zu verschiedenen Zeiten (t) Wasserproben genommen (n=3). Da es um Nährstoffaufnahme geht, wurden die beprobten Gefäße nur einmal verwendet um das Volumen nicht zu verfälschen. Heißt, es ist zwar eine fortlaufende Reihe (2h, 4h, 6h, 24h) aber die Proben sind trotzdem unabhängig. So wie ich das sehe, kann ich deswegen nicht die einzelnen Werte vom Vorläufer abziehen, um die Aufnahme zu berechnen, denn es kann ja keines der Gefäße einem aus der vorigen Messung zugeordnet werden. Ich bilde also zunächst den Mittelwert je Messung.
Als nächstes ziehe ich dann den Mittelwert von 2h von dem von 4h ab und erhalte als Differenz die aufgenommene Nährstoffmenge. Dann muss diese noch durch die Anzahl der Stunden geteilt werden, um die Aufnahmerate je Stunde zu erhalten.

Meine Frage ist nun, wie verfahre ich mit den Standardabweichungen? Ich weiß, dass ich nicht einfach subtrahieren und dividieren kann...

Ich bin wirklich ratlos und würde mich über eure Hilfe sehr freuen!
marinebioloj
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Di 8. Mär 2016, 03:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Standardabweichungen subtrahieren und dividieren

Beitragvon bele » Di 8. Mär 2016, 09:50

Hallo marinebioloj,

aus drei Messungen die Standardabweichung bestimmen zu wollen ist schon recht sportlich. Damit dann weiter rechnen auch.

Hast Du vielleicht eine Theorie, wie der Verlauf über die Zeit sein sollte? Wenn Du davon ausgehst, dass in gleicher Zeit gleiche Nährstoffmengen aufgenommen werden oder dass sich in den Behältern Lebewesen vermehren und deshalb exponentiell zunehmend Nährstoff verbraucht wird oder ähnliches, dann könnte man eine Regressionsfunktion durch alle 12 Messpunkte legen. 12 ist keine große Zahl, aber schon deutlich größer als 3.

Wenn man so ein Modell nicht annehmen darf und tatsächlich 3 Veränderungsgeschwindigkeiten zwischen den 4 Messzeitpunkten zu bestimmen sind, dann würde ich dafür auch die lineare Regression vorschlagen: Je 6 Messwerte bilden ein Zeitintervall ab. Rechne eine lineare Regression durch diese 6 Punkte. Der Computer verrät Dir dann nicht nur die Steigung der Regressionsgeraden als Geschwindigkeit des Nahrstoffverbrauchs sondern auch gleich deren Standardfehler dazu.

Bitte sag jetzt nicht, dass das in Excel gerechnet werden soll.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

Re: Standardabweichungen subtrahieren und dividieren

Beitragvon marinebioloj » Di 8. Mär 2016, 11:02

Hallo Bernhard,

dass die Probenzahl nicht optimal ist stimmt, allerdings ist das bei physiolgischen Experimenten leider chronisch, da sonst schnell Wochen für die Durchführung gebraucht werden.
Meine "echte" Probenzahl je Gefäß ist mehr als eine, allerdings dient das nur dem Ausgleich von Messfehlern der Maschine und es sind keine richtigen Replikate.

Die Aufnahmerate ist meist zwischen 2 und 4h am höchsten, fällt und steigt danach wieder. Stresseinfluss verändert diesen Verlauf teilweise. Das Ziel des ganzen ist es am Ende den Einfluss verschiedener Stressfaktoren auf die Nährstoffaufnahme von Großalgen zu testen. Ich habe z.B. Lichtintensität, Nährstoffkonzentration und Temperatur variiert. Die Idee mit den einzelnen Regressionsgeraden gefällt mir dafür gut, weil ich dadurch auch direkt die Steigung als Vergleichsgröße an die Hand bekomme. Das Problem ist aber weiterhin, dass ich ich die Differenz zum Vorläufer brauche, damit ich nur die Aufnahme während des betreffenden Zeitintervalls habe. (Alle Reihen wurden gleichzeitig gestartet, weil die Aufnahme über den Tag variiert. Ohne die Differenz wird das Ergebnis mit fortschreitender Zeit unbrauchbar, weil die hohe Anfangsaufnahme die feineren Unterschiede am Ende maskiert.)

Das hilft mir aber trotzdem schon sehr weiter, danke!

Wenn ich mich nicht ganz täusche, dann kann ich die Gleichungen der Regressionsgeraden doch auch kombinieren, oder?
Idealerweise möchte ich die beste Faktorenkombination ausfindig machen. Heißt, bei welcher Temperatur, Licht, Konzentration und Hungerdauer ist die Aufnahme am höchsten, bzw. niedrigsten, welcher Faktor hat den größten Einfluss usw.
Könnte ich die Gleichungen einfach addieren, oder denke ich da zu sehr an Vektoren?

Leider muss ich sagen, dass es im Moment in Excel gerechnet wird. Mein Ziel ist das langfristig nicht, aber in R finde ich mich noch nicht so zurecht. Ich nehme das aber gerne als Übung um wieder etwas mehr zu lernen.

LG, Jessica
marinebioloj
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Di 8. Mär 2016, 03:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Standardabweichungen subtrahieren und dividieren

Beitragvon bele » Di 8. Mär 2016, 11:43

marinebioloj hat geschrieben:Das Problem ist aber weiterhin, dass ich ich die Differenz zum Vorläufer brauche, damit ich nur die Aufnahme während des betreffenden Zeitintervalls habe.


Das verstehe ich nicht. Ich schlage eine Regression vor, in der die Werte nach 4 Stunden und die nach 6 Stunden eingehen um die Steigung im Zeitintervall 4 bis 6 zu bestimmen. Wozu brauchst Du dann noch Differenzen?

Wenn ich mich nicht ganz täusche, dann kann ich die Gleichungen der Regressionsgeraden doch auch kombinieren, oder?

Um was zu erreichen?

Idealerweise möchte ich die beste Faktorenkombination ausfindig machen. Heißt, bei welcher Temperatur, Licht, Konzentration und Hungerdauer ist die Aufnahme am höchsten, bzw. niedrigsten, welcher Faktor hat den größten Einfluss usw.

Dann brauchst Du eine schlaue Regressionsrechnung mit den genannten Einflussgrößen als unabhängigen und der Steigung der Regressionsgeraden im jeweiligen Zeitraum als abhängiger Variable.

Leider muss ich sagen, dass es im Moment in Excel gerechnet wird.

Dann versuch mal eine Regressionsrechnung in Excel und daraus den zugehörigen Standardfehler der Koeffizienten zu erhalten. Das wirkt ungemein motivationsfördernd für R.

Vorschlag: Ich zeige Dir, wie es in R geht und Du schreibst mir, wie Du das in Excel machst.
Gegeben seien 12 Messwerte zum Beispiel so:
Code: Alles auswählen
> food <- data.frame(start = c(12.1, 12.2, 12.1),
+                    zwei = c(10.4, 9.8, 10.2),
+                    vier = c( 7.8, 6.4, 6.9),
+                    sechs = c(5.3, 5.2, 5.5),
+                    zwoelf= c(4.5, 3.0, 2.6))
> food # Kontrolle, ob Daten richtig eingegeben
  start zwei vier sechs zwoelf
1  12.1 10.4  7.8   5.3    4.5
2  12.2  9.8  6.4   5.2    3.0
3  12.1 10.2  6.9   5.5    2.6

um das umzuformen und die Regression zu berechnen machen wir
Code: Alles auswählen
> daten.zwei.vier <- data.frame(x=c(2,2,2,4,4,4), y=c(food$zwei, food$vier))
> modell <- lm(y ~ x, data=daten.zwei.vier)
Fertig. Und jetzt das Ergebnis:
Code: Alles auswählen
> # plot(modell) # zeichnet verschiedene diagnostische Plots für die Regression
> summary(modell)

Call:
lm(formula = y ~ x, data = daten.zwei.vier)

Residuals:
       1        2        3        4        5        6
0.26667 -0.33333  0.06667  0.76667 -0.63333 -0.13333

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  13.2333     0.7051  18.767 4.75e-05 ***
x            -1.5500     0.2230  -6.951  0.00225 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5462 on 4 degrees of freedom
Multiple R-squared:  0.9235,    Adjusted R-squared:  0.9044
F-statistic: 48.32 on 1 and 4 DF,  p-value: 0.00225

>

Die Steigung im Intervall 2h bis 4 h wird geschätzt auf -1,55 mit einem Standardfehler von 0,22. Neun Zeilen einschließlich Dateneingabe und Datenüberprüfung und eine klare Antwort. Zehn Zeilen und es gibt vier diagnostische Plots zur Regression freihaus. So, jetzt kommst Du: Wie machst Du das in Excel?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts


Zurück zu Mittelwert, Standardabweichung & Co.

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron