Hallo Trim,
ich sehe da keine 18 sondern nur 16 + 1 = 17 Beobachtungen.
Deine 16 Referenzbeobachtungen würden gut zu einer Normalverteilung mit Mittelwert 2,27 und Standardabweichung 0,145 passen. Sie würden aber auch zu Verteilungen mit anderen Mittelwerten und Standardabweichungen passen. Dein Mittelwert ist also nur grob bestimmt und hat selbst wieder eine Unsicherheit.
Am einfachsten fasst Du das in einer linearen Regressionsanalyse zusammen. Dafür machen wir einen Datensatz, der so aussieht:
- Code: Alles auswählen
> d
zeit zusatz
1 2.02 0
2 2.10 0
3 2.12 0
4 2.15 0
5 2.17 0
6 2.22 0
7 2.22 0
8 2.23 0
9 2.27 0
10 2.30 0
11 2.32 0
12 2.40 0
13 2.42 0
14 2.45 0
15 2.48 0
16 2.50 0
17 4.60 1
Ich habe also in der Spalte zeit stehen, wie lange jemand gebraucht hat und in der Spalte zusatz, ob er den verschwenderischen Zusatzschritt gemacht hat. Damit lässt sich jetzt eine lineare Regression rechnen, in der zeit als die Summe einer Konstanten für die erforderliche Arbeit und einer Konstanten die nur beim Zusatzschritt erforderlich ist. Mit den allgemeinen Annahmen, die eine einfache lineare Regression so trifft, käme dabei folgendes heraus:
- Code: Alles auswählen
Residuals:
Min 1Q Median 3Q Max
-0.253125 -0.103125 -0.003125 0.126875 0.226875
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.27312 0.03634 62.55 < 2e-16 ***
zusatz 2.32688 0.14983 15.53 1.19e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1454 on 15 degrees of freedom
Multiple R-squared: 0.9414, Adjusted R-squared: 0.9375
F-statistic: 241.2 on 1 and 15 DF, p-value: 1.188e-10
Demnach würde die Basisdauer (hier Intercept genannt) im Schnitt 2,273 Minuten dauern, was mit einem Standardfehler von 0,036 bestimmt wurde. Für den Zusatzarbeitsschritt braucht man im Durchschnitt 2,327 Minuten, was mit einem Standardfehler von 0,150 Minuten bestimmt wurde. Wenn man diese Werte annimmt, dann kann etwa 94% der beobachteten Zeitvarianz durch den Zusatzschritt erklären und man liegt, gemessen an den vorliegenden Daten, mit der Vorhersage um bis zu 0,253 Minuten falsch.
Du siehst, eine einfache lineare Regression ist schnell durchführbar, kann durch zusätzliche Beobachtungen mit und ohne Zusatzschritt leicht erweitert werden und liefert auf einen Schlag eine Menge Ergebnisse. Es würde sich für Dich wahrscheinlich lohnen, Dich in die einfache lineare Regressionrechnung ein wenig einzuarbeiten.
Die tl;dr-Antwort lautet also: Unsere beste Schätzung für die Zusatzdauer beträgt zwei 2,3 Minuten, die Unsicherheit dieser Bestimmung ist durch einen Standardfehler von 0,15 beschrieben.Solltest Du, wie ich, R verwenden, dann sähe der Code für die Analyse so aus:
- Code: Alles auswählen
t <- c(2.02, 2.1, 2.12, 2.15, 2.17, 2.22, 2.22, 2.23, 2.27,
2.3, 2.32, 2.4, 2.42, 2.45, 2.48, 2.5)
d <- data.frame(zeit = c(t, 4.6), zusatz = c(rep(0, 16),1))
m <- lm(zeit ~ zusatz, data = d)
summary(m)
qqnorm(m$residuals)
qqline(m$residuals)
oder wenn Du lieber Bayes-Statistik betreiben möchtest
- Code: Alles auswählen
library(rstanarm)
options(mc.cores = parallel::detectCores())
m <- stan_glm(zeit ~ zusatz, data = d)
summary(m)
bm <- as.data.frame(m)
plot(bm$`(Intercept)`, bm$zusatz, col = "#00000020", pch = 16,
xlab = "Grunddauer", ylab="Zusatzdauer")
hist(bm$zusatz, breaks = 40, xlab ="Dauer Zusatzschritt", main = "")
HTH,
Bernhard