ich bin neu hier - und gleich eins vorne weg: Ich habe nie Statistik gehört und habe mir alles Wissen nur rudimentär angelesen. Ich habe verschiedene Daten und ich möchte untersuchen ob sie sich gegenseitig beeinflussen. Meine Recherche ergab, dass eine ANOVA Analyse wohl am ehesten geeignet wäre. Allerdings sprengt die thematisch den Rahmen, also habe ich mich auf eine andere Variante eingeschossen die auf mich ähnlich wirkt: Die Korrelationsanalyse. Die Idee dahinter ist erst die Korrelation zu berechen, danach eine Hypothese aufzustellen und diese dann zu prüfen.
Für diesen Datensatz stelle ich die Hypothese auf: Mit steigender Auslastung, steigt auch der durchschnittl. Fehler der Modelle. Beziehungsweise: Bei etwa 70% Auslastung ist der Arbeitspunkt, der Fehler ist am geringsten. Zunächst erstelle ich ein Streudiagramm um diesen Verdacht zu erhärten.
Wie man sieht, scheint eine Korrelation vorhanden zu sein. Außerdem erkennt man 10-14 Cluster. Ich berechne also nun Schrittweise die Kovarianz, die Korrelation und den t-Wert:
cov=61,9589
corr=0,9733
t=266,0416
df=3932
df ist so groß, weil ich insgesamt 3934 Datenpunkte habe. Und das sind die 1min-Mittelwerte, die Rohdaten sind größer. Die Mittelwerte erstelle ich, um die Daten zu glätten und Ausreißer zu entfernen. Nun hilft mir das rein gar nichts, denn die Tabellen haben für t einen 100x kleineren Wert angegeben. Mein zweiter Ansatz war es, die Daten vorher zu Clustern und die Korrelation der Mittelwerte zu berechnen und zu prüfen. Ergebnis:
cov=43.7724
corr=0.9867
t=17.1560
df=8 (10 Cluster)
Beruhigend ist, dass die Korrelation ähnlich stark ist. Das hilft mir aber nicht weiter, da der t Wert immer noch so hoch ist. Ich habe daraufhin einen ttest2 mit Matlab durchgeführt. Ergebnis:
h = 1
p = 9.1730e-015
p ist damit VIEL kleiner als 0,01. Bedeutet das nun, dass die Daten "mega den Zusammenhang" haben? Eine ohne Kentnisse durchgeführte ANOVA mit Matlab ergibt:
[p,tbl,stats]=anova1([datam(:,2),datam(:,3)])
p = 0
Beziehungsweise mit den geclusterten Werten
[p,tbl,stats]=anova1([C(:,1),C(:,2)])
p = 1.6986e-013
Vielleicht kann mir jemand weiter helfen ... Falls das Thema jemand wiedererkennt, ich habe auch bei Matroid gepostet
![Zwinkern ;)](http://www.statistik-forum.de/images/smilies/icon_e_wink.gif)
Grüßle