ich wende mich an euch, da ich ein paar Fragen in Bezug auf "Statistik" habe *wie vermutlich zu erwarten war* . Meine Vorkenntnisse beziehen sich auf ein Semester "Statistik und Datenanalyse". Ich habe von einigen Grundlagen schon mal gehört, muss allerdings zugeben, dass die Kenntnisse ein wenig eingerostet sind. Das eine Semester Statistik liegt schon etwas in der Vergangenheit (etwa 1,5 Jahre), weshalb ich zu dem Entschluss gekommen bin euch um Hilfe zu bitten. Ich würde mich riesig freuen, wenn sich jemand meine Daten ansehen könnte und ich was dabei lernen kann!
Meine Fragen beziehen sich auf meinen Datensatz und deren Aussagekraft, was die Statistik angeht. Ich benutze "R" zur Auswertung und komme in den Grundlagen zurecht (was die Bedienung angeht). Bei den Befehlen/Syntax bin ich mir allerdings nicht immer sicher. Sollte es also etwas mehr ins Thema gehen, müsste ich um eine grobe Erklärung bitten.
Mein Datensatz beinhaltet Messwerte, die einen Wendepunkt im pH-Verlauf beschreiben und weitere Randbedingungen, die den Wendepunkt beeinflussen können. Ich hoffe, es ist für euch in Ordnung (und auch hier erlaubt), dass ich ein Teil meiner Daten auf Upload hochgeladen habe. Die .csv-Datei sollte auch direkt in R einzulesen sein.
http://uploaded.net/file/liv5y9ej
Mein Ziel ist es, meine Daten mit einem Skript in "R" in einem Durchlauf komplett auswerten lassen zu können, um auch zukünftige Datensätze mit gleich aufgebauten Tabellen, jedoch anderem Inhalt, auszuwerten.
Zunächst würde ich gerne ein paar Grundlagen erfragen:
- 1.) Wie viele Messwerte bräuchte ich, damit meine Messungen statische Aussagekraft besitzen?
2.) Ich weiß, dass es sogenannte "Ausreißertest" gibt. Ist es möglich einen solchen bei meinen Daten anzuwenden und wie müsste ich vorgehen (auch in Bezug auf R)?
Sofern ich meine Daten bereinigen darf/kann, würde ich diese gerne im nächsten Schritt als Boxplots darstellen. Ich schaffe es, die Boxplots zu erstellen wobei z.B. die Wendepunkte (Hours) abgebildet werden nach Notes (Probe).
- Code: Alles auswählen
Hours~Notes
Wenn ich mich richtig entsinne, werden die Inhalte von "Notes" als Faktoren bezeichnet.
- 3.) Ist es möglich z.B. "Hours", "Slope" und "pH" JE Faktor in einem Diagramm darzustellen? Ich stelle es mir dann so vor, dass über Probe (auf x-Achse) dann drei separate Boxplots ("Hours,Slope und pH") angezeigt werden, über Probe2 wieder drei Boxplots ("Hours,Slope und pH") usw. In etwas so:http://blogs.sas.com/content/graphicallyspeaking/files/2013/03/VBox4.png
Solltet ihr mir bis zu diesem Punkt helfen können, wäre ich schon sehr dankbar. Nun aber zur eigentlichen Statistik.
Ich würde gerne meine Daten mit einem t.test oder vielleicht auch ANOVA (Varianzanalyse) hinsichtlich der Abhängigkeit der Temperatur auf den Wendepunkt testen.
Meine Hypothese lautet: Die Temperatur hat einen signifikanten Einfluss auf den Wendepunkt ("Hours"). (Ich hoffe es ist spezifisch genug?!)
Auf Normalverteilung habe ich meine Daten bereits positiv überprüfen können. Bei mir hapert es jetzt an der weiteren Vorgehensweise.
- 4.) Was muss ich beachten beim t.test? Ist der t.test überhaupt der Richtige? Einseitiger t.test oder zweiseitig? (alle Fragen auch in Bezug auf R)
Sollte ich mich irgendwo unklar ausgedrückt haben oder Begriffe falsch verwendet haben, dann fragt einfach nochmal nach. Ich lerne gerne stetig dazu! Die Statistik - und alles was damit so zusammenhängt - lässt sich nicht so leicht aus dem Ärmel schütteln und daher weiß ich es auch zu schätzen, wenn sich jemand die Zeit nimmt und mir Antwortet/Hilfestellung leistet. Vielen, vielen Dank im Voraus.
Hoffentlich bis bald und "late night"-Grüße vom Schreibtisch,
aXon