STATISTIK-FORUM.de

springfield · von **springfield** » Di 22. Sep 2015, 18:33

Hallo! Im Rahmen einer Studienarbeit habe ich mich nun zur Auswertung mal an R gewagt und habe nun eine Frage bezüglich der Verwendung des richtigen Tests.
Ich hoffe natürlich, dass ich das hier an der richtigen Stelle poste bzw. frage. Falls nicht, dann schonmal sorry

Also erstmal zur Einleitung paar Eckdaten zum Versuch.

Es geht, grob zusammengefasst, um die Bestimmung einer Infektionsrate in Wurzelhaaren von verschiedenen Pflanzen. Dafür wurden jeweils X Pflanzen von Y Verschiedenen Arten untersucht. Pro Pflanze wurde eine gleiche Anzahl an Wurzelhaaren untersucht, ob diese Infiziert sind oder nicht. Beispielsweise habe ich also 7 verschiedene Arten, davon je 10 verschiedene Exemplare. Je Pflanze wurden 80 Haare beobachtet und eine Infektionsrate bestimmt.

Nun zur Frage bzw. zum bisherigen Vorgehen:
Ich habe die Daten in R eingelesen und auch erste einfache Tests, Zusammenfassungen und Plots durchgeführt. Es soll nun untersucht werden, ob die Art einen signifikanten Einfluss auf die Infektionsrate hat(oder halt nicht). Im Vorfeld habe ich den Levenetest (Varianzhomogenität) und Shapirotest (Normalverteilung) angewendet. Der Levenetest lieferte ein positives Ergebnis, leider sind die Daten (knapp) nicht normalverteilt.
Was habe ich nun gemacht? Ich habe 2 verschiedene „Wege“ probiert. Zum einen habe ich die Daten transformiert (in diesem Fall logarithmiert), damit die Daten normalverteilt sind. Dann habe ich damit eine Anova (bei R mit dem Befehl „aov(infektion~art)“) durchgeführt und F- und p-Werte notiert. Als 2. Weg habe ich mit den untransformierten Daten einen Kruskal-Wallis Test durchgeführt (R Befehl „kruskal.test(infektion, art)) und dann wieder p-Wert notiert. Letztendlich sind natürlich unterschiedliche Zahlen dabei herausgekommen, das Ergebnis an sich, also dass die Mittelwerte der Gruppen sich signifikant voneinander unterscheiden, ist bei beiden jedoch bestätigt.

Nun natürlich abschließend meine Frage: Welcher der Tests ist für meinen Fall besser bzw. überhaupt geeignet? Also nutze ich nun die Anova Daten oder das Ergebnis des Kruskal-Wallis? Kann ich auch, unter der Voraussetzung, dass ich beide Tests in diesem Fall auch anwenden darf, beide Ergebnisse anführen oder macht dies keinen Sinn?

Was ist denn überhaupt allgemein der Unterschied zwischen diesen beiden Tests, außer dass die Voraussetzung mit der Normalverteilung einmal gegeben sein muss und einmal nicht? Und wie ist der chi-Wert, den mir R beim Kruskal ausgibt zu interpretieren?

Ich hoffe, dass ich mein Anliegen verständlich ausführen konnte und mir jemand helfen bzw. Auskunft darüber geben kann.

Vielen Dank schonmal dafür!

PonderStibbons · von **PonderStibbons** » Di 22. Sep 2015, 19:32

Es soll nun untersucht werden, ob die Art einen signifikanten Einfluss auf die Infektionsrate hat(oder halt nicht).

Was meinst Du mit Infektionsrate? Rate der infizierten Pflanze? Rate der infizierten Haare pro Pflanze?

Im Vorfeld habe ich den Levenetest (Varianzhomogenität) und Shapirotest (Normalverteilung) angewendet. Der Levenetest lieferte ein positives Ergebnis, leider sind die Daten (knapp) nicht normalverteilt.

Wessen Normalverteilung hast du bestimmt? Der Residuen ( evtl. relevant)? Der abhängigen Variable ( sicher irrelevant)?

Als 2. Weg habe Daten einen Kruskal-Wallis Test durchgeführt

Nicht die schlechteste Methode. Notabene testet der Kruskal-Wallis keine Mittelwerte, da er auf Rangdaten basiert.

Mit freundlichen Grüßen

P.

springfield · von **springfield** » Di 22. Sep 2015, 19:45

Es soll nun untersucht werden, ob die Art einen signifikanten Einfluss auf die Infektionsrate hat(oder halt nicht).

Was meinst Du mit Infektionsrate? Rate der infizierten Pflanze? Rate der infizierten Haare pro Pflanze?

Für das eigentliche Problem ja eher irrelevant, aber es handelt sich dabei um die Infektionsraten der Haare je Pflanze, also bspw. 46von80 der kontrollierten Wurzelhaare der einen Pflanze sind infiziert.

Im Vorfeld habe ich den Levenetest (Varianzhomogenität) und Shapirotest (Normalverteilung) angewendet. Der Levenetest lieferte ein positives Ergebnis, leider sind die Daten (knapp) nicht normalverteilt.

Wessen Normalverteilung hast du bestimmt? Der Residuen ( evtl. relevant)? Der abhängigen Variable ( sicher irrelevant)?

Shapiro der gemessenen Infektionsraten, also denke ich der abhängigen Variable.

Als 2. Weg habe Daten einen Kruskal-Wallis Test durchgeführt

Nicht die schlechteste Methode. Notabene testet der Kruskal-Wallis keine Mittelwerte, da er auf Rangdaten basiert.

Das heisst, dass ich lieber das Ergebnis vom Kruskal nehme?! Wie ist dann die Schlussfolgerung in diesem Fall? Bei der Anova wäre es ja, dass sich die Mittelwerte der Gruppen signifikant unterscheiden, also die Gruppierung einen Einfluss aus die abhängige Variable ist (oder so ähnlich). Wie sieht es da denn beim Kruskal aus?

PonderStibbons · von **PonderStibbons** » Di 22. Sep 2015, 20:52

Für das eigentliche Problem ja eher irrelevant, aber es handelt sich dabei um die Infektionsraten der Haare je Pflanze, also bspw. 46von80 der kontrollierten Wurzelhaare der einen Pflanze sind infiziert.

Für die gesamte Diskussion ist das zentral, weil es in dem einen Fall eine binäre abhängige Variable wäre, in dem anderen Fall eine Zählvariable.

Shapiro der gemessenen Infektionsraten, also denke ich der abhängigen Variable.

Das wäre also ein Test einer irrelevanten Größe. Bei Verfahren des Allgemeinen Linearen Modells, wie unter anderem der Varianzanalyse, ist nicht die Verteilung der abhängigen Variable von Belang, sondern die Verteilung der Modell-Vorhersagefehler (der Residuen). Bei kleinen Stichproben (n < 50 oder n < 30, je nach Quelle) sollten diese normalverteilt sein (sollten die Stichproben-Residuen aus einer normalverteilten Residuen-Population stammen). Bei ausreichend großen Stichproben ist diese Voraussetzung entbehrlich.

Das heisst, dass ich lieber das Ergebnis vom Kruskal nehme?!

Das heißt, dass Du als jemand, dem das Skalenniveau der abhängigen Variable als irrelevant erscheint und der auch die Voraussetzungen gängiger Verfahren nicht gut kennt, vielleicht am besten mit einem "robusten" Verfahren wie dem K-W-Test fährst, welcher nicht viele Voraussetzungen hat und daher nicht viel Kenntnisse erfordert.

Wie ist dann die Schlussfolgerung in diesem Fall? Bei der Anova wäre es ja, dass sich die Mittelwerte der Gruppen signifikant unterscheiden, also die Gruppierung einen Einfluss aus die abhängige Variable ist (oder so ähnlich). Wie sieht es da denn beim Kruskal aus?

Da geht es um Ränge und ob sie in einzelnen Gruppen besonders hoch bzw. niedrig sind. Unter anderem de.wikipedia bzw. en.wikipedia haben, glaube ich, Artikel darüber.

Mit freundlichen Grüßen

P.

STATISTIK-FORUM.de

Welcher Test ist in diesem Fall korrekt?

Welcher Test ist in diesem Fall korrekt?

Re: Welcher Test ist in diesem Fall korrekt?

Re: Welcher Test ist in diesem Fall korrekt?

Re: Welcher Test ist in diesem Fall korrekt?

Wer ist online?