STATISTIK-FORUM.de

Stick14 · von **Stick14** » Sa 10. Aug 2013, 11:16

Hallo,

ich hätte folgende Frage:
Ich überprüfe Objekte einer verschiedenen Größe und klassifiziere diese als korrekt oder falsch.
Meine Daten sehen dann so aus:
Objekt | Größe| Ergebnis
A | 5 | korrekt
B | 10 | korrekt
C | 3 | falsch
D | 4 | korrekt
E | 60 | korrekt

Nun möchte ich mit dem Programm R untersuchen, ob kleinere Objekte häufiger (oder auch seltener) als falsch klassifiziert sind. Jedoch sind die Daten nicht normalverteilt, denn die meisten Objekte sind klein.
Ich versuche herauszufinden, wie man das korrekt auswertet.
Daten:
Vergleiche ich die Verteilung aller Daten und aller falschen Daten? (Wäre das eine abhängige Stichprobe?) Oder aller korrekten Daten und aller falschen Daten? (Unabhängige Stichprobe?)
Test:

Vielen Dank für eure Mühen

Liebe Grüße,
Thomas

Stick14 · von **Stick14** » Sa 10. Aug 2013, 11:29

Oder sollte ich zur Auswertung mit dem relativen Anteil der Daten mit Ergebnis falsch vorgehen?
Also 50 % der Objekte mit Größe 2 hatten falsch als Testergebnis, 60 % der Größe 3, ...
Jedoch scheint mir, als hätten somit durch die Gruppierung nach Größe die größeren Objekte (wovon es viel weniger gibt) einen höheren Einfluss. Wenn es zum Beispiel nur ein Objekt mit Größe 400 gibt und dieses mit Ergebnis falsch getestet wird, dann springt dort der Anteil kurz auf 100 % hoch... Ich schätze mal, dass das dann die Korrelation zerstört, weil diese die selteneren Objekte ja nicht schwächer gewichtet.
Darf ich die Daten überhaupt so gruppieren?

Liebe Grüße,
Thomas

PonderStibbons · von **PonderStibbons** » Sa 10. Aug 2013, 12:55

Vergleiche ich die Verteilung aller Daten und aller falschen Daten? (Wäre das eine abhängige Stichprobe?) Oder aller korrekten Daten und aller falschen Daten? (Unabhängige Stichprobe?)

Falls jedes Objekt nur 1mal gemessen wurde, hast Du die beiden Gruppen
richtig und falsch, ein Vergleich mit dem Mann-Whitney U-Test a.k.a.
Wilcoxon-Rangsummentest wäre dann naheliegend.

Welch-Test als Alternative zum T-Test zweier unabhängiger Stichproben (da nicht normalverteilt)?

Der Welch-Test korrigiert ungleiche Varianzen, nicht die Verteilungsform.

Mit freundlichen Grüßen

P.

folgende User möchten sich bei PonderStibbons bedanken:
Stick14

Stick14 · von **Stick14** » Sa 10. Aug 2013, 14:58

Hallo P,
prima, dankeschön für die schnelle Antwort!

Ich habe einen Eintrag pro Objekt. Der von dir vorgeschlagene Test liefert mir folgendes:

Code: Alles auswählen: > wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1])); Wilcoxon rank sum test with continuity correction data: unlist(objekteOk[1]) and unlist(objekteFehler[1]) W = 186719.5, p-value = 1.082e-05 alternative hypothesis: true location shift is not equal to 0

Bedeutet die Ausgabe, dass die Verteilung unterschiedlich ist? Kann ich auch herausfinden, dass die Verteilung der Objekte mit den Fehlern weiter "links" auf der Achse ist? Ich hab mal vom P-Q-Plot gehört, ist dieser anwendbar oder ganz was anderes?

Könntest du mir auch kurz sagen, ob die im zweiten Beitrag angesprochene Gruppierung erlaubt wäre?

Danke!

Liebe Grüße,
thomas

bele · von **bele** » So 11. Aug 2013, 13:47

Hallo!

Stick14 hat geschrieben:
Code: Alles auswählen
W = 186719.5, p-value = 1.082e-05 alternative hypothesis: true location shift is not equal to 0

Bedeutet die Ausgabe, dass die Verteilung unterschiedlich ist?

Ja, weil die p-value sehr klein ist.

Kann ich auch herausfinden, dass die Verteilung der Objekte mit den Fehlern weiter "links" auf der Achse ist?

Am einfachsten wiederholst Du den Test mit einseitiger Fragestellung. Dazu kennt die Funktion wilcox.test() den parameter "alternative".

Code: Alles auswählen: wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1]), alternative="greater") wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1]), alternative="less")

Es gibt übrigens keinen Grund, Zeilen in R mit Semikolon abzuschließen. Ist ja schließlich R und nicht C

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Stick14

bele · von **bele** » So 11. Aug 2013, 14:00

PS: Ich werf noch schnell einen Vorschlag für einen grafische Darstellung in die Runde, auch wenn das nicht die Frage war:

Code: Alles auswählen: common=c(unlist(objekteOk[1]), unlist(objekteFehler[1])) max_c=max(common) min_c=min(common) plot(density(unlist(objekteOk[1])), color="red", xlim=c(min_c, max_c), ylim=c(0,1)) lines(density(unlist(objekteFehler[1])), color="blue")

Stick14 · von **Stick14** » Mo 12. Aug 2013, 12:52

Spitze, vielen Dank Bernhard!

Es gibt übrigens keinen Grund, Zeilen in R mit Semikolon abzuschließen. Ist ja schließlich R und nicht C

Gut zu wissen

Beim Plotten gabs leider Probleme. Müssen die beiden Vektoren gleich lange sein?

Code: Alles auswählen: Fehler in plot.window(...) : NAs not allowed in 'xlim' Zusätzlich: Warnmeldung: In plot.window(...) : "color" is not a graphical parameter

Liebe Grüße
Thomas

Cadee · von **Cadee** » Fr 16. Aug 2013, 16:31

Ich habe das Gefühl, der Drops ist eh schon gelutscht, aber trotzdem noch mal zwei, drei Anmerkungen bzw. Fragen in die Runde:
Erste Frage vorweg: Wie groß ist deine Stichprobe?
Deine Variable Größe klingt nach cm, mm?

Allgemein gilt doch:
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) intervallskaliert, dann t-Test (abh. oder unabh. je nachdem)
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) ordinal, dann Wilcoxon oder Mann-W. (abh. oder unabh. je nachdem)
ABER
Wenn UV = (mind.) intervallskaliert & AV = nominalskaliert (dichotom), dann log. Regression

So wie du das geschrieben hast, gehst du davon aus, dass die Größe des Objektes einen Einfluss auf die Klassifizierung hat (und nicht andersherum!)

[...] ob kleinere Objekte häufiger (oder auch seltener) als falsch klassifiziert sind

Deine UV = Größe des Objektes (metrisch, nicht nv)
Deine AV = Ergebnis (nominalskaliert; dichotom)
Das heißt du würdest hier eigentlich eine logischte Regressions rechnen müssen, oder sehe ich das falsch?!

Oder sollte ich zur Auswertung mit dem relativen Anteil der Daten mit Ergebnis falsch vorgehen?
Also 50 % der Objekte mit Größe 2 hatten falsch als Testergebnis, 60 % der Größe 3, ...
Jedoch scheint mir, als hätten somit durch die Gruppierung nach Größe die größeren Objekte (wovon es viel weniger gibt) einen höheren Einfluss. Wenn es zum Beispiel nur ein Objekt mit Größe 400 gibt und dieses mit Ergebnis falsch getestet wird, dann springt dort der Anteil kurz auf 100 % hoch... Ich schätze mal, dass das dann die Korrelation zerstört, weil diese die selteneren Objekte ja nicht schwächer gewichtet.
Darf ich die Daten überhaupt so gruppieren?

Das ist quasi das, was ein Chi^2-Test machen würde. Der Chi^2-Test schaut, ob sie die Anzahl an Zellen in einer Kontingenztafel signifikant voneinander unterscheiden. Und so ähnlich wäre ich wahrscheinlich auch vorgegangen. Ich hätte die Größen der Gruppen allerdings inhaltlich sinnvoll zusammengefasst, z.B. in "klein", "mittelgroß" und "groß". Damit gehen dir zwar Informationen innherlab deiner Daten verloren (das heißt du verlierst an Teststärke und ein Verlust an Teststärke bedeutet, dass es unwahrscheinlicher ist einen Effekt zu entdecken, wenn es denn tatsächlich einen gibt), aber du hast keine Probleme mit der Wahl des richtigen Tests

Aber lass dich nun bloß nicht verunsichern

folgende User möchten sich bei Cadee bedanken:
Stick14

Stick14 · von **Stick14** » So 25. Aug 2013, 18:03

Hallo Cadee,

danke für deine Hilfe. Dann gucke ich mir mal den Chi^2-Test an.

Erste Frage vorweg: Wie groß ist deine Stichprobe?

Die Größe der Stichprobe bewegt sich zwischen 100 und 1.000 Datensätzen.

Deine Variable Größe klingt nach cm, mm?

Die Größe ist ganzzahlig metrisch skaliert.

So wie du das geschrieben hast, gehst du davon aus, dass die Größe des Objektes einen Einfluss auf die Klassifizierung hat (und nicht andersherum!)

Korrekt!

Liebe Grüße,
Thomas

STATISTIK-FORUM.de

Welcher Test?

Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Re: Welcher Test?

Wer ist online?