Welcher Test?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Welcher Test?

Beitragvon Stick14 » Sa 10. Aug 2013, 11:16

Hallo,

ich hätte folgende Frage:
Ich überprüfe Objekte einer verschiedenen Größe und klassifiziere diese als korrekt oder falsch.
Meine Daten sehen dann so aus:
Objekt | Größe| Ergebnis
A | 5 | korrekt
B | 10 | korrekt
C | 3 | falsch
D | 4 | korrekt
E | 60 | korrekt

Nun möchte ich mit dem Programm R untersuchen, ob kleinere Objekte häufiger (oder auch seltener) als falsch klassifiziert sind. Jedoch sind die Daten nicht normalverteilt, denn die meisten Objekte sind klein.
Ich versuche herauszufinden, wie man das korrekt auswertet.
Daten:
Vergleiche ich die Verteilung aller Daten und aller falschen Daten? (Wäre das eine abhängige Stichprobe?) Oder aller korrekten Daten und aller falschen Daten? (Unabhängige Stichprobe?)
Test:
    Welch-Test als Alternative zum T-Test zweier unabhängiger Stichproben (da nicht normalverteilt)?
    Wilcoxon-Vorzeichen-Test als Alternative zum abhängigen T-Test, falls die Daten abhängig sind?
    Oder muss ich etwa den Chi-Quadrat-Test wählen?

Vielen Dank für eure Mühen

Liebe Grüße,
Thomas
Zuletzt geändert von Stick14 am Sa 10. Aug 2013, 11:29, insgesamt 1-mal geändert.
Stick14
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 10. Aug 2013, 10:44
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welcher Test?

Beitragvon Stick14 » Sa 10. Aug 2013, 11:29

Oder sollte ich zur Auswertung mit dem relativen Anteil der Daten mit Ergebnis falsch vorgehen?
Also 50 % der Objekte mit Größe 2 hatten falsch als Testergebnis, 60 % der Größe 3, ...
Jedoch scheint mir, als hätten somit durch die Gruppierung nach Größe die größeren Objekte (wovon es viel weniger gibt) einen höheren Einfluss. Wenn es zum Beispiel nur ein Objekt mit Größe 400 gibt und dieses mit Ergebnis falsch getestet wird, dann springt dort der Anteil kurz auf 100 % hoch... Ich schätze mal, dass das dann die Korrelation zerstört, weil diese die selteneren Objekte ja nicht schwächer gewichtet.
Darf ich die Daten überhaupt so gruppieren?

Liebe Grüße,
Thomas
Stick14
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 10. Aug 2013, 10:44
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welcher Test?

Beitragvon PonderStibbons » Sa 10. Aug 2013, 12:55

Vergleiche ich die Verteilung aller Daten und aller falschen Daten? (Wäre das eine abhängige Stichprobe?) Oder aller korrekten Daten und aller falschen Daten? (Unabhängige Stichprobe?)

Falls jedes Objekt nur 1mal gemessen wurde, hast Du die beiden Gruppen
richtig und falsch, ein Vergleich mit dem Mann-Whitney U-Test a.k.a.
Wilcoxon-Rangsummentest wäre dann naheliegend.
Welch-Test als Alternative zum T-Test zweier unabhängiger Stichproben (da nicht normalverteilt)?

Der Welch-Test korrigiert ungleiche Varianzen, nicht die Verteilungsform.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Stick14

Re: Welcher Test?

Beitragvon Stick14 » Sa 10. Aug 2013, 14:58

Hallo P,
prima, dankeschön für die schnelle Antwort!

Ich habe einen Eintrag pro Objekt. Der von dir vorgeschlagene Test liefert mir folgendes:
Code: Alles auswählen
> wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1]));

        Wilcoxon rank sum test with continuity correction

data:  unlist(objekteOk[1]) and unlist(objekteFehler[1])
W = 186719.5, p-value = 1.082e-05
alternative hypothesis: true location shift is not equal to 0


Bedeutet die Ausgabe, dass die Verteilung unterschiedlich ist? Kann ich auch herausfinden, dass die Verteilung der Objekte mit den Fehlern weiter "links" auf der Achse ist? Ich hab mal vom P-Q-Plot gehört, ist dieser anwendbar oder ganz was anderes?

Könntest du mir auch kurz sagen, ob die im zweiten Beitrag angesprochene Gruppierung erlaubt wäre?

Danke! :)

Liebe Grüße,
thomas
Stick14
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 10. Aug 2013, 10:44
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welcher Test?

Beitragvon bele » So 11. Aug 2013, 13:47

Hallo!

Stick14 hat geschrieben:
Code: Alles auswählen
W = 186719.5, p-value = 1.082e-05
alternative hypothesis: true location shift is not equal to 0


Bedeutet die Ausgabe, dass die Verteilung unterschiedlich ist?


Ja, weil die p-value sehr klein ist.

Kann ich auch herausfinden, dass die Verteilung der Objekte mit den Fehlern weiter "links" auf der Achse ist?

Am einfachsten wiederholst Du den Test mit einseitiger Fragestellung. Dazu kennt die Funktion wilcox.test() den parameter "alternative".

Code: Alles auswählen
wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1]), alternative="greater")
wilcox.test(unlist(objekteOk[1]), unlist(objekteFehler[1]), alternative="less")


Es gibt übrigens keinen Grund, Zeilen in R mit Semikolon abzuschließen. Ist ja schließlich R und nicht C ;)

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

folgende User möchten sich bei bele bedanken:
Stick14

Re: Welcher Test?

Beitragvon bele » So 11. Aug 2013, 14:00

PS: Ich werf noch schnell einen Vorschlag für einen grafische Darstellung in die Runde, auch wenn das nicht die Frage war:
Code: Alles auswählen
common=c(unlist(objekteOk[1]), unlist(objekteFehler[1]))
max_c=max(common)
min_c=min(common)
plot(density(unlist(objekteOk[1])), color="red", xlim=c(min_c, max_c), ylim=c(0,1))
lines(density(unlist(objekteFehler[1])), color="blue")
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5928
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1403 mal in 1389 Posts

Re: Welcher Test?

Beitragvon Stick14 » Mo 12. Aug 2013, 12:52

Spitze, vielen Dank Bernhard!

Es gibt übrigens keinen Grund, Zeilen in R mit Semikolon abzuschließen. Ist ja schließlich R und nicht C ;)

Gut zu wissen ;)

Beim Plotten gabs leider Probleme. Müssen die beiden Vektoren gleich lange sein?
Code: Alles auswählen
Fehler in plot.window(...) : NAs not allowed in 'xlim'
Zusätzlich: Warnmeldung:
In plot.window(...) : "color" is not a graphical parameter


Liebe Grüße
Thomas
Stick14
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 10. Aug 2013, 10:44
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Welcher Test?

Beitragvon Cadee » Fr 16. Aug 2013, 16:31

Ich habe das Gefühl, der Drops ist eh schon gelutscht, aber trotzdem noch mal zwei, drei Anmerkungen bzw. Fragen in die Runde:
Erste Frage vorweg: Wie groß ist deine Stichprobe?
Deine Variable Größe klingt nach cm, mm?

Allgemein gilt doch:
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) intervallskaliert, dann t-Test (abh. oder unabh. je nachdem)
Wenn UV = nominalskaliert (dichotom) & AV = (mind.) ordinal, dann Wilcoxon oder Mann-W. (abh. oder unabh. je nachdem)
ABER
Wenn UV = (mind.) intervallskaliert & AV = nominalskaliert (dichotom), dann log. Regression

So wie du das geschrieben hast, gehst du davon aus, dass die Größe des Objektes einen Einfluss auf die Klassifizierung hat (und nicht andersherum!)
[...] ob kleinere Objekte häufiger (oder auch seltener) als falsch klassifiziert sind

Deine UV = Größe des Objektes (metrisch, nicht nv)
Deine AV = Ergebnis (nominalskaliert; dichotom)
Das heißt du würdest hier eigentlich eine logischte Regressions rechnen müssen, oder sehe ich das falsch?!

Oder sollte ich zur Auswertung mit dem relativen Anteil der Daten mit Ergebnis falsch vorgehen?
Also 50 % der Objekte mit Größe 2 hatten falsch als Testergebnis, 60 % der Größe 3, ...
Jedoch scheint mir, als hätten somit durch die Gruppierung nach Größe die größeren Objekte (wovon es viel weniger gibt) einen höheren Einfluss. Wenn es zum Beispiel nur ein Objekt mit Größe 400 gibt und dieses mit Ergebnis falsch getestet wird, dann springt dort der Anteil kurz auf 100 % hoch... Ich schätze mal, dass das dann die Korrelation zerstört, weil diese die selteneren Objekte ja nicht schwächer gewichtet.
Darf ich die Daten überhaupt so gruppieren?

Das ist quasi das, was ein Chi^2-Test machen würde. Der Chi^2-Test schaut, ob sie die Anzahl an Zellen in einer Kontingenztafel signifikant voneinander unterscheiden. Und so ähnlich wäre ich wahrscheinlich auch vorgegangen. Ich hätte die Größen der Gruppen allerdings inhaltlich sinnvoll zusammengefasst, z.B. in "klein", "mittelgroß" und "groß". Damit gehen dir zwar Informationen innherlab deiner Daten verloren (das heißt du verlierst an Teststärke und ein Verlust an Teststärke bedeutet, dass es unwahrscheinlicher ist einen Effekt zu entdecken, wenn es denn tatsächlich einen gibt), aber du hast keine Probleme mit der Wahl des richtigen Tests ;)

Aber lass dich nun bloß nicht verunsichern :)
Cadee
Mitglied
Mitglied
 
Beiträge: 23
Registriert: Sa 12. Mai 2012, 16:26
Danke gegeben: 0
Danke bekommen: 5 mal in 5 Posts

folgende User möchten sich bei Cadee bedanken:
Stick14

Re: Welcher Test?

Beitragvon Stick14 » So 25. Aug 2013, 18:03

Hallo Cadee,

danke für deine Hilfe. Dann gucke ich mir mal den Chi^2-Test an.

Erste Frage vorweg: Wie groß ist deine Stichprobe?

Die Größe der Stichprobe bewegt sich zwischen 100 und 1.000 Datensätzen.

Deine Variable Größe klingt nach cm, mm?

Die Größe ist ganzzahlig metrisch skaliert.

So wie du das geschrieben hast, gehst du davon aus, dass die Größe des Objektes einen Einfluss auf die Klassifizierung hat (und nicht andersherum!)

Korrekt!

Liebe Grüße,
Thomas
Stick14
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Sa 10. Aug 2013, 10:44
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste

cron