Hallo Dimitri,
weil ich dachte für parametrische Test müssen die Daten stetig und normal verteilt sein.
Du scheinst ja die Poisson-Regression (jetzt?) zu kennen und hast damit ein eindrückliches Beispiel, dass das eine falsche Annahme war.
Die Zeichnungen habe ich dafür in verchiedene Kategorien eingeteilt.
Studierende machen also eine oder viele Zeichnungen und Du prüfst, ob Kategorien von Zeichnung damit abgedeckt sind. Das sind die Getränke, die man entweder mag oder nicht mag und jede Kategorie könnte geeignet sein, eine richtige Antwort herbei zu führen oder die Zahl der Antwortvorschläge bis zur richtigen Antwort klein zu halten.
Die Mindestanzahl and Versuchen ist natürlich 1 wohingegen eine Poissonverteilung auch 0 mit einschliest.
Du könntest ja anstelle der eingereichten Versuche die Anzahl der vor der richtigen Lösung eingereichten Versuche nehmen. Dann wäre die Null wieder mit drin, und die Poisson-Regression wieder im Spiel.
- Code: Alles auswählen
neueAnzahl = alteAnzahl - 1
Wenn Deine Daten gut zur Poissonverteilung passen, dann wäre das ein sehr elegantes Verfahren. Wenn das nicht gut passt, dann könntest Du anstelle der Poisson-Regression auch eine (proportional odds-)ordinale Regression rechnen. Das geht auch mit metrischem Outcome, denkbar wäre z. B. das R Paket rms mit der Funktion orm. Da brauchst Du Dir dann auch gar keine Gedanken mehr machen, ob die Werte jetzt bei 0, bei 1 oder bei 23 anfangen oder wie irgendwas im Detail verteilt ist. Das ist dann nicht mehr Voraussetzung sondern Teil vom Ergebnis.
Was ich jetzt mal versucht habe ist den Einfluss jeder Kategorie einzeln zu testen mit einem Wilcoxon-Rangsummentest. Denkst du das passt hier?
Verschiedene Verfahren passen besser oder schlechter. Du hast halt nachher eine Menge Testergebnisse und keinen Gesamtüberblick. Wenn das für Dich gut zu interpretieren ist und Dir hilft, Deine Frage zu beantworten und Deine Geschichte zu erzählen, dann ist das ok, dann mach das so. Was Du jetzt genau mit dem Rangsummentest miteinander vergleichst habe ich noch nicht verstanden.
Du hast geschrieben:
Ich möchte gern wissen, ob es einen Zusammenhang zwischen dem Mögen eines Getränks und der Anzahl, wie oft jemand im Monat Spaghetti isst, gibt.
Das ist
eine Frage und dafür hättest Du ja eigentlich gerne
eine Antwort. Wenn jetzt die Cola ein bisschen zum Spaghettiessen beiträgt und die Fanta auch ein bisschen, dann könnte es ja sein, dass weder Cola noch Fanta es zur Signifikanz schaffen, beide gemeinsam aber schon. Deshalb würde ich im Grundsatz versuchen, diese Frage mit nur einem Modell zu beantworten.
Ich arbeite mit Python und habe R nicht (hab auch nicht wirklich die Kapazitäten mich da einzuarbeiten), ...
Ach, so kompliziert würde ich das gar nicht machen. Du kannst ja Deine Daten in Python aufarbeiten, und in CSV so abspeichern, dass man in R noch genau zwei Funktionsaufrufe hat: Einen zum Einlesen des CSV und einen, um das jeweilige Regressionsverfahren durchzuführen. Da finden sich ja vielleicht auch freundliche Menschen im Internet die einem helfen, diese zwei Funktionsaufrufe zu formulieren. R ist schnell installiert, man kann es in Jupyter Notebooks verwenden und wenn es sein muss gibt es das Modul rpy2.
in Python scheint es dafür aber keine Implementation zu geben
Erstens finde ich einen Post von 2016 nicht als beweiskräftig, dass es irgendwas datenbezogenes in Python nicht gibt. Zweitens gibt es bestimmt andere Verfahren einen Regressionsbaum wachsen zu lassen die auch in Python etabliert wurden und die man wahrscheinlich dann auch über Kreuzvalidierung o. ä. so etwas ähnlichem wie einer Signifikanztestung zuführen könnte und drittens siehe oben: Python und R sind nur Werkzeuge, keine Religionen. Im (richtigen) [url=http::forum-r-statistik.de]Deutschen R-Forum[/url] kann man z. B. ein CSV mit 70 Zeilen hochladen und wenn man nett fragt, findet man da nette Leute. Wenn Du nicht mehr über Deine Forschung erzählst als hier, dann können die Daten auch im Forum öffentlich werden denn dann kann keiner was damit anfangen (vorausgesetzt natürlich, die Schüler stehen da nicht mit Klarnamen drin).
JMTC,
Bernhard