Welches Methode zur Datenauswertung

Fragen, die sich auf kein spezielles Verfahren beziehen.

Welches Methode zur Datenauswertung

Beitragvon Paula » Mo 4. Nov 2013, 19:49

Hallo Zusammen,

ich schlage mich nun seit 2 Wochen mit folgendem statistischen Problem rum:

Ich habe eine metrisch skalierte abhängige Variable (Retourenquote) und möchte untersuchen welchen Einfluss verschiedene Faktoren auf diese haben.
Dabei habe ich zu einem metrisch skalierte Variablen (Verkaufspreis, Rabatt) aber auch nominal skalierte Variablen (Kategorie: Hemd, Bluse, Jeans, Kleid etc. oder Gruppe: Men, Women, Accessories... etc.) Es liegt kein linearer Zusammenhang vor.

Wie kann ich diese Daten auswerten?

Eine Regression mit Dummies habe ich bereits versucht, durch den fehlenden linearen Zusammenhang aber keine brauchbaren Ergebnisse bekommen.
MANOVA würde nur Sinn machen, wenn die abhängigeV nominal skaliert ist, oder?
Ein Hypothesentest (chi²) macht auch nur Sinn wenn beide nominal sind, oder?

Besten Dank im Vorraus :)
Paula
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Okt 2013, 15:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Welches Methode zur Datenauswertung

Beitragvon PonderStibbons » Mo 4. Nov 2013, 22:07

Wie kann ich diese Daten auswerten?

Das hängt von Deiner konkreten Fragestellung, Deinem Forschungsdesign und Deiner Stichprobengröße ab.
Bereits "Retourenquote" als abhängige Variable erfordert nachzufragen. Es geht um Untersuchungsobjekte
(z.B. Personen), die mehrere Waren beziehen und einen Teil davon zurückgeben, daher kann jedem Objekt
eine Retourenquote zugeordnet werden? Oder geht es nicht um Quoten als AV, sondern das Objekt ist die einzelne
Warensendung, und deren Rücksendung (ja/nein) ist die abhängige Variable?
Eine Regression mit Dummies habe ich bereits versucht, durch den fehlenden linearen Zusammenhang aber keine brauchbaren Ergebnisse bekommen.

Was immer "keine brauchbaren" heißen mag. Nichtlineare Zusammenhänge kann man allerdings häufig modellieren.
MANOVA würde nur Sinn machen, wenn die abhängigeV nominal skaliert ist, oder?

Nein. Aber wo kommen nun mehrere AV her?

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Welches Methode zur Datenauswertung

Beitragvon Paula » Di 5. Nov 2013, 12:23

Besten Dank für dein Feedback!

Meine Fragestellung zielt darauf, zu identifizieren welche Produktattribute Einfluss auf die Retourenquote eines Produktes haben. Haben z.B. Jeans eine höhere Retourenquote als z.B. Jacken. Das Untersuchungsobjekt ist also nicht der Kunden, der zurückschickt, sondern die Artikel an sich.
Die Stichprobengröße würde ich mit 80.000 Beobachtungen als groß einschätzen ;)

Keine brauchbaren Ergebnisse heißt für mich ein schlechter Wert für R² , also so 0.3 oder 0.1!
Wenn man nichtlineare Zusammenhänge für die Regression modelliert.... gehen dann nicht Informationen verloren?

Also wäre eine ANOVA sinnvoll?

Danke :oops:
Paula
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Okt 2013, 15:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Welches Methode zur Datenauswertung

Beitragvon PonderStibbons » Di 5. Nov 2013, 13:09

Die Stichprobengröße würde ich mit 80.000 Beobachtungen als groß einschätzen ;)

80'000 verschiedene Produkte?
Keine brauchbaren Ergebnisse heißt für mich ein schlechter Wert für R² , also so 0.3 oder 0.1!

Inwiefern und wozu ist das denn nicht brauchbar? Ein R² von 0,3 ist in Studien, die menschliches Verhalten
betreffen, ein eher großer Wert, und prognostisch in den meisten Anwendungskontexten gut verwendbar.
Auch 0,1 wäre nicht ungewöhnlich niedrig. Insofern müsstest Du Deine Einschätzung noch erläutern.
Wenn man nichtlineare Zusammenhänge für die Regression modelliert.... gehen dann nicht Informationen verloren?

Wenn statt einem (beispielhaft simpel gehaltenen) Modell Retourenquote = c + b1*Preis + Fehler
ein Modell Retourenquote = c + b1*Preis + b2*Preis² + Fehler mehr Sinn ergibt, wo sollten da
Informationen verloren gehen?
Also wäre eine ANOVA sinnvoll?

Das "also" verstehe ich leider nicht, aber es ist ohnehin so, dass die multiple lineare Regression
und die Varianzanalyse nicht nur beides Methoden im Rahmen des allgemeinen linearen Modells
darstellen, sondern sie sind auch in ihren Ergebnissen und Aussagen weitgehend äquivalent und
eher nur "technisch" bei der Durchführung unterschiedlich.

Mit fruendlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Welches Methode zur Datenauswertung

Beitragvon Paula » Di 5. Nov 2013, 13:21

Es handelt sich um 80.000 verschieden Artikel die anhand von einer ID unterschieden werden.

Wenn statt einem (beispielhaft simpel gehaltenen) Modell Retourenquote = c + b1*Preis + Fehler
ein Modell Retourenquote = c + b1*Preis + b2*Preis² + Fehler mehr Sinn ergibt, wo sollten da
Informationen verloren gehen?

Das stimmt wohl! Allerdings habe ich dann eine Regression mit ca. 20 Dummy-Variablen.... :? ....ist das Vorteilhaft oder Nachteilig?
Paula
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Okt 2013, 15:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Welches Methode zur Datenauswertung

Beitragvon PonderStibbons » Di 5. Nov 2013, 13:32

Das stimmt wohl! Allerdings habe ich dann eine Regression mit ca. 20 Dummy-Variablen....

Bei 80.000 Fällen spielt das erstmal keine Rolle. Die schiere Anzahl der Variablen
ist da sicher weniger das Problem als mögliche komplexe Wechselbeziehungen und
(eventuelle) nichtlineare Beziehungen zur abhängigen Variable. Aber wie man
aus sehr vielen Prädiktoren ein handhabbares, aussagekräftiges und theoretisch
oder praktisch verwertbares Modell baut, ist nun wieder eine Wissenschaft für
sich. Du kannst versuchen, es ganz schlicht zu halten, ein einfaches Modell
mit allen Prädiktoren an einem Teildatensatz (2/3 des Gesamtdatensatzes)
aufstellen, redundante oder nicht relevante Variablen herausnehmen, und
das Resultat am Restdatensatz validieren. Aber das genaue Vorgehen hängt
vom Kontext und vom Zweck der Studie bzw. der Analyse ab, beides kenne ich
nicht.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Welches Methode zur Datenauswertung

Beitragvon Paula » Di 5. Nov 2013, 13:53

Vielen Dank schon einmal!

Also mein Wunschergebnis der Datenanalyse würde ungefähr so aussehen:

Die Artikelkategorien Jeans, Hemd, Hose haben einen deutlich höheren Einfluss auf die Retourenquote eines Produktes als T-Shirts und Kleider.
Artikel der Klasse MEN haben eine höhere Retourenquote als der Klasse WOMEN.
Der Verkaufspreis hat/hat keinen Einfluss auf die Retourenquote des Artikels.
....
Ich überlege gerade, ob es Sinn macht in diese Richtung zu denken und die Retourenquote als abhängigeV zu sehen, bzw. ob man hier von Abhängigkeiten sprechen kann.....

Verständlich??

Tausend Dank :D
Paula
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Okt 2013, 15:38
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Welches Methode zur Datenauswertung

Beitragvon PonderStibbons » Mi 6. Nov 2013, 11:34

Ich überlege gerade, ob es Sinn macht in diese Richtung zu denken und die Retourenquote als abhängigeV zu sehen, bzw. ob man hier von Abhängigkeiten sprechen kann.....

Wo ist aber jetzt der neue Gedanke? Retourenquote ist doch
die ganze Zeit schon die abhängige Variable.

Mit freundlichen Grüßen

P.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 10 Gäste