MNL Regression mit sehr vielen Kategorien

Alle Verfahren der Regressionanalyse.

MNL Regression mit sehr vielen Kategorien

Beitragvon balu_20 » So 11. Mär 2012, 19:04

Hallo,

ich habe folgende Ausgangslage: Ich habe 190 Produkte und 8 Käufergruppen mit insgesamt etwa 20.000 Fällen.

Ich möchte nun analysieren welchen Einfluß die Gruppenzugehörigkeit auf den Kauf der Produkte hat (Käufer aus Gruppe X kaufen tendenziell eher Produkt Y.)

Ich habe es hier mit einer Multinomialen Regression probiert (Produkte als AV (1-190 codiert, und 8 Käufergruppengruppen als UV (Mitglied =1 Kein Mitglied = 0).

Leider sind die Gütemasse alle schlecht, ich habe darauf geachtet, dass ich pro Produkt mehr als 25 Beobachtungen habe:

Pseudo-R-Quadrat
Cox und Snell ,135
Nagelkerke ,135
McFadden ,023

Ferner zeigt der Likelihood Qutienten Test für die UV (Gruppen) keine Signifkanzen an.

Ist der ganze Ansatz falsch? Muss ich was beachten, Ich bin noch neu auf dem MNL Gebiet.

Sollte ich lieber eine binäre Regression für jedes Produkt einzeln rechnen?

Wäre für Tipps dankbar.
balu_20
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 8. Mär 2012, 01:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: MNL Regression mit sehr vielen Kategorien

Beitragvon daniel » So 11. Mär 2012, 20:59

Ich würde die Gütemaße nicht unbedingt als "schlecht" bezeichnen. Welche Maße erwartest Du denn mit einem Prädikator? Allgemein möchte ich zu skalareren Gütemaßen ein schönes Zitat von Long (1997: 102) aufgreifen:

First, I am unaware of any convincing evidence that selecting a model that maximizes the value of a given measure of fit results in a model that is optimal in any sense other than the model having a larger value of that measure.


Bei einer multinomischen Regression mit 190 Kategorien und 7 Dummyvariablen ist m.E. eine sinnvolle Interpretation nicht möglich. Welche Aussagen willst Du denn damit treffen? Die Aussagen, die Du treffen kannst haben alle etwa folgende Form: "Kundengruppe A zieht im Vergleich zu Kundengruppe B Produkt 27 Produkt 42 vor."

Zu beachten wäre ansonsten, dass die IIA Annahme (independence of irrelevant alternatives) vermutlich nicht gegeben ist, wenn sich die Produkte relativ ähnlich sind.

Leider fällt mein Beitrag recht destruktiv aus, denn mir fällt auf Anhieb keine gute Analysestrategie ein. Vielleicht kannst Du Deine Fragsetellung nochmal präzeisieren, bzw. eine Beispielaussage formulieren, die Du gerene auf Basis der Analyse treffen möchtest.


Long, Scott (Hg.) (1997). Regression Models for Categorical and Limited DependentVariables. Thousand Oaks: Sage Publications.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: MNL Regression mit sehr vielen Kategorien

Beitragvon balu_20 » Mo 12. Mär 2012, 00:10

Danke für deine Antwort.

Es geht darum, dass die Kundengruppen auf Basis von bestimmten Eigenschaften bzw. Einstellungen zum Produkt gewonnen wurden (Faktoranalysen etc), es handelt sich also um "Käufertypen". Im Datensatz sehe ich, welcher Kunde welches Produkt kauft und ich weiß zu welcher Käufertypgruppe er gehört. Nun soll auf Basis der 190 Produkte analysiert werden, welcher Käufertyp räpresentiert durch die 8 Gruppen, welches Produkt tendeziell bevorzugt. Als nächstes soll dann je Käufergruppe eine Art "repräsentativer Warenkorb" aus den 190 Produkten gebildet werden, der für weitere Analysen benutzt wird.

Somit ist: "Kundengruppe A zieht im Vergleich zu Kundengruppe B Produkt 27 Produkt 42 vor." eigentlich gar nicht so falsch. Das "Red Bus Blue Bus" Thema ist natürlich ein Problem.

Wäre eine Alternative vielleicht 190 binäre Regressionen zu rechnen? Also "Kauf vs. Nicht Kauf Produkt X" in Abhängikeit der Gruppenzugehörigkeit? bzw. ist der MNL Ansatz doch nicht so falsch?

Ich könnte mir natürlich auch die reinen Häufigkeiten ansehen, allerdings würde ich die Aussage gerne etwas valider treffen wollen.

Hast Du vor dem Hintergrund der Aufgabenstellung eine Idee?

Danke!
balu_20
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 8. Mär 2012, 01:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: MNL Regression mit sehr vielen Kategorien

Beitragvon daniel » Mo 12. Mär 2012, 00:48

Nun soll auf Basis der 190 Produkte analysiert werden, welcher Käufertyp räpresentiert durch die 8 Gruppen, welches Produkt tendeziell bevorzugt.


Im Vergleich zu was? Zu einem betimmten anderen Produkt? Zu einer bestimmten anderen Käufergruppe? Zu allen anderen Produkten? Zu allen anderen Gruppen? Zu Teilmengen der anderen Produkte? Zu Teilmengen der anderen Gruppen? Die Kombinatorik bei 8 Gruppen und 190 Produkten geht gegen unendlich.

Wäre eine Alternative vielleicht 190 binäre Regressionen zu rechnen?


Um was genau zu tun?

Ich muss sagen, dass ich von der theoretischen Seite keine Ahnung habe. Ich weiß nicht, was ein "repräsentativer Warenkorb" sein soll. Sind das die drei meistgekauften Produkte pro Gruppe? Sind das alle 190 Produkte pro Gruppe in einer, wie auch immer ermittelten Rangreihenfolge? Ist das nur das meistgekaufte Produkt pro Gruppe? Oder etwas ganz anders? In einer Frage zusammengefasst: Welche Informationen sollen wie genau in die Erstellung dieses Warenkorbs einfließen?

Angenommen Du hättest 190 binäre Regressionen geschätzt und nun 1330 Koeffizineten (bei nur einer einzigen Refernzgruppe). Wie soll diese Information nun zur Erstellung des Warnekorbs verwendet werden?
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

Re: MNL Regression mit sehr vielen Kategorien

Beitragvon balu_20 » Mo 12. Mär 2012, 01:19

Es geht um den Vergleich der 8 Gruppen. Bei den 190 Produkten geht es um Fahrzeuge, also Audi TT, Audi A4, VW Golf, kein Fahrzeugbesitz etc.

Käufergruppen sind zum Bsp. ökologisch motivierte Käufer oder kostenorientierte Käufer. Nun soll analyisert werden welche der Fahrzeuge (190 gibt es) ein ökologisch motiverierter Käufer im Vergleich zu allen anderen Käufertypen bevorzugt. Am Ende möchte ich je Käufergruppe vielleicht 10 Fahrzeuge hergeleitet haben (repräsentativer Warenkorb), die diese Käufergruppegruppe "typischerweise" kauft. Bsp. Ökologischer Käufer: Toyota Prius, VW XY, Opel Corsa...
Rationaler Käufer: Dacia Logan, Kia XY

In der MNL habe ich den "Nichtbesitz" eines Fahrzeugs als Referenzgruppe gewählt, so dass die Aussage wäre: Ein Mitglied der Gruppe 1 entscheidet sich 5 mal wahrscheinlicher für den Kauf des Audi TT im Vergleich zum Nichtkauf des Audi TT. Ein Mitglied der Gruppe 2 vielleicht nur 3 mal wahrscheinlicher für den Kauf im Vergleich zum Nichtkauf. Das Fahrzeug wird in den Warenkorb der Gruppe X aufgenommen, bei der die Wahrscheinlichkeit des Kaufs des Audi TT vs. Nichtkauf des Audi TT am höchsten ist.

Ich könnte auch die Häufgikeiten prüfen. Also, in Gruppe 8 haben 20% den Audi TT gekauft, in der Grundgesamtheit sind es nur 10 %, somit kaufen Käufer aus Gruppe 8 überproportional Audi TT, also nehme ich den TT in den Warenkorb der Gruppe 8 auf. Wäre pragmatisch, aber nicht so valide.
balu_20
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 8. Mär 2012, 01:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: MNL Regression mit sehr vielen Kategorien

Beitragvon daniel » Mo 12. Mär 2012, 03:03

In der MNL habe ich den "Nichtbesitz" eines Fahrzeugs als Referenzgruppe gewählt, so dass die Aussage wäre: Ein Mitglied der Gruppe 1 entscheidet sich 5 mal wahrscheinlicher für den Kauf des Audi TT im Vergleich zum Nichtkauf des Audi TT. Ein Mitglied der Gruppe 2 vielleicht nur 3 mal wahrscheinlicher für den Kauf im Vergleich zum Nichtkauf.


Den Nichtbesitz als Refernz zu nehmen ist eine gute Idee, die Interpretation ist dennoch nur die halbe Wahrheit. Du musst bei den Gruppen ebenfalls die Refrenz mitdenken. Angenommen Gruppe 8 ist die Refrenz, dann wird aus

Ein Mitglied der Gruppe 1 entscheidet sich 5 mal wahrscheinlicher für den Kauf des Audi TT im Vergleich zum Nichtkauf des Audi TT.

Ein Mitglied der Gruppe 1 entscheidet sich im Vergleich zu einem Mitglied der Gruppe 8 5 mal wahrscheinlicher für den Kauf des Audi TT im Vergleich zum Nichtkauf des Audi TT.

Damit hat Du noch nicht den Unterschied zwischen Gruppe 2 und Gruppe 1, Gruppe 3 und Gruppe 1, Gruppe 3 und Gruppe 2 ...

Wenn Du jede Gruppe einmal als Referenz verwendest, dann stellt sich die Frage multiplen testens mit der Konsequenz einer alpha Korrektur. Da Du schreibst, die Gruppen unterscheiden sich laut Test schon jetzt nicht signifikant, wird dabei wohl nicht viel rauskommen. Bedenkt man zudem die nahezu sichere Verletzung der IIA Annahme, bin ich nicht sicher, ob und inwiefern man hier von "valideren" Ergebnissen sprechen kann, als bei einer Häufigkeitsbetachtung.

Meiner Meinug nach bist Du mit Häufigkeiten besser dran. Andere mögen widersprechen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 10 Gäste