binäre logistische Regression - Optimale Methode?

Alle Verfahren der Regressionanalyse.

binäre logistische Regression - Optimale Methode?

Beitragvon matze272 » So 13. Sep 2015, 17:09

Hallo zusammen,

dies ist der erste Beitrag in dem Forum, daher habt ein wenig Nachsicht mit mir ;-)

Ich führe für meine Abschlussarbeit eine Datenanalyse zu einem Produkt (Kauf bzw. Nicht-Kauf) durch. Der Datensatz liegt bei ca 5000 Fällen, die soweit aufbereitet sind und genutzt werden können.
Es ist von Interesse, wie der typische Käufer dieses Produktes charakterisiert werden kann: Bspw. Alter, Geschlecht, Wohnort (städtisch oder ländlich), Umsatz, Nutzung verschiedener Services.
Ich habe mich in die Thematik der binären logistischen Regression eingelesen und diese betrachtet als AV eine binäre Variable.
Aussagen zu treffen,wie hoch die Chance ist, dass ein Kunde das Produkt kauft/nicht kauft würde in dem Zusammenhang ja schon mal ein guter Ansatz sein, den typischen Käufer des Produktes zu beschreiben.

Würdet Ihr mir zu diesem Modell raten oder fällt euch ein Passenderes ein? Oder benötigt ihr hierfür noch weitere Informationen?

Darüber hinaus habe ich noch eine Frage zur Variable Alter:
Ich habe mir das Alter der Käufer grafisch anzeigen lassen und festgestellt, dass mit steigendem Alter die Anzahl der Käufer zunimmt, jedoch nur bis ca 30 Jahre. Danach nimmt die Anzahl wieder was ab und steigt nochmal bei 50 Jahren und nimmt abschließend ab. Muss ich so einen Verlauf kategorisieren? Sprich ich definiere eine Kategoriale Variable für das Alter? Oder spielt das keine Rolle und ich kann die Variable so wie sie ist in die Regression mit einfließen lassen?

Ich freue mich über jede Antwort und bedanke mich im voraus :-)

Viele Grüße
Mathias
matze272
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: So 13. Sep 2015, 17:07
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: binäre logistische Regression - Optimale Methode?

Beitragvon bele » So 13. Sep 2015, 18:15

Hallo Mathias,

sind die 5000 Fälle alle Käufer oder umfasst der Datensatz sowohl Käufer als auch Nicht-Käufer? Ich gehe mal von letzterem aus. Wenn Du tatsächlich eine Wahrscheinlichkeit errechnen möchtest, ob ein bestimmter Kandidat kauft oder nicht kauft, dann kann eine binäre logistische Regression durchaus ein guter Ansatz sein. Schau Dir aber auch mal Klassifikationsbäume an - damit bekommt man manchmal die besser interpretierbaren Ergebnisse.

Was das Alter angeht, so ein nicht-monotoner Verlauf ist für die lineare Regression schlecht. Die von mir erwähnten Klassifikationsbäume (google mal nach CART) würden sich hier automatisch "beste" cut-off-Werte errechnen. Für die logistische Regression könnte ich mir vorstellen, dass man Altersklassen bildet (18 bis 24jährige, 25 bis 29jährige, 30 bis 34 jährige, ...) und die jeweils als Dummy-Variable in die logistische Regression eingeht. Dann wird für jede dieser Altersgruppen ein eigener Koeffizient errechnet. Mit 5000 Datensätzen müssten pro Altergruppe genügend übrig bleiben. Sonst halt weitere Altersgrupppen.

HTH,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: binäre logistische Regression - Optimale Methode?

Beitragvon matze272 » So 13. Sep 2015, 18:53

Hallo Bernhard,

zunächst einmal vielen Dank für deine schnelle Antwort!

Der Datensatz umfasst 50% Käufer und 50% Nicht-Käufer.

Das mit den Altersgruppen klingt logisch. Genau so habe ich mir das auch gedacht. Dies würde die beobachteten Werte besser widerspiegeln. Vor allem haben die Koeffizienten ( logits) dann unterschiedliche Vorzeichen für die einzelnen Gruppen, was dann auch wieder besser zu dem beobachteten Verlauf passt.
Hierzu habe ich aber noch eine Frage, an der ich jetzt schon mehrere Stunden dran sitze:

Ich habe es geschafft die Variable Alter in verschiedene Altersgruppen zu gruppieren. Wenn ich diese jetzt in die logistische Regression einfließen lassen möchte (als kategoriale Variable), dann muss ich eine Referenzkategorie angeben. Ich arbeite mit SPSS 23 und kann hier die erste oder letzte Kategorie wählen. Dies würde ja dann besagen, dass entweder die erste oder letzte Altersgruppe als Vergleich herangezogen wird. Mich interessiert aber der Koeffizient in Bezug auf "Kauf/Nicht-Kauf" von den jeweiligen Altersgruppen. Wie kann ich das Problem lösen oder ist mein Verständnis bzw. meine Interpretation falsch?

Viele Grüße,
Mathias
matze272
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: So 13. Sep 2015, 17:07
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: binäre logistische Regression - Optimale Methode?

Beitragvon bele » So 13. Sep 2015, 22:01

Bei Dummies ist das so. Bei einer Gruppe werden alle Dummys auf Null gesetzt, für jede andere Gruppe gibt es einen Dummy, der jeweils auf 1 gesetzt wird. Liegt in der Natur der Sache: Eine Gruppe ist immer die Referenzgruppe. Wenn das mit dieser Erinnerung noch nicht klar ist, dann nochmal das Kapitel über Dummy-Variablen durchlesen!

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5908
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1396 mal in 1382 Posts

Re: binäre logistische Regression - Optimale Methode?

Beitragvon strukturmarionette » So 13. Sep 2015, 23:35

Hi,

Es ist von Interesse, wie der typische Käufer dieses Produktes charakterisiert werden kann

- viell Diskriminanzanalye

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4352
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron