Logistische Regression - Problem mit einer Variablen

Alle Verfahren der Regressionanalyse.

Logistische Regression - Problem mit einer Variablen

Beitragvon luigivandetti » Sa 5. Dez 2020, 12:33

Hallo zusammen,

ich versuche mich gerade an einer Funktion, die mir die Wahrscheinlichkeit wiedergibt, dass ein Kunde kauft oder nicht (y) - n ≈ 1.000. Dazu nehme ich drei Variablen: Einmal eine für die Zahlungsbereitschaft der Kunden (x1), eine für die Wertigkeit des Produktes (x2) und eine für den Verkaufspreis (x3). Nun ist es so, dass wenn ich jede Variable einzeln per einfacher Regression untersuche, ich für Zahlungsbereitschaft und Wertigkeit sinnvolle Zusammenhänge zur Verkaufswahrscheinlichkeit erkennen kann (y steigt, wenn x1 oder x2 steigt). Nicht hingegen für den Preis x3 - da verläuft die Funktion fast waagerecht. Der Koeffizient b liegt also um die 0, die Konstante a bei 0,5. Das wird durch den vorhandenen Datensatz so dargestellt - gut und schön - dennoch muss die Konstante ≈ 1 sein, denn wenn der Preis 0 ist, wird der Kunde mit an Sicherheit grenzender Wahrscheinlichkeit kaufen. Das lässt sich im einfachen Modell mit einer Variablen auch erzwingen, in dem ich lediglich den Koeffizienten b schätze. Wie kann ich dies denn im Rahmen der logistischen Regression modellieren?

Das Problem kommt dann auch auf wenn ich versuche, alle drei Variablen im Rahmen der logistischen Regression einzubinden. Nutze ich nur x1 und x2 für meine logistische Regression, bekomme ich durch die Anwendung der Maximum-Likelihood-Methode ein wunderbares Modell zu Stande, was die Wahrscheinlichkeiten korrekt abbildet. Nehme ich aber den Preis hinzu, erhalte ich (bislang) kein Modell, was die Wahrscheinlichkeiten korrekt wiedergibt. Es muss aber eine Abhängigkeit vom Preis existieren.

Habt Ihr einen Tipp, wie ich das Problem lösen kann?
luigivandetti
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 5. Dez 2020, 11:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Logistische Regression - Problem mit einer Variablen

Beitragvon bele » Sa 5. Dez 2020, 15:01

Hallo Luigi,


luigivandetti hat geschrieben:, denn wenn der Preis 0 ist, wird der Kunde mit an Sicherheit grenzender Wahrscheinlichkeit kaufen.

Dazu zwei Gedanken:
ERSTENS kann ich mir ganz viele Dinge denken, die ich nicht geschenkt haben wollen würde und Ich kaufe zum Beispiel kein Werkzeug, wenn es mir zu billig erscheint, weil ich mich in der Vergangenheit zu oft über zu billiges Werkzeug geärgert habe. Meine Frau weigert sich Fleisch zu kaufen, wenn es zu billig ist, weil Sie dann schlechte Tierhaltung unterstellt. Ob so etwas in Deinen Daten eine Rolle spielen kann musst Du sehr kritisch hinterfragen.
ZWEITENS: Kam so eine Situation bei der Datenerhebung vor? Du kannst von einem linearen Modell nicht erwarten, dass es weit abseits der Basis der erhobenen Daten präzise vorhersagt. Wenn Du keine Preise von Null oder nahe Null erhoben hast, dann muss sich die Regression daran nicht halten.
Ein anderer Punkt zur Datenbasis: Kann es sein, dass Du kaufkraftige nur zu teueren und wenig kaufkräftige nur zu billigen Produkten befragt hast? Zuallererst musst Du über die Datenerhebung und welche Verzerrungen dabei aufgetreten sein können nachdenken, dann erst darfst Du Dich schlauer finden als Deine Daten.

Das lässt sich im einfachen Modell mit einer Variablen auch erzwingen, in dem ich lediglich den Koeffizienten b schätze. Wie kann ich dies denn im Rahmen der logistischen Regression modellieren? [...]

Es muss aber eine Abhängigkeit vom Preis existieren.


Du möchtest gerne Vorwissen über einzelne Parameter in das Modell einbringen, etwa dass die Konstante nahe bei Null sein muss oder dass Du schon vor der Regression weißt, in welchen Größenordnungen sich der Koeffizient für den Preis bewegen kann. Das ist das Kerngebiet der Bayes Statistik. In der Bayes-Statistik bleibt das Prinzip der logistischen Regression genau gleich, du kannst aber für Einzelne oder alle Koeffizienten und den Intercept Vorgaben machen, in welcher Höhe die zu erwarten sind und wie überzeugt Du davon bist. Statt mit Maximum Likelihood Estimation findest Du die Regressionsgleichung dann mit Markov Chain Monte Carlo. Das braucht dann etwas mehr Rechenzeit, aber auch nicht mehr als eine Tasse Kaffee.
Wenn Du Deine Regressionen in R rechnest geht das mit dem Paket rstanarm sehr komfortabel und sehr ähnliche wie die "normale" logistische Regression. Zu SPSS, Stata und SAS kann ich nichts sagen, das findet man aber bestimmt über Google. Ich vermute mal, am einfachsten wäre es in JASP, hab das aber noch nicht ausprobiert.

Du musst Dir aber bewusst sein, dass es zu einem schlechten Fit führt, wenn Du Modellvorgaben machst, die zu den Daten gar nicht passen wollen. Deshalb erst wie oben kritisch hinterfragen, ob Deine Annahmen für das genaue Untersuchungsdesign wirklich zutreffen müssen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5913
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1398 mal in 1384 Posts

Re: Logistische Regression - Problem mit einer Variablen

Beitragvon luigivandetti » Sa 5. Dez 2020, 17:30

Hallo Bernhard,

danke für deine Antwort. Deine Argumentation bzgl. des Preises teile ich vollkommen. Mein Datensatz ist allerdings aus dem B2B-Bereich - hätte ich dazu sagen müssen. Da kann man schon von ausgehen, dass die Wahrscheinlichkeit bei 1 liegt, wenn der Preis = 0. Das Problem ist, dass es nicht vorkam. Daher habe ich darüber nachgedacht, meinen Datensatz einfach zu kopieren und die Kopie mit in die Daten einzubinden, allerdings dann den Preis überall mit 0 zu beziffern und y mit 1. So könnte ich den Effekt des Preises mehr gewichten. Ich aktuell jedoch nicht abschätzen, welche Nachteile dadurch entstehen.

Tatsächlich ist es umgedreht - ich habe deutlich weniger Angebote im hochpreisigen Bereich als im niedrigpreisigen Bereich.

Das mit der Bayes Statistik in ein guter Tipp - und eine Tasse Kaffee mehr nehme ich auch gerne mit ;) Danke! Probiere ich aus.
luigivandetti
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Sa 5. Dez 2020, 11:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron