Hallo zusammen,
ich versuche mich gerade an einer Funktion, die mir die Wahrscheinlichkeit wiedergibt, dass ein Kunde kauft oder nicht (y) - n ≈ 1.000. Dazu nehme ich drei Variablen: Einmal eine für die Zahlungsbereitschaft der Kunden (x1), eine für die Wertigkeit des Produktes (x2) und eine für den Verkaufspreis (x3). Nun ist es so, dass wenn ich jede Variable einzeln per einfacher Regression untersuche, ich für Zahlungsbereitschaft und Wertigkeit sinnvolle Zusammenhänge zur Verkaufswahrscheinlichkeit erkennen kann (y steigt, wenn x1 oder x2 steigt). Nicht hingegen für den Preis x3 - da verläuft die Funktion fast waagerecht. Der Koeffizient b liegt also um die 0, die Konstante a bei 0,5. Das wird durch den vorhandenen Datensatz so dargestellt - gut und schön - dennoch muss die Konstante ≈ 1 sein, denn wenn der Preis 0 ist, wird der Kunde mit an Sicherheit grenzender Wahrscheinlichkeit kaufen. Das lässt sich im einfachen Modell mit einer Variablen auch erzwingen, in dem ich lediglich den Koeffizienten b schätze. Wie kann ich dies denn im Rahmen der logistischen Regression modellieren?
Das Problem kommt dann auch auf wenn ich versuche, alle drei Variablen im Rahmen der logistischen Regression einzubinden. Nutze ich nur x1 und x2 für meine logistische Regression, bekomme ich durch die Anwendung der Maximum-Likelihood-Methode ein wunderbares Modell zu Stande, was die Wahrscheinlichkeiten korrekt abbildet. Nehme ich aber den Preis hinzu, erhalte ich (bislang) kein Modell, was die Wahrscheinlichkeiten korrekt wiedergibt. Es muss aber eine Abhängigkeit vom Preis existieren.
Habt Ihr einen Tipp, wie ich das Problem lösen kann?