STATISTIK-FORUM.de

Zahlendreher · von **Zahlendreher** » Mi 10. Aug 2011, 14:25

Hallo Zusammen,
ich arbeite gerade an einem CRM-Projekt. Nun wird im Kundenbeziehungsmanagement oft gescored – und davon will ich wegkommen, da mir das irgendwie zu willkürlich vorkommt. Gibt es für die Geschlechtsausprägung en, deren hoher Einfluss in einer multiblen logisischen Regression nachgewiesen wurde, für „männlich“ 9 und für „weiblich“ 6 Punkte oder doch nur 9 und 4? Ich glaube ihr wisst, was ich meine.
In meinen MVA-Kursen im Studium habe ich gelernt, dass man in der linearen Regression für jeden einzelnen Fall die Schätzung der Logits ausrechen kann:
Z= konstante + Regressionskoeffizient Variable 1*Ausprägung Variable 1 + …+ Regressionskoeffizient Variable n*Ausprägung Variable n (ich hab da leider die korrekte Formel nicht)
Mit z eines Falls kann man dann die Wahrscheinliche Ausprägung der AV (Kunde tätigt in den nächsten 6 Monaten einen Wiederkauf) berechnen:
P= ez/1+ ez = 1/(1+e-z)

Durch viele alte Kundendaten von Abgeschlossenen Nutzungsintervallen (ich spreche von mehreren Tausend) möchte ich allgemeingülte Werte für die Regressionskoeffizienten der Variablen berechnen. Und dann die Ausprägungen der aktuellen Fälle in die obige Gleichung einsetzen, welche mir dann die Wahrscheinlichkeit eines Wiederkaufs in 6 Monaten für jeden einzelnen Kunden angibt. Das muss man dann nur noch ranken, und schon habe ich eine Liste derer, bei denen sich Dialogmaßnahmen am meisten lohnen.
Irgendwie finde ich das überzeugender als ein Scoringsystem, was denkt ihr?

Das ganze steht vor folgendem Hintergrund:
Es geht in dem Projekt darum, den Wiederkaufszeitpunkt von Bestandskunden zu berechnen. Dabei stehen die ganzen alten Kundendaten der letzten 10 Jahre zur Verfügung, über Profildaten (Geschlecht, Alter, usw), die Nutzungsdauer (so 6-8 Jahre) bis zum Serviceverhalten. Ich habe vor, diese historischen Daten in zwei Gruppen zu teilen: von der einen Hälfte nehme ich den Datenstand wenige Monate nach dem Kauf, von der anderen Hälfte den Datenstand von 6 Monaten vor dem Wiederkauf. Somit habe ich genug echte Beobachtungen: die eine Hälfte hat eben nicht nach sechs Monaten gerebuyt (wow, was für ein Wort), die andere schon.
Ist diese Herangehensweise zulässig? Ist natürlich keine Wissenschaft, aber ich denke, lieber nehme ich die Erfahrungen aus 10000 Fällen abgeschlossenen und wende sie auf die neuen an, als ein Scoringsystem über den Daumen zu brechen.
Oder hat jemand ein alternativvorschlag, was die Methode anbelangt? Eine Zeitreihenanalyse geht leider nicht, hat mir mein Mathematikerkollege gesagt, dazu haben wir zu wenig Beobachtungspunktgspunkte pro Fall.
Bitte gerne nachfragen, falls etwas zu undeutlich ausgeführt ist!

PonderStibbons · von **PonderStibbons** » Mi 10. Aug 2011, 14:46

ich arbeite gerade an einem CRM-Projekt.

Aha. Und wofür steht das?

Ich glaube ihr wisst, was ich meine.

Man kann's allenfalls erraten.

In meinen MVA-Kursen

Aha. Und wofür steht das? - na, egal.

Zum Thema:

lieber nehme ich die Erfahrungen aus 10000 Fällen abgeschlossenen und wende sie auf die neuen an, als ein Scoringsystem über den Daumen zu brechen.

Da gibt es (mindestens) zweierlei zu beachten: ob es nicht Wechselwirkungen zwischen historischer Zeit und Vorhersagefähigkeit von Prädiktoren gibt (also ob derselbe Prädiktor vor 5 oder 10 Jahren dasselbe Gewicht hatte wie vor 1 Jahr). Und dass Du Dir einen Teil der Daten beiseite stellst, um die Treffergenauigkeit Deines logistischen Regressionsmodells zumindest an den Vergangenheitsdaten zu testen (Kreuzvalidierung). Das ist insbesondere dann ratsam, falls sehr viele Prädiktoren untersucht werden (Gefahr von overfitting und dadurch verminderte Übertragbarkeit der Ergebnisse auf "neue" Daten).

Nebenbei kannst Du ja auch noch so ein Scoringsystem über den Daumen brechen und schauen, welche Methode effektiver ist.

Gruß

P.

folgende User möchten sich bei PonderStibbons bedanken:
Zahlendreher

Zahlendreher · von **Zahlendreher** » Mi 10. Aug 2011, 16:56

Sorry wegen der unklaren Ausdrucksweise:
CRM: Customer Relationship Management, Kundenbeziehungsmanagement.
MVA: Multivariate Analysemethoden

Das Problem, auf das du hinweist, besteht durchaus: Die Kontakthistorie wollte ich auch miteinbeziehen, du die anzahl emailkontakte ist vor 10 Jahren definitiv niedriger als heute.
Bei deinem zweiter Einwand wird mir aber nicht ganz klar, was du meinst. Mein plan ist es, mit den historischen Daten ein Modell zu testen. Und dessen Regressionskoeffizienten für die einzelnen Variablen zu exportieren und auf die aktuellen Kunden anzuwenden.
Die Gütekritieren sind dann natürlich nicht auf die neuen Berechnungen übertragbar. Das Modell müsste nach einiger Zeit mit den zugefügten neuen Daten nachgerechnet werden um zu schauen, ob diese gleich bleiben.

Klar, bei der ganzen Geschichte Bestehen viele Unklarheiten. Ich bin froh, wenn ich auf so viele wie möglich hingewiesen werde.

PonderStibbons · von **PonderStibbons** » Mi 10. Aug 2011, 19:08

Wie ich mittlerweile gesehen habe, postest Du Dein Thema in verschiedene Foren gleichzeitig. Ich halte es für einen ganz schlechten Stil, Leute parallel und in Unkenntnis voneinander am selben Thema arbeiten zu lassen. Ich hoffe, Du erhälst hier keine Antworten mehr.

Zahlendreher · von **Zahlendreher** » Do 11. Aug 2011, 09:12

Entschuldigung, ich wusste nicht, das das gegen die Vorstellungen von Netiquette verstößt. Ich habe nicht absehen können, in welchem der Foren man schneller Antworten bekommt, darum bin ich zweigleisig gefahren. Obwohl ich zwar gerade sanktioniert werde, finde ich es aber trotzdem eine positive Überraschung, wie aufmerksam das Forum moderiert wird.

In dem anderen Forum habe ich folgende Antwort bekommen:

Zitat:
Irgendwie finde ich das überzeugender als ein Scoringsystem, was denkt ihr?

Scoring ist die primitivste Form der Statistik und nur deshalb im CRM weit verbreitet, weil die Heinis dort keinen blassen Schimmer haben. Die können ja nicht einmal programmieren. Allerdings ist meine Erfahrung aus Gesprächen mit Unternehmen, dass komplizierte Vorgehensweisen schnell an Akzeptanzgrenzen stoßen. Was der Bauer nicht kennt, frisst er nicht. Außerdem hat jeder Bauer Angst von seiner Kuh herausgetreten zu werden.

Dein Modell ist nicht so ganz klar. Außerdem müsste überlegt werden, mit welchem Programmpaket gearbeitet wird. SAS/SPSS/R. Manchmal wird mit Modeler oder dergleichen gearbeitet, für den Fall, dass die jung dynamischen 'Inhouse-Experts' nur mit der Maus klicken können. Das sind so die Alternativen. Die Zuordnungen werden dann von den Programmpakenten automatisch generiert, auch die Modellparameter.

Als Modelle eignen sich logistische, diskriminanzanalytische, KNN, CHAID usw.

Zitat:
Ich habe vor, diese historischen Daten in zwei Gruppen zu teilen: von der einen Hälfte nehme ich den Datenstand wenige Monate nach dem Kauf, von der anderen Hälfte den Datenstand von 6 Monaten vor dem Wiederkauf.

Eigentlich wird ein Datensatz gesplittet, um die Vorhersagen der einen Hälfte gegen die andere Hälfte zu testen. Deine Vorgehensweise ist nicht so klar.

Gruß

bele · von **bele** » Fr 12. Aug 2011, 20:41

PonderStibbons hat geschrieben:Ich hoffe, Du erhälst hier keine Antworten mehr.

Hey P. - ist das Deine persönliche Hoffnung oder die ordnende Aufforderung eines Moderators? Falls letzteres, dann sollte der Admin m. E. wirklich irgend etwas dazu in die Netiquette schreiben.

Gruß,
Bernhard

STATISTIK-FORUM.de

Logistische Regression: Fallweise Wahrscheinlichkeiten

Logistische Regression: Fallweise Wahrscheinlichkeiten

Re: Logistische Regression: Fallweise Wahrscheinlichkeiten

Re: Logistische Regression: Fallweise Wahrscheinlichkeiten

Re: Logistische Regression: Fallweise Wahrscheinlichkeiten

Re: Logistische Regression: Fallweise Wahrscheinlichkeiten

Re: Logistische Regression: Fallweise Wahrscheinlichkeiten

Wer ist online?