Hallo liebe Community,
Ich schreibe derzeit meine Masterarbeit im Marketingbereich. Die Arbeit ist sehr empirisch und bewegt sich im Bereich Direktmarketing/Customer Relation Marketing/Database Marketing. Der Datensatz der mir vorliegt ist ziemlich speziell. Meine abhängige Variable ist binär (0 oder 1. bzw. Reagierer und Nicht-Reagierer) und ich habe eine riesige Auswahl an unabhängigen Variablen. Das Problem aber ist, dass die Verteilung der Reagierer und Nicht-Reagierer ziemlich unausgeglichen ist (99,7% reagieren nicht). Damit fällt die normale logistische Regression schon einmal raus. Ich habe ein Paper gefunden, welches die ReLogit (Rare Events Logit) Methode vorschlägt. Weiterhin habe ich mich in künstliche neuronale Netze eingelesen, aber auch hier sehe ich das Problem der unausgeglichenen Verteilung, weil das Netz mit 99,7%iger Wahrscheinlichkeit einfach eine 0 vorschlagen müsste und damit schon ziemlich gut liegen würde.
Mein Hauptproblem ist also eine Methode zu finden, welche die seltenen Einsen gut prognostizieren kann. Habt Ihr da evtl. eine Idee?
LG
Sascha