STATISTIK-FORUM.de

Dohans · von **Dohans** » Fr 18. Mai 2012, 21:57

Hallo,
ich hoffe, mir kann jemand helfen. Eigentlich ist das Problem ganz einfach: Ich habe eine binäre Responsvariable Y, für die in echten Randomstichproben aus der Population Y=0 einen Anteil von 98% hat. Trotzdem würde ich aus diversen Gründen gerne eine bin. log. Reg. rechnen. Da ich aber bei der Situation sowieso mit der Vorhersage Y=0 eine Genauigkeit von 98% bekomme, schafft das Modell demgegenüber kaum eine Verbesserung der Vorhersagegauigkeit. Das kann man so nur schwer berichten. Weil ich im Prinzip Massen von Daten zur Verfügung habe, habe ich daher nun eine Stichprobe gebaut, in der Y=1 und Y=0 gleich häufig sind (jeweils innerhalb der beiden Strata aber wieder zufällig gesamplet). Damit bekomme ich passable Ergebnisse weil meine Prädiktorvariablen eben in den 98% (mit Y=0) ganz anders verteilt sind als in den 2% (mit Y=1)... Genau das will ich zeigen. Ich weiß eben nur nicht, ob so ein Sampling bei der BLR zulässig ist. Vor allem müsste ich wissen, wo es steht, dass das zulässig ist (falls es das denn ist), damit ich mein Paper nicht sofort wieder als unpublizierbar zurückbekomme.

Alternativ bräuchte ich ein anderes Verfahren, das ich hier nehmen kann. Unter den Prädiktoren sind allerdings neben nominalen auch ordinal und intervall-skalierte...

Ich hoffe, das war versändlich... und freue mich über Meinungen und Hinweise
Ralf

STATWORX · von **STATWORX** » Sa 19. Mai 2012, 15:23

Hallo Ralf,

die Generierung einer balancierten Stichprobe war eine gute Idee. Der geschätzte Intercept eines "künstlich" balancierten Modells kann einen Bias enthalten, der aber über eine Rare-Events-Correction beseitigt werden kann. Siehe hierzu: http://pan.oxfordjournals.org/content/9/2/137.abstract

Beachte, dass es im Falle einer balancierten Stichprobe auch sinnvoll sein kann die Cutoff-Probability für die Klassifikation zu variieren. Einen Eindruck davon bekommst Du, wenn Du Dir die ROC-Kurve des Classifiers anschaust.

VG
STATWORX

Sush · von **Sush** » Sa 2. Jun 2012, 16:49

Hi,

ich habe ein ähnliches Problem. Ich habe auch ein "schiefes" Sample mit 99,8% Nullen und 0,2% Einsen. Weiterhin habe ich 322 Variablen zur Verfügung und soll herausfinden, welche Variablen einen Einfluss haben könnten.
Konkret handelt es sich um ein Sample von einer Direct Mailing Aktion einer Versicherung. Meine abhängige Variable ist die Response Rate. Meine unabhängigen Variablen sind alles mögliche vom Alter der Person bis hin zu Informationen zum Gebäude.

Um das Ganze ein wenig zu reduzieren habe ich mittels Entscheidungsbäumen schon versucht trennscharfe Variablen zu identifizieren (bitte jetzt nicht über die Pros und Cons von Data Mining debattieren :-D

). Viele unabhängige Variablen sind auf einer 5er Skala gemessen, aber die Ausprägungen sind leider nicht monoton. Z.B. habe ich gemerkt, dass das Alter einen großen Einfluss hat, aber nur im Bereich von 30-60 Jahren (etwas Ähnliches habe ich zur Einstellung von Religion). Das heißt jünger und älter würden rausfallen. Damit wären Aussagen wie, je älter desto ... steigen die Odds nicht möglich. Würde es Sinn machen, hier absichtlich auf Informationen zu verzichten und die Variable kategorial zu machen, sodass die ReLogit Schätzung mir die Werte für die Dummy Variablen rausgibt?

Ich weiß, das Thema ist sehr speziell und ich habe dazu bisher kaum Literatur gefunden. Ich hoffe ihr könnt mir weiterhelfen. Ihr könnt mir auch gerne andere Tipps geben, wie ich relevante Variablen für die Response Rate identifizieren kann. Theoretische Überlegungen funktionieren hier leider nicht.

Viele, vielen Dank im Voraus
Sush

STATISTIK-FORUM.de

Bin. log. Reg. bei extrem schief verteilter Responsvariable

Bin. log. Reg. bei extrem schief verteilter Responsvariable

Re: Bin. log. Reg. bei extrem schief verteilter Responsvaria

Re: Bin. log. Reg. bei extrem schief verteilter Responsvaria

Wer ist online?