Hallo,
ich hoffe, mir kann jemand helfen. Eigentlich ist das Problem ganz einfach: Ich habe eine binäre Responsvariable Y, für die in echten Randomstichproben aus der Population Y=0 einen Anteil von 98% hat. Trotzdem würde ich aus diversen Gründen gerne eine bin. log. Reg. rechnen. Da ich aber bei der Situation sowieso mit der Vorhersage Y=0 eine Genauigkeit von 98% bekomme, schafft das Modell demgegenüber kaum eine Verbesserung der Vorhersagegauigkeit. Das kann man so nur schwer berichten. Weil ich im Prinzip Massen von Daten zur Verfügung habe, habe ich daher nun eine Stichprobe gebaut, in der Y=1 und Y=0 gleich häufig sind (jeweils innerhalb der beiden Strata aber wieder zufällig gesamplet). Damit bekomme ich passable Ergebnisse weil meine Prädiktorvariablen eben in den 98% (mit Y=0) ganz anders verteilt sind als in den 2% (mit Y=1)... Genau das will ich zeigen. Ich weiß eben nur nicht, ob so ein Sampling bei der BLR zulässig ist. Vor allem müsste ich wissen, wo es steht, dass das zulässig ist (falls es das denn ist), damit ich mein Paper nicht sofort wieder als unpublizierbar zurückbekomme.
Alternativ bräuchte ich ein anderes Verfahren, das ich hier nehmen kann. Unter den Prädiktoren sind allerdings neben nominalen auch ordinal und intervall-skalierte...
Ich hoffe, das war versändlich... und freue mich über Meinungen und Hinweise
Ralf