Unbalancierte binäre Zielvariable problematisch?

Alle Verfahren der Regressionanalyse.

Unbalancierte binäre Zielvariable problematisch?

Beitragvon stefan85 » Do 13. Apr 2017, 08:35

Hallo zusammen,

ich mache derzeit eine logistische Regressionsanalyse und habe eine binäre Zielvariable, die bei einem Stichprobenumfang von n = 327 (0: 68mal; 1: 259mal) eine Balance von 79,2% zu 20,8% zugunsten der Ausprägung "1" hat.

Ich habe davon gehört, dass eine extreme Ungleichheit der Ausprägungen und/oder eine sehr kleine Stichprobe unter Umständen zu Problemen führen kann. Weiß jemand, ob dieses Verhältnis bei mir noch unbedenklich ist oder weiß jemand, wie ich das überprüfen bzw. wie ich evtl. diese Unbalance korrigieren kann (gibt ja Methoden wie Oversampling und so; evtl auch in R)?

Ich habe in R z.B. mal diese Oversampling-Methode probiert, aber angeblich findet R die Funktion "downSample" und "upSample" nicht. Wo liegt der Fehler? (Info: V_1.3 ist meine binäre Zielvariable)

Code: Alles auswählen
install.packages("ROSE")
install.packages("trajectories")
library(ROSE)
library(trajectories)

#Read data filelibrary(caret)
mydata <- read.spss("C:\\Users\\Stefan\\Documents\\Uni Düsseldorf\\Bachelorarbeit\\Datensatz\\ManagementControlSystems_Fassung für Gerk.sav", to.data.frame=TRUE)
table(mydata$V_1.3)
#In the program below, we are keeping all the events and same number of non-events.
#OverSampling - 50:50
mydata$V_1.3 = as.factor(mydata$V_1.3)
set.seed(9)
down_train <- downsample(x = subset(mydata, select = -c(dataSELECT$V_1.3)), y = mydata$V_1.3, yname = "admit")
table(down_train$V_1.3)


Vielen Dank und viele Grüße

Stefan
stefan85
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Do 13. Apr 2017, 08:25
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon strukturmarionette » Do 13. Apr 2017, 08:48

Hi,

Weiß jemand, ob dieses Verhältnis bei mir noch unbedenklich ist

- Ja.

Ich habe in R z.B. mal diese Oversampling-Methode probiert, aber angeblich findet R die Funktion "downSample" und "upSample" nicht. Wo liegt der Fehler?

http://www.r-forum.de/

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4353
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 586 mal in 583 Posts

folgende User möchten sich bei strukturmarionette bedanken:
stefan85

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon stefan85 » Do 13. Apr 2017, 09:20

Hi auch hier bei dem Thema,

bezieht sich deine erste Antwort "ja" darauf, dass du das weißt oder darauf, dass das Verhältnis tatsächlich noch unbedenklich ist ;) ?

Ich muss dazu sagen, dass ich bereits bei dem Modell eine sehr hohe Sensitivität (98%) und sehr niedrige Spezifität (2%) nachgewiesen habe, was ja glaub ich u.a. durch eine Unbalance kommen kann, da das Modell in dem Falle fast nur die Mehrheitsklasse vorhersagt.... Allerdings habe ich ähnlich extreme Werte auch bei einer Alternative, wo die Zielvariable nur im Verhältnis 2:1 unbalanciert ist....

Daher versuche ich halt rauszukriegen, ob ich da was ändern muss durch z.B. Oversampling (Undersampling ist bei n=327 ja bestimmt nicht ratsam).

Gruß,

Stefan
stefan85
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Do 13. Apr 2017, 08:25
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon PonderStibbons » Do 13. Apr 2017, 09:25

Ich habe davon gehört, dass eine extreme Ungleichheit der Ausprägungen und/oder eine sehr kleine Stichprobe unter Umständen zu Problemen führen kann.

Es geht nicht so sehr um das Verhältnis, auch wenn logistische Regression am
effizientesten ist, wenn es um die 50:50 beträgt, sondern meist darum, wieviele
Fälle dann die kleinere Gruppe umfasst. An der Zahl der Fälle in der kleineren
Gruppe orientieren sich Überlegungen zur power, Fallzahlschätzung, sinnvoller
maximaler Zahl an Prädiktoren. Nach der Faustregel von Peduzzi et al. (1996)
beträgt die maximal sinnvolle Zahl Prädiktoren bei n=68 in der kleineren
Gruppe ca. 7. Unter Umständen und je nach Rolle der Prädiktoren (z.B. erklärende
Variablen versus Kontrollvariablen, vgl. Vittinghoff & McCulloch 2007) können
es eventuell auch etwas mehr sein.

Natürlich ist es so, dass in den meisten Situationen mit sehr unbalancierten Gruppen
eine Vorhersage ganz ohne Prädiktoren bereits so viel leistet, dass das schwer zu
steigern ist (wenn die Gruppe A 90% umfasst, habe ich mit der Vorhersageregel
"alle gehören in Gruppe A" bereits eine 90%-Trefferquote). Bei Dir ist es allerdings
nicht ganz so extrem.

Mit freundlichen Grüßen

PonderStibbons

Literatur
- Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996).
A simulation study of the number of events per variable in logistic
regression analysis. Journal of Clinical Epidemiology 49:1373-1379.
- Vittinghoff E & McCulloch CE (2007). Relaxing the rule of ten events
per variable in logistic and Cox regression. American Journal of
Epidemiology 165: 710–718.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
stefan85

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon stefan85 » Do 13. Apr 2017, 09:41

Vielen Dank PonderStibbons,

vor allem auch für die Literaturtipps. Ich habe auf jeden Fall bei dem Modell eine Sensitivität von ca. 98% und eine Spezifität von ca. 2%, sodass das Modell fast ausschließlich die Mehrheitsgruppe vorhersagt (von 68 0-Ausprägungen werden nur 2 als solche vorhergesagt), was ja laut Literatur unter anderem an einer Unbalance liegen kann. Betrachtet man die Gesamttrefferquote, so liegt das Prädiktorenmodell in der Tat bei 78,90% und das Nullmodell bei den 79,20% (= Anteil der Mehrheitsgruppe), obwohl die anderen Modellgütetests das Prädiktorenmodell als das signifikant bessere erachten (Chi-Quadrat-Test).

Auch hier stellt sich die Frage: kann ich mich dann auf den Chi-Quadrat-Test auf Basis der Devianzen verlassen und das Prädiktormodell als signifikant besser bewerten? Weil im Prinzip ist das Nullmodell ja nur so treffsicher, da es immer dasselbe voraussagt und diese Ausprägung halt derartig in der Mehrheit ist.

Gruß

Stefan
stefan85
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Do 13. Apr 2017, 08:25
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon PonderStibbons » Do 13. Apr 2017, 10:13

Chi-Quadrat-Test auf Basis der Devianzen

Ich weiß leider nichht, was Du damit meinst.
und das Prädiktormodell als signifikant besser bewerten?

Das heißt, dass der Unterschied zwischen einem Modell ohne Prädiktoren
und einem mit Prädiktoren in der Grundgesamtheit, aus der die Stichprobe
stammt, nicht exakt 0,00000000... beträgt.
Weil im Prinzip ist das Nullmodell ja nur so treffsicher, da es immer dasselbe voraussagt und diese Ausprägung halt derartig in der Mehrheit ist.

Ja eben. Wobei 79% noch nicht so wahnsinnig extrem erscheint.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon stefan85 » Do 13. Apr 2017, 10:21

Chi-Quadrat-Test:
Also es gibt ja mehrere Verfahren, um die Anpassungsgüte eines Modells an die Daten zu testen, insbesondere auch ob ein Modell mit Prädiktoren signifikant besser ist als ein Modell ohne Prädiktoren. Wie etwa der Chi-Quadrat-Test (erhält man einen p-Wert < z.B. 0,05, dann ist das Prädiktorenmodell signifikant besser).

Bisher weisen meine Analysen das Prädiktorenmodell als signifikant besser aus, außer bei der Vierfeldertafel mit Beobachtung ja/nein <-> Vorhersage ja/nein, dann bekomme ich halt aufgrund der Sensitivität und Spezifität eher raus, dass das Modell fast ausschließlich die Mehrheitsgruppe vorhersagt und das Nullmodell zudem besser ist (also rein von der Trefferquote, die ja wie eben besprochen sehr fragwürdig ist).
stefan85
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Do 13. Apr 2017, 08:25
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon stefan85 » Do 13. Apr 2017, 16:03

Was mir gerade noch eingefallen ist: Ich kann bei der Vierfeldertafel ja der Überschätzung der Mehrheitsgruppe entgegenwirken, indem ich den Cutoff-Punkt von 0,5 auf 0,7 hochstufe.

Dann wäre die Vorhersage bzgl. Spezifität und Sensitivität zumindest besser. Das kann man ja im Prinzip festlegen wie man möchte bzw. wie es optimal für die Vorhersagefähigkeit ist, oder wäre das zu willkürlich?

Gruß

Stefan
stefan85
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Do 13. Apr 2017, 08:25
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Unbalancierte binäre Zielvariable problematisch?

Beitragvon PonderStibbons » Do 13. Apr 2017, 18:36

Was soll das bringen? Auf einer Glatze kannst Du keine Locken drehen. Und "Sensitivität" und "Spezifität" sind ohnedies nur marginal relevant, wenn überhaupt, für Deine Studie.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 13 Gäste

cron