ich mache derzeit eine logistische Regressionsanalyse und habe eine binäre Zielvariable, die bei einem Stichprobenumfang von n = 327 (0: 68mal; 1: 259mal) eine Balance von 79,2% zu 20,8% zugunsten der Ausprägung "1" hat.
Ich habe davon gehört, dass eine extreme Ungleichheit der Ausprägungen und/oder eine sehr kleine Stichprobe unter Umständen zu Problemen führen kann. Weiß jemand, ob dieses Verhältnis bei mir noch unbedenklich ist oder weiß jemand, wie ich das überprüfen bzw. wie ich evtl. diese Unbalance korrigieren kann (gibt ja Methoden wie Oversampling und so; evtl auch in R)?
Ich habe in R z.B. mal diese Oversampling-Methode probiert, aber angeblich findet R die Funktion "downSample" und "upSample" nicht. Wo liegt der Fehler? (Info: V_1.3 ist meine binäre Zielvariable)
- Code: Alles auswählen
install.packages("ROSE")
install.packages("trajectories")
library(ROSE)
library(trajectories)
#Read data filelibrary(caret)
mydata <- read.spss("C:\\Users\\Stefan\\Documents\\Uni Düsseldorf\\Bachelorarbeit\\Datensatz\\ManagementControlSystems_Fassung für Gerk.sav", to.data.frame=TRUE)
table(mydata$V_1.3)
#In the program below, we are keeping all the events and same number of non-events.
#OverSampling - 50:50
mydata$V_1.3 = as.factor(mydata$V_1.3)
set.seed(9)
down_train <- downsample(x = subset(mydata, select = -c(dataSELECT$V_1.3)), y = mydata$V_1.3, yname = "admit")
table(down_train$V_1.3)
Vielen Dank und viele Grüße
Stefan