Hallo zusammen,
ich habe in meinem Datensatz eine zentrale Variable (zurückgelegte Distanz in Metern), die ich als Kennwert für die körperliche Leistungsfähigkeit nutzen möchte. Diese zurückgelegte Distanz konnte aber aufgrund knapper personeller Ressourcen nicht immer gemessen werden, sodass ich in meinem Datensatz (N = 179) auf der Variable fehlende Werte für insgesamt 37 Personen habe. Die Missings sind aber eben zufällig zustande gekommen. Ich würde die Variable gerne als Prädiktor in einer logistischen Regression nutzen. Kann ich das auf Basis der vollständigen Fälle tun oder muss ich fehlende Werte imputieren? Und wie sinnvoll ist es, den Mittelwert oder Median der Stichpronbe als Ersatz zu nutzen?
In der Regression sind auch weitere Prädiktoren enthalten, auf denen es keine oder nur 1-2 Missings gibt. Wenn ich mein Modell ohne Imputation spezifiziere, werden die NAs von R einfach ignoriert? Oder rechnet R automatisch mit einer kleineren Stichprobe. Sorry, für die blöde Frage. Ich habe mir den Kopf sehr lange darüber zerbrochen und sehe gerade den Wald vor lauter Bäumen nicht mehr...
Liebe Grüße
mjane23