Hallo, bin neu hier und habe in der SuFu nichts gefunden.
Ich schreibe zur Zeit meine Bachelor Arbeit über Normalisierungsverfahren (bin aber kein Mathematiker, sondern Bioinformatiker, darum muss ich derzeit alles Statistische neu lernen).
Jetzt finde ich bei Google überhaupt keine Publikationen o.Ä. wie man den Mittelwert bei NA Werten berechnet. Ich nutze R, also mal ein Beispiel:
vector <- c(NA,NA,1,2)
median(vector) wäre nun NA. Das wäre meiner Meinung nach ein Fehler.
median(vector,na.rm=TRUE) liefert 1.5 - das ist -finde ich- die wahre Lösung.
Mein betreuender Professor meinte jetzt, ich solle doch einfach die NA's mit 0 ersetzen. Das verfremdet doch aber erst recht alle Werte?
vector <- c(0,0,1,2)
median(vector) = 0.5!!!
Nun soll ich die Median Normalisierung anwenden - also innerhalb einer Spalte den Median berechnen und alle Werte durch den Median teilen.
Das wäre doch ein riesen Unterschied, ob man vorher durch Nullen ersetzt oder die NA's removed. Wie seht ihr das? Wie berechnet man den "einzig wahren" Median richtig?
Das selbe gilt auch für den Mean, da gibt es dann auch große Unterschiede.
Danke für eure Meinungen!