Der "wahre" Median bei NA Werten

Univariate Statistik.

Der "wahre" Median bei NA Werten

Beitragvon Leoncia » Mi 14. Jan 2015, 13:40

Hallo, bin neu hier und habe in der SuFu nichts gefunden.
Ich schreibe zur Zeit meine Bachelor Arbeit über Normalisierungsverfahren (bin aber kein Mathematiker, sondern Bioinformatiker, darum muss ich derzeit alles Statistische neu lernen).

Jetzt finde ich bei Google überhaupt keine Publikationen o.Ä. wie man den Mittelwert bei NA Werten berechnet. Ich nutze R, also mal ein Beispiel:

vector <- c(NA,NA,1,2)
median(vector) wäre nun NA. Das wäre meiner Meinung nach ein Fehler.
median(vector,na.rm=TRUE) liefert 1.5 - das ist -finde ich- die wahre Lösung.

Mein betreuender Professor meinte jetzt, ich solle doch einfach die NA's mit 0 ersetzen. Das verfremdet doch aber erst recht alle Werte?
vector <- c(0,0,1,2)
median(vector) = 0.5!!!

Nun soll ich die Median Normalisierung anwenden - also innerhalb einer Spalte den Median berechnen und alle Werte durch den Median teilen.
Das wäre doch ein riesen Unterschied, ob man vorher durch Nullen ersetzt oder die NA's removed. Wie seht ihr das? Wie berechnet man den "einzig wahren" Median richtig?

Das selbe gilt auch für den Mean, da gibt es dann auch große Unterschiede.

Danke für eure Meinungen!
Leoncia
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mi 14. Jan 2015, 13:26
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Der "wahre" Median bei NA Werten

Beitragvon bele » Mi 14. Jan 2015, 14:23

Hallo leoncia,

ob man bei Vorkommen von NA wirklich einen Median angeben kann, oder einen Mittelwert, muss man sich sachlich anhand der Quelle der NAs überlegen. Könnten die NA wirkliche Werte sein, die vielleicht auch extrem hoch oder extrem tief sein können? Dann lässt sich natürlich nichts über den Mittelwert aussagen. Sind die NAs einfach nur Dokumentationsfehler und die Werte waren wahrscheinlich ungefähr so, wie die jetzt vorliegenden verteilt, dann ist das Weglassen (na.rm oder na.omit()) wohl das angemessenere. Im Zweifel würde ich schreiben: Der Median der dokumentierten Beobachtungswerte war ...
Das impliziert dann, dass NAs nicht in die Rechnung einbezogen wurden.

Nebenbemerkung: Du hast gesehen, dass Du den Median außer über median() auch über die quantile() Funktion in R bestimmen kannst, dir Dir über das type-Argument allerlei Möglichkeiten zum Finetuning gibt?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts

folgende User möchten sich bei bele bedanken:
Leoncia

Re: Der "wahre" Median bei NA Werten

Beitragvon Leoncia » Do 15. Jan 2015, 13:06

Danke für die schnelle Antwort! Also die NA's kommen bei mir zustande, weil es sich bei den Daten um 2D-Gelelektrophorese Daten handelt. Und da sind die Protein-Spots entweder zu sehen oder eben nicht (oder zu schwach und der Computer erkennt es nicht mehr, bzw die Background Correction löscht ihn). Ich würde also sagen, dass es sich dabei um Fall 2 handelt, nämlich dass die tatsächlich vorhandenen Spots die wahre Verteilung widerspiegeln. Ich werde also einfach die NA's NA's sein lassen und gut... Mein "biologischer" Betreuer findet das auch besser so.

LG
Leoncia
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mi 14. Jan 2015, 13:26
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Der "wahre" Median bei NA Werten

Beitragvon Leoncia » Do 15. Jan 2015, 13:16

Abgesehen davon sehen die Boxplots mit NA's auch besser aus... ;)
Leoncia
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mi 14. Jan 2015, 13:26
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Der "wahre" Median bei NA Werten

Beitragvon bele » Do 15. Jan 2015, 14:57

Leoncia hat geschrieben:Abgesehen davon sehen die Boxplots mit NA's auch besser aus... ;)

Oft ist das Schöne ja auch das Wahre ;)
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5912
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1397 mal in 1383 Posts


Zurück zu Mittelwert, Standardabweichung & Co.

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron