Wie auch bei den anderen einfachen Statistik- und Aggregationsfunktionen wie sum, mean, var können mit dem Parameter na.rm=TRUE die fehlenden Werte ignoriert werden. Andernfalls geben diese Funktionen NA zurück, wenn nur einer der Werte NA ist.
Der Median ist ziemlich robust gegenüber Ausreißern (siehe Beispiel) und ist daher in Datensätzen mit Ausreißern zu bevorzugen. Wer mehr wissen will, schaut mal in den Wikipedia-Artikel zum Median.
Mathematisch ist der Median auch definiert für nicht-numerische ordinale Variablen, also für Variablen, die zwar geordnet werden können, aber eben keine Zahlen sind. Unklar ist aber, welcher Wert bei einer geraden Anzahl an Werten der Median ist, es kann ja kein arithmetisches Mittel gebildet werden. Es wird dann je nach Definition der Ober- oder Untermedian verwendet. Das ist aber in Standard-R nicht umgesetzt, dafür benötigt ihr das Package DescTools. Achtung: In dem Package ist die Funktion Median() großgeschrieben. Im Beispiel-Code seht ihr die Anwendung.
Beispiel-Code für median
#ungerade Anzahl an Elementen median(1:3) #[1] 2 #gerade Anzahl an Elementen median(1:10) #[1] 5.5 # Robustheit gegenüber Ausreißern set.seed(5) x <- c(rnorm(100),500:510) range(x) #[1] -2.183967 510.000000 mean(x) #[1] 50.07355 median(x) #[1] -0.02408287 #für ordinale Variablen #einmalige Installation #install.packages("DescTools") library(DescTools) buchstaben <- as.factor(c("a","b","c","d","e")) buchstaben <- as.ordered(buchstaben) #[1] a b c d e #Levels: a < b < c < d < e #für ungerade Anzahl Median(buchstaben) #[1] c #Levels: a < b < c < d < e buchstaben <- as.factor(c("b","c","d","e")) buchstaben <- as.ordered(buchstaben) #für gerade Anzahl wird eine Warnung ausgegeben, dass der untere Median(buchstaben) #[1] c #Levels: b < c < d < e #Warning message: # In Median.factor(buchstaben) : # Median is between two values; using the first one
LERNE DATA SCIENCE mit R
Ein Data Science Experte ist in der heutigen datengetriebenen Welt viel gefragt. Mit der entsprechenden Erfahrung kann man sich den gutbezahlten, interessanten Job aussuchen. In meinem Onlinekurs Data Science mit R lernst Du die Grundlagen.