對于成功的數(shù)據(jù)分析而言臂拓,把握數(shù)據(jù)整體的性質(zhì)是至關(guān)重要的疆拘,使用統(tǒng)計量來檢查數(shù)據(jù)特征攀细,主要是檢查數(shù)據(jù)的集中程度羊苟、離散程度和分布形狀塑陵,通過這些統(tǒng)計量可以識別數(shù)據(jù)集整體上的一些重要性質(zhì),對后續(xù)的數(shù)據(jù)分析蜡励,有很大的參考作用令花。
一,基本統(tǒng)計量
用于描述數(shù)據(jù)的基本統(tǒng)計量主要分為三類凉倚,分別是中心趨勢統(tǒng)計量兼都、散布程度統(tǒng)計量和分布形狀統(tǒng)計量。
1稽寒,中心趨勢統(tǒng)計量
中心趨勢統(tǒng)計量是指表示位置的統(tǒng)計量扮碧,直觀地說,給定一個屬性杏糙,它的值大部分落在何處慎王?
(1)均值
均值(mean)又稱算數(shù)平均數(shù),描述數(shù)據(jù)去指導(dǎo)額平均位置宏侍,數(shù)學(xué)表達式:均值 =? ∑x? /? n赖淤;
有時,一組數(shù)據(jù)中的每個值可以和一個權(quán)重Wi相關(guān)聯(lián)谅河,權(quán)重反映的的是依附值的重要性或出現(xiàn)的頻率咱旱,這種均值稱作加權(quán)均值 =? ∑xw? /? n;
盡管均值是描述數(shù)據(jù)集中心趨勢的最有用的統(tǒng)計量绷耍,但是吐限,它并非總是度量數(shù)據(jù)中心的最佳方法,這是因為锨天,均值對極端值(離群點)很敏感毯盈。為了抵消少數(shù)極端值的影響,我們可以使用截尾均值病袄,截尾均值是指丟棄極端值后的均值搂赋。
(2)中位數(shù)
對于傾斜(非對稱)的數(shù)據(jù),能夠更好地描述數(shù)據(jù)中心的統(tǒng)計量是中位數(shù)(median)益缠,中位數(shù)是有序數(shù)據(jù)值的中間值脑奠,中位數(shù)可避免極端數(shù)據(jù),代表這數(shù)據(jù)總體的中等情況幅慌。例如:從小到大排序宋欺,總數(shù)是奇數(shù),取中間的數(shù),總數(shù)是偶數(shù)齿诞,取中間兩個數(shù)的平均數(shù)酸休。
(3)眾數(shù)
眾數(shù)(mode)是變量中出現(xiàn)頻率最大的值,通常用于對定性數(shù)據(jù)確定眾數(shù)祷杈,例如:用戶狀態(tài)(正常斑司,欠費停機,申請停機但汞,拆機宿刮、消號),該變量的眾數(shù)是 “正乘嚼伲” 則是正常的僵缺。
2,表示數(shù)據(jù)離散程度的統(tǒng)計量
度量數(shù)據(jù)離散程度的統(tǒng)計量主要是標(biāo)準(zhǔn)差和四分位極差踩叭。
(1)標(biāo)準(zhǔn)差(或方差)
標(biāo)準(zhǔn)差用于度量數(shù)據(jù)分布的離散程度磕潮,低標(biāo)準(zhǔn)差意味著數(shù)據(jù)觀測趨向于靠近均值,高標(biāo)準(zhǔn)差表示數(shù)據(jù)散步在一個大的值域中懊纳。
(2)四分位極差
極差(range)揉抵,也稱作值域,是一組數(shù)據(jù)中的最大值和最小值的差嗤疯, range = Max - Min冤今。
百分位數(shù)(quantile)是把數(shù)據(jù)值按照從小到大的順序排列,把數(shù)據(jù)分成100份茂缚。中位數(shù)是數(shù)據(jù)的中間位置上的數(shù)據(jù)戏罢,第一個四分位數(shù)記作Q1,是指第25個百分位上的數(shù)據(jù)脚囊,第三個四分位數(shù)記作(Q3)龟糕,是指第75個百分位上的數(shù)據(jù)。
四分位極差(IQR)= Q3 - Q1 悔耘,IQR是指第一個四分位和第三個四分位之間的距離讲岁,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍,是表示數(shù)據(jù)離散程度的一個簡單度量衬以。
3缓艳,表示分布形狀的統(tǒng)計量
分布形狀使用偏度系數(shù)和峰度系數(shù)來度量,
偏度是用于衡量數(shù)據(jù)分布對稱性的統(tǒng)計量:通過對偏度系數(shù)的測量看峻,我們能夠判定數(shù)據(jù)分布的不對稱程度以及方向阶淘。
對于正態(tài)分布(或嚴格對稱分布)偏度等于0
若偏度為負,?則x均值左側(cè)的離散度比右側(cè)強互妓;
若偏度為正溪窒,?則x均值左側(cè)的離散度比右側(cè)弱坤塞;
峰度是用于衡量數(shù)據(jù)分布陡峭或平滑的統(tǒng)計量,通過對峰度系數(shù)的測量澈蚌,我們能夠判定數(shù)據(jù)分布相對于正態(tài)分布而言是更陡峭還是平緩摹芙。
正態(tài)分布的峰度為3,
當(dāng)時間序列的曲線峰值比正態(tài)分布的高時惜浅,峰度大于3瘫辩;
當(dāng)比正態(tài)分布的低時,峰度小于3坛悉。
(1)偏度系數(shù)
偏度系數(shù)反映數(shù)據(jù)分布偏移中心位置的程度,記為SK承绸,則有?SK= (均值一中位數(shù))/標(biāo)準(zhǔn)差裸影。偏度系數(shù)是描述分布偏離對稱性程度的一個特征數(shù)。
正態(tài)分布的偏度為0军熏,偏度<0稱分布具有負偏離(左偏態(tài))轩猩,此時數(shù)據(jù)位于均值左邊的位于右邊的多,有個尾巴拖到左邊荡澎,說明左邊有極端值均践,偏度>0稱分布具有正偏離(右偏態(tài))。偏度接近如于0 摩幔,可認為分布對稱彤委。例如:知道分布有可能在偏度上偏離正態(tài)分布,則可用偏度來檢驗分布的正態(tài)性或衡。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大焦影。
(2)峰度系數(shù)
峰度系數(shù)(Kurtosis)用來度量數(shù)據(jù)在中心聚集程度,記為K封断,描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計量(與正態(tài)分布比較,斯辰,就是正態(tài)分布的峰頂)。
例如:正態(tài)分布的峰度系數(shù)值是3坡疼,K>3的峰度系數(shù)說明觀察量更集中彬呻,有比正態(tài)分布更短的尾部;K<3的峰度系數(shù)說明觀測量不那么集中柄瑰,有比正態(tài)分布更長的尾部闸氮。
峰度系數(shù)公式是:
示例,本文使用vcd包中的Arthritis數(shù)據(jù)集來演示如何進行統(tǒng)計量分析:
head(Arthritis)
? ID Treatment? Sex Age Improved57Treated Male27? ? Some46Treated Male29? ? None77Treated Male30? ? None17Treated Male32? Marked36Treated Male46? Marked23Treated Male58Marked
其中變量Improved和Sex是因子類型狱意,ID和Age是數(shù)值類型湖苞。
二,集中趨勢度量
集中趨勢通過均值详囤、中位數(shù)和眾數(shù)來度量财骨。
1镐作,均值
均值是所有數(shù)據(jù)的平均值,使用mean()函數(shù)來計算向量的均值:
age.mean <- mean(Arthritis$Age)
有時隆箩,為了反映在均值中不同成分所占的權(quán)重该贾,為數(shù)據(jù)中的每個元素Xi?賦予一個權(quán)重Wi,這樣就得到了加權(quán)平均值捌臊,使用weighted.mean(x,w)來計算加權(quán)平均值杨蛋。
weighted.mean(x,w)
x為數(shù)據(jù)向量,w為權(quán)重向量理澎,x中每一個元素都對應(yīng)w中的一個權(quán)重值逞力。
根據(jù)Sex來設(shè)置權(quán)重(weight),男性的Age的權(quán)重為95%糠爬,女性的Age的權(quán)重為105%寇荧,那么得到的加權(quán)平均值是:
age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)
age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)
如果數(shù)據(jù)中存在極端值或者數(shù)據(jù)是偏態(tài)分布的,那么均值就不能很好地度量數(shù)據(jù)的集中趨勢执隧,為了消除少數(shù)極端值的影響揩抡,可以使用截斷均值或者中位數(shù)來度量數(shù)據(jù)的集中趨勢。截斷均值是指去掉極端值之后的平均值镀琉。
2峦嗤,中位數(shù)
中位數(shù)是把一組觀察值從小到大按順序排列,位于中間的那個數(shù)據(jù)屋摔。使用median(x)計算中位數(shù)烁设。
age.median <- median(Arthritis$Age)
3,眾數(shù)
眾數(shù)是指數(shù)據(jù)集中出現(xiàn)最頻繁的值凡壤,眾數(shù)常用于定性數(shù)據(jù)署尤。R沒有標(biāo)準(zhǔn)的內(nèi)置函數(shù)來計算眾數(shù),因此亚侠,我們將創(chuàng)建一個用戶自定義函數(shù)來計算數(shù)據(jù)集的眾數(shù)曹体。
該函數(shù)以向量作為輸入,以眾數(shù)值作為輸出硝烂。
getmode <-function(v) {? uniqv <- unique(v)
? uniqv[which.max(tabulate(match(v, uniqv)))]
}
三箕别,離中趨勢度量
衡量離中趨勢的四個度量值:
值域(Range)的計算公式:Range?= Max - Min
標(biāo)準(zhǔn)差:度量數(shù)據(jù)偏離均值的程度
變異系數(shù)(CV):變異系數(shù)度量標(biāo)準(zhǔn)差相對于均值的離中趨勢,計算公式是:CV=標(biāo)準(zhǔn)差/均值
四分位數(shù)間距(IQR)是上四分位數(shù)QU和下四分位數(shù)QL之差滞谢,其間包含全部觀察值的一般串稀,其值越大,說明數(shù)據(jù)的變異程度越大狮杨,離中趨勢越明顯母截。
?查看Arthritis數(shù)據(jù)集的離中趨勢:
get_stat <-function(v){? v.mean <-mean(v)? v.median <-median(v)? v.range <- max(v)-min(v)? v.sd <-sd(v)? v.cv <- v.sd/v.mean? v.iqr <-? quantile(v,0.75) - quantile(v,0.25)? d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL)
}
mystat <- get_stat(Arthritis$Age)?
四,偏度和峰度
基礎(chǔ)安裝包中沒有提供計算偏度和峰度的函數(shù)橄教,用戶可以自行添加:
mystats <- function(x, na.omit=FALSE){
? ? if (na.omit)
? ? x <- x[!is.na(x)]
? ? m <- mean(x)
? ? n <- length(x)
? ? s <- sd(x)
? ? skew <- sum((x-m)^3/s^3)/n
? ? kurt <- sum((x-m)^4/s^4)/n -3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
}
myvars <- c("mpg","hp","wt")
sapply(mtcars[myvars], mystats)
為大家推薦一篇文章:關(guān)于偏度與峰度的一些探索清寇,引用該文中的峰度影響實驗的結(jié)論:
尾部或離群點對峰度影響為正向喘漏,且影響程度最大。而高概率區(qū)對峰度影響也為正向华烟,但是比較少翩迈;而山腰位置,中等概率區(qū)域則影響為負向盔夜。