猿學(xué)-數(shù)據(jù)特征分析(統(tǒng)計量分析)

對于成功的數(shù)據(jù)分析而言臂拓,把握數(shù)據(jù)整體的性質(zhì)是至關(guān)重要的疆拘,使用統(tǒng)計量來檢查數(shù)據(jù)特征攀细,主要是檢查數(shù)據(jù)的集中程度羊苟、離散程度和分布形狀塑陵,通過這些統(tǒng)計量可以識別數(shù)據(jù)集整體上的一些重要性質(zhì),對后續(xù)的數(shù)據(jù)分析蜡励,有很大的參考作用令花。

一,基本統(tǒng)計量

用于描述數(shù)據(jù)的基本統(tǒng)計量主要分為三類凉倚,分別是中心趨勢統(tǒng)計量兼都、散布程度統(tǒng)計量和分布形狀統(tǒng)計量。

1稽寒,中心趨勢統(tǒng)計量

中心趨勢統(tǒng)計量是指表示位置的統(tǒng)計量扮碧,直觀地說,給定一個屬性杏糙,它的值大部分落在何處慎王?

(1)均值

均值(mean)又稱算數(shù)平均數(shù),描述數(shù)據(jù)去指導(dǎo)額平均位置宏侍,數(shù)學(xué)表達式:均值 =? ∑x? /? n赖淤;

有時,一組數(shù)據(jù)中的每個值可以和一個權(quán)重Wi相關(guān)聯(lián)谅河,權(quán)重反映的的是依附值的重要性或出現(xiàn)的頻率咱旱,這種均值稱作加權(quán)均值 =? ∑xw? /? n;

盡管均值是描述數(shù)據(jù)集中心趨勢的最有用的統(tǒng)計量绷耍,但是吐限,它并非總是度量數(shù)據(jù)中心的最佳方法,這是因為锨天,均值對極端值(離群點)很敏感毯盈。為了抵消少數(shù)極端值的影響,我們可以使用截尾均值病袄,截尾均值是指丟棄極端值后的均值搂赋。

(2)中位數(shù)

對于傾斜(非對稱)的數(shù)據(jù),能夠更好地描述數(shù)據(jù)中心的統(tǒng)計量是中位數(shù)(median)益缠,中位數(shù)是有序數(shù)據(jù)值的中間值脑奠,中位數(shù)可避免極端數(shù)據(jù),代表這數(shù)據(jù)總體的中等情況幅慌。例如:從小到大排序宋欺,總數(shù)是奇數(shù),取中間的數(shù),總數(shù)是偶數(shù)齿诞,取中間兩個數(shù)的平均數(shù)酸休。

(3)眾數(shù)

眾數(shù)(mode)是變量中出現(xiàn)頻率最大的值,通常用于對定性數(shù)據(jù)確定眾數(shù)祷杈,例如:用戶狀態(tài)(正常斑司,欠費停機,申請停機但汞,拆機宿刮、消號),該變量的眾數(shù)是 “正乘嚼伲” 則是正常的僵缺。

2,表示數(shù)據(jù)離散程度的統(tǒng)計量

度量數(shù)據(jù)離散程度的統(tǒng)計量主要是標(biāo)準(zhǔn)差和四分位極差踩叭。

(1)標(biāo)準(zhǔn)差(或方差)

標(biāo)準(zhǔn)差用于度量數(shù)據(jù)分布的離散程度磕潮,低標(biāo)準(zhǔn)差意味著數(shù)據(jù)觀測趨向于靠近均值,高標(biāo)準(zhǔn)差表示數(shù)據(jù)散步在一個大的值域中懊纳。

(2)四分位極差

極差(range)揉抵,也稱作值域,是一組數(shù)據(jù)中的最大值和最小值的差嗤疯, range = Max - Min冤今。

百分位數(shù)(quantile)是把數(shù)據(jù)值按照從小到大的順序排列,把數(shù)據(jù)分成100份茂缚。中位數(shù)是數(shù)據(jù)的中間位置上的數(shù)據(jù)戏罢,第一個四分位數(shù)記作Q1,是指第25個百分位上的數(shù)據(jù)脚囊,第三個四分位數(shù)記作(Q3)龟糕,是指第75個百分位上的數(shù)據(jù)。

四分位極差(IQR)= Q3 - Q1 悔耘,IQR是指第一個四分位和第三個四分位之間的距離讲岁,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍,是表示數(shù)據(jù)離散程度的一個簡單度量衬以。

3缓艳,表示分布形狀的統(tǒng)計量

分布形狀使用偏度系數(shù)和峰度系數(shù)來度量,

偏度是用于衡量數(shù)據(jù)分布對稱性的統(tǒng)計量:通過對偏度系數(shù)的測量看峻,我們能夠判定數(shù)據(jù)分布的不對稱程度以及方向阶淘。

對于正態(tài)分布(或嚴格對稱分布)偏度等于0

若偏度為負,?則x均值左側(cè)的離散度比右側(cè)強互妓;

若偏度為正溪窒,?則x均值左側(cè)的離散度比右側(cè)弱坤塞;

峰度是用于衡量數(shù)據(jù)分布陡峭或平滑的統(tǒng)計量,通過對峰度系數(shù)的測量澈蚌,我們能夠判定數(shù)據(jù)分布相對于正態(tài)分布而言是更陡峭還是平緩摹芙。

正態(tài)分布的峰度為3,

當(dāng)時間序列的曲線峰值比正態(tài)分布的高時惜浅,峰度大于3瘫辩;

當(dāng)比正態(tài)分布的低時,峰度小于3坛悉。

(1)偏度系數(shù)

偏度系數(shù)反映數(shù)據(jù)分布偏移中心位置的程度,記為SK承绸,則有?SK= (均值一中位數(shù))/標(biāo)準(zhǔn)差裸影。偏度系數(shù)是描述分布偏離對稱性程度的一個特征數(shù)。

正態(tài)分布的偏度為0军熏,偏度<0稱分布具有負偏離(左偏態(tài))轩猩,此時數(shù)據(jù)位于均值左邊的位于右邊的多,有個尾巴拖到左邊荡澎,說明左邊有極端值均践,偏度>0稱分布具有正偏離(右偏態(tài))。偏度接近如于0 摩幔,可認為分布對稱彤委。例如:知道分布有可能在偏度上偏離正態(tài)分布,則可用偏度來檢驗分布的正態(tài)性或衡。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大焦影。

(2)峰度系數(shù)

峰度系數(shù)(Kurtosis)用來度量數(shù)據(jù)在中心聚集程度,記為K封断,描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計量(與正態(tài)分布比較,斯辰,就是正態(tài)分布的峰頂)。

例如:正態(tài)分布的峰度系數(shù)值是3坡疼,K>3的峰度系數(shù)說明觀察量更集中彬呻,有比正態(tài)分布更短的尾部;K<3的峰度系數(shù)說明觀測量不那么集中柄瑰,有比正態(tài)分布更長的尾部闸氮。

峰度系數(shù)公式是:

示例,本文使用vcd包中的Arthritis數(shù)據(jù)集來演示如何進行統(tǒng)計量分析:

head(Arthritis)

? ID Treatment? Sex Age Improved57Treated Male27? ? Some46Treated Male29? ? None77Treated Male30? ? None17Treated Male32? Marked36Treated Male46? Marked23Treated Male58Marked

其中變量Improved和Sex是因子類型狱意,ID和Age是數(shù)值類型湖苞。

二,集中趨勢度量

集中趨勢通過均值详囤、中位數(shù)和眾數(shù)來度量财骨。

1镐作,均值

均值是所有數(shù)據(jù)的平均值,使用mean()函數(shù)來計算向量的均值:

age.mean <- mean(Arthritis$Age)

有時隆箩,為了反映在均值中不同成分所占的權(quán)重该贾,為數(shù)據(jù)中的每個元素Xi?賦予一個權(quán)重Wi,這樣就得到了加權(quán)平均值捌臊,使用weighted.mean(x,w)來計算加權(quán)平均值杨蛋。

weighted.mean(x,w)

x為數(shù)據(jù)向量,w為權(quán)重向量理澎,x中每一個元素都對應(yīng)w中的一個權(quán)重值逞力。

根據(jù)Sex來設(shè)置權(quán)重(weight),男性的Age的權(quán)重為95%糠爬,女性的Age的權(quán)重為105%寇荧,那么得到的加權(quán)平均值是:

age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)

age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)

如果數(shù)據(jù)中存在極端值或者數(shù)據(jù)是偏態(tài)分布的,那么均值就不能很好地度量數(shù)據(jù)的集中趨勢执隧,為了消除少數(shù)極端值的影響揩抡,可以使用截斷均值或者中位數(shù)來度量數(shù)據(jù)的集中趨勢。截斷均值是指去掉極端值之后的平均值镀琉。

2峦嗤,中位數(shù)

中位數(shù)是把一組觀察值從小到大按順序排列,位于中間的那個數(shù)據(jù)屋摔。使用median(x)計算中位數(shù)烁设。

age.median <- median(Arthritis$Age)

3,眾數(shù)

眾數(shù)是指數(shù)據(jù)集中出現(xiàn)最頻繁的值凡壤,眾數(shù)常用于定性數(shù)據(jù)署尤。R沒有標(biāo)準(zhǔn)的內(nèi)置函數(shù)來計算眾數(shù),因此亚侠,我們將創(chuàng)建一個用戶自定義函數(shù)來計算數(shù)據(jù)集的眾數(shù)曹体。

該函數(shù)以向量作為輸入,以眾數(shù)值作為輸出硝烂。

getmode <-function(v) {? uniqv <- unique(v)

? uniqv[which.max(tabulate(match(v, uniqv)))]

}

三箕别,離中趨勢度量

衡量離中趨勢的四個度量值:

值域(Range)的計算公式:Range?= Max - Min

標(biāo)準(zhǔn)差:度量數(shù)據(jù)偏離均值的程度

變異系數(shù)(CV):變異系數(shù)度量標(biāo)準(zhǔn)差相對于均值的離中趨勢,計算公式是:CV=標(biāo)準(zhǔn)差/均值

四分位數(shù)間距(IQR)是上四分位數(shù)QU和下四分位數(shù)QL之差滞谢,其間包含全部觀察值的一般串稀,其值越大,說明數(shù)據(jù)的變異程度越大狮杨,離中趨勢越明顯母截。

?查看Arthritis數(shù)據(jù)集的離中趨勢:

get_stat <-function(v){? v.mean <-mean(v)? v.median <-median(v)? v.range <- max(v)-min(v)? v.sd <-sd(v)? v.cv <- v.sd/v.mean? v.iqr <-? quantile(v,0.75) - quantile(v,0.25)? d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL)

}

mystat <- get_stat(Arthritis$Age)?

四,偏度和峰度

基礎(chǔ)安裝包中沒有提供計算偏度和峰度的函數(shù)橄教,用戶可以自行添加:

mystats <- function(x, na.omit=FALSE){

? ? if (na.omit)

? ? x <- x[!is.na(x)]

? ? m <- mean(x)

? ? n <- length(x)

? ? s <- sd(x)

? ? skew <- sum((x-m)^3/s^3)/n

? ? kurt <- sum((x-m)^4/s^4)/n -3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))

}

myvars <- c("mpg","hp","wt")

sapply(mtcars[myvars], mystats)

為大家推薦一篇文章:關(guān)于偏度與峰度的一些探索清寇,引用該文中的峰度影響實驗的結(jié)論:

尾部或離群點對峰度影響為正向喘漏,且影響程度最大。而高概率區(qū)對峰度影響也為正向华烟,但是比較少翩迈;而山腰位置,中等概率區(qū)域則影響為負向盔夜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末负饲,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子喂链,更是在濱河造成了極大的恐慌返十,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椭微,死亡現(xiàn)場離奇詭異吧慢,居然都是意外死亡,警方通過查閱死者的電腦和手機赏表,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來匈仗,“玉大人瓢剿,你說我怎么就攤上這事∮菩” “怎么了间狂?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長火架。 經(jīng)常有香客問我鉴象,道長,這世上最難降的妖魔是什么何鸡? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任纺弊,我火速辦了婚禮,結(jié)果婚禮上骡男,老公的妹妹穿的比我還像新娘淆游。我一直安慰自己,他們只是感情好隔盛,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吮炕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪龙亲。 梳的紋絲不亂的頭發(fā)上悍抑,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機與錄音捆姜,去河邊找鬼传趾。 笑死,一個胖子當(dāng)著我的面吹牛浆兰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播簸呈,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼店茶!你這毒婦竟也來了蜕便?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贩幻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后族壳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡仿荆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年坏平,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舶替。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖坎穿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情玲昧,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布吕漂,位于F島的核電站尘应,受9級特大地震影響惶凝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜苍鲜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望洒疚。 院中可真熱鬧坯屿,春花似錦油湖、人聲如沸领跛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至矢棚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間幻妓,已是汗流浹背劫拢。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留舱沧,地道東北人妹沙。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像熟吏,于是被迫代替她去往敵國和親距糖。 傳聞我的和親對象是個殘疾皇子牵寺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容