第四篇 數(shù)據(jù)概括性的度量

利用數(shù)據(jù)的圖表展示數(shù)據(jù)荔烧,可以對數(shù)據(jù)的分布形狀和特征有一個大致的了解得封。但是要全面的把握數(shù)據(jù)的分布特征同廉,還需要找到反映數(shù)據(jù)分布特征的各個代表值仪糖。數(shù)據(jù)分布的特征可以從三個方面進行測度和描述:一是分布的集中趨勢,反映各數(shù)據(jù)的向其中心的靠攏或者集聚的程度迫肖;二是分布的離散程度锅劝,反映數(shù)據(jù)遠離其中心值的趨勢;三是分布的形狀蟆湖,反映數(shù)據(jù)分布的偏態(tài)和豐臺故爵,這三個方面反映了數(shù)據(jù)分布的額不同側(cè)面。本篇把重點放在討論特征值的計算方法隅津、特點及應(yīng)用場合诬垂。

1集中趨勢的度量

集中趨勢(central tendency) 是指一組數(shù)據(jù)向某一中心值靠攏的程度劲室,它反映了一組數(shù)據(jù)中心點的位置所在。

低層次數(shù)據(jù)的凈重去試測度適用于高層次的測量數(shù)據(jù)剥纷;反過來痹籍,高層次的數(shù)據(jù)的集中趨勢測度并不適用于低層次數(shù)據(jù)的測量。因此晦鞋,選用哪一個測度至來反映數(shù)據(jù)的集中蓄勢蹲缠,要根據(jù)所掌握的數(shù)據(jù)類型和特點來確定。

分類數(shù)據(jù):眾數(shù)(mode)

眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值悠垛,用M0表示眾數(shù)主要用于測度分類數(shù)據(jù)的集中趨勢线定,當(dāng)然也適用于作為順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)集中趨勢的測度般情況下确买,只有在數(shù)據(jù)量較大的情況下斤讥,眾數(shù)才有意義。眾數(shù)是一個位置代表值湾趾,他不受數(shù)據(jù)中極端值的影響芭商。從分布的角度看,眾數(shù)是具有明顯集中趨勢的點的數(shù)值搀缠,一組數(shù)據(jù)分布的最高峰點所對應(yīng)的數(shù)值即為眾數(shù)铛楣。當(dāng)然,如果數(shù)據(jù)的分布沒有明顯的集中趨勢或最高的峰點艺普,眾數(shù)也有可能不存在簸州;如果有兩個或多個最高峰點,也可以有兩個或多個眾數(shù)歧譬。眾數(shù)示意圖如下:


眾數(shù)示意圖

?順序數(shù)據(jù):中位數(shù)(median)和分位數(shù)

在一組數(shù)據(jù)中岸浑,可以找出在某個位置上的數(shù)據(jù),這些位置上的數(shù)據(jù)就是相應(yīng)的分位數(shù)瑰步,其中包括中位數(shù)矢洲、四分位數(shù)、十分位數(shù)缩焦、百分位數(shù)等读虏。

中位數(shù)(median)是一組數(shù)據(jù)排序后位于中間位置上的變量值,用M0.

根據(jù)為分組的數(shù)據(jù)計算中位數(shù)時舌界,要先對數(shù)據(jù)進行排序,然后確定中位數(shù)的位置泰演。


中位數(shù)位置確定公式

數(shù)值型數(shù)據(jù):平均數(shù)(mean)

平均數(shù)在統(tǒng)計學(xué)中有著重要的地位呻拌,是集中趨勢的最主要的測度至,它主要適用于數(shù)值型數(shù)據(jù)睦焕,而不適用于分類數(shù)據(jù)和順序數(shù)據(jù)藐握。從統(tǒng)計思想上看靴拱,平均數(shù)是一組數(shù)據(jù)的中心所在,是數(shù)據(jù)誤差相互抵消后的必然結(jié)果猾普。利用平均數(shù)抵消誤差袜炕,反映出事物必然性的數(shù)量特征。

根據(jù)所掌握數(shù)據(jù)的不同初家,平均數(shù)有不同的計算形勢和計算公式偎窘。

簡單平均數(shù)(simple mean)和加權(quán)平均數(shù)(weighted mean)

幾何平均數(shù)(geometric mean)

幾何平均數(shù)適用于特殊的數(shù)據(jù)的一種平均數(shù),它主要用于計算平均比率溜在。當(dāng)所掌握數(shù)據(jù)本身是比率形式時陌知,選用。


幾何平均數(shù)

眾數(shù)掖肋、中位數(shù)和平均數(shù)的比較

眾數(shù)是一組數(shù)據(jù)的峰值仆葡,不受極端值的影響。其缺點是具有不唯一性志笼,一組數(shù)據(jù)可能有兩個或多個中暑沿盅,也可能沒有眾數(shù)。中暑中已有在數(shù)據(jù)量較多時才有意義纫溃,當(dāng)數(shù)據(jù)量較少時腰涧,不宜使用眾數(shù)。眾數(shù)重要適合作為分類數(shù)據(jù)的集中趨勢的測度值皇耗。

中位數(shù)是一組數(shù)據(jù)中間位置上的代表值南窗,不受極端數(shù)值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時郎楼,使用中位數(shù)也許是一個較好的選擇万伤。中位數(shù)速重要適合作為順序數(shù)據(jù)的集中趨勢的測度。

平均數(shù)主要是針對數(shù)值型數(shù)據(jù)計算的呜袁,而且利用了全部數(shù)據(jù)信息敌买,他是實際應(yīng)用最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布或者接近對稱分布時阶界,3各代表值相等或接近相等虹钮,這時則應(yīng)選擇平均數(shù)據(jù)作為集中趨勢的代表值。但平均數(shù)的主要缺點是一首數(shù)據(jù)極端值的影響膘融,對與偏態(tài)分布的數(shù)據(jù)芙粱,平均數(shù)代表性較差。因此氧映,當(dāng)數(shù)據(jù)為偏態(tài)分布時春畔,特別是偏斜程度較大時,可以考慮中位數(shù)或眾數(shù),這時他們的代表性好于平均數(shù)律姨。

2離散程度的度量

數(shù)據(jù)的離散程度是數(shù)據(jù)分布的一個重要特征振峻,它反映的是各個變量遠離其中心的程度。數(shù)據(jù)離散程度越大择份,集中趨勢的測度值對該組數(shù)據(jù)的代表性就越差扣孟;離散程度越小,代表性就越好荣赶。描述數(shù)據(jù)離散程度采用的測度值凤价,根據(jù)數(shù)據(jù)類型的不同主要有異眾比率、四分位差讯壶、方差和標(biāo)準(zhǔn)差料仗。此外,還有極差伏蚊、品均差以及測度相對離散程度的系數(shù)等立轧。

分類數(shù)據(jù):異眾比率(variation ratio)

異眾比率是指非中數(shù)組的頻數(shù)占總頻數(shù)的比率。其計算公式為:


異眾比率公式

異眾比率主要衡量眾數(shù)對一組數(shù)的代表程度躏吊。異種比率越大氛改,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差比伏;異眾比率越小胜卤,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好赁项。異眾比率主要適合測度分類輸?shù)碾x散程度葛躏,當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算異眾比率悠菜。

順序數(shù)據(jù):四分位差(quartile deviation)

四分位差也稱為內(nèi)距或四分間(inter quartile)它是上四分位數(shù)與下四分衛(wèi)數(shù)只差舰攒,用


四分位差的計算公式

四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小悔醋,說明中間的數(shù)據(jù)越集中摩窃;其數(shù)值越大,說明中間的數(shù)據(jù)越分散芬骄。四分位差不受極值的影響猾愿。此外,由于中位數(shù)處于數(shù)據(jù)的中間位置账阻,因此蒂秘,四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表成都。四分衛(wèi)差主要用于測度順序數(shù)據(jù)的離散程度淘太。對于數(shù)值型數(shù)據(jù)也可以計算四分位差姻僧,但它不適合分類數(shù)據(jù)观挎。

數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差

測度數(shù)值型數(shù)據(jù)離散程度的方法主要有極差、平均差和標(biāo)準(zhǔn)差段化,其中最常用的是方差和標(biāo)準(zhǔn)差。

極差(range):一組數(shù)據(jù)的最大值與最小值之差造成,也稱為全局显熏,用R表示


極差計算公式

極差是描述數(shù)據(jù)離散程度最簡單測度值,計算簡單晒屎,易于理解喘蟆,但是它容易受到極端值的影響,且不能反映中間數(shù)據(jù)的分散狀況鼓鲁,因而不能準(zhǔn)確表述數(shù)據(jù)的分散程度蕴轨。

平均差(mean deviation

平均差也稱為為絕對離差(mean absolute deviation)它是各變量值與其平均數(shù)離差絕對值的平均數(shù)。

?

平均差計算公式

平均差以平均數(shù)為中心骇吭,反映了每個數(shù)據(jù)與平平局?jǐn)?shù)的差異程度橙弱,他能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散狀況。平均差越大燥狰,說明數(shù)據(jù)離散程度越大棘脐;反之說明離散程度越小。龙致。蛀缝。。為了避免離差之和等與零而無法計算目代,平均差在計算時取了絕對值屈梁。以離差的絕對值來表示總離差就給計算帶來了不變,但平均差的實際意義比較清楚榛了,容易理解在讶。

方差(variance)和標(biāo)準(zhǔn)差(standard deviation

方差是各變量值與其平均數(shù)離差平方的平均數(shù),方差開方后得到標(biāo)準(zhǔn)差忽冻。與方差不同的是真朗,標(biāo)準(zhǔn)差是有量綱的。


方差和標(biāo)準(zhǔn)差計算公式

相對位置的度量

有了平均數(shù)和標(biāo)準(zhǔn)差之后僧诚,可以計算一組數(shù)據(jù)中各個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)遮婶,以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并且可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù)湖笨。

標(biāo)準(zhǔn)分?jǐn)?shù)(standard score)是變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值旗扑。也稱為標(biāo)準(zhǔn)化值或z的分?jǐn)?shù)。設(shè)標(biāo)準(zhǔn)分?jǐn)?shù)為z慈省,則有


標(biāo)準(zhǔn)分?jǐn)?shù)

標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中個數(shù)值的相對位置臀防。比如,某個熟知的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差袱衷。而上式就是我們常用的統(tǒng)計標(biāo)準(zhǔn)化公式捎废,在對多個具有不同量綱的變量進行處理時,常常去要對變量進行標(biāo)準(zhǔn)化處理致燥。


標(biāo)準(zhǔn)分?jǐn)?shù)應(yīng)用案例

標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0登疗、標(biāo)準(zhǔn)差為1的特性。實際上嫌蚤,z分?jǐn)?shù)只是將原始數(shù)據(jù)進行了線性變換辐益,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的為孩子,也沒有改變該組數(shù)據(jù)的分布形狀脱吱,而只是將改組數(shù)據(jù)變?yōu)槠骄鶖?shù)為0智政、標(biāo)準(zhǔn)差為1.

經(jīng)驗法則

當(dāng)一組數(shù)據(jù)對稱分布時,經(jīng)驗法則表明:


切比雪夫不等式

經(jīng)驗法則適合對稱分布的數(shù)據(jù)箱蝠。如果一組數(shù)據(jù)不是對稱分布续捂,經(jīng)驗法則就不再使用,這時可以使用切比雪夫不等式(Chebyshevs inequality),它對任何形狀的數(shù)據(jù)都適用宦搬。切比雪夫不等式提供的是“下屆”疾忍,也就是“所占比例至少是多少”,對與任意分布形態(tài)的數(shù)據(jù)床三,根據(jù)切比雪夫不等式一罩,


切比雪夫不等式數(shù)據(jù)分布

相對離散程度:離散系數(shù)

方差和標(biāo)準(zhǔn)差是反映數(shù)據(jù)分散程度的絕對值,其對數(shù)值的大小一方面受原變量值本身水平高低的影響撇簿,也就是與變量的平均數(shù)大小有關(guān)聂渊,變量值絕對水平搞的,離散程度的測度值自然也就大四瘫,絕對水平低的離散程度的測度至自然也就泻核浴;另一方面找蜜,它們與原變量值的計量單位相同饼暑,采用不同計量單位計量的變量值,其離散程度的測量值也就不同洗做。因此弓叛,對于其品均水平不同或計量單位不同組別的變量值,是不能用標(biāo)準(zhǔn)差直接比較離散程度的诚纸。為了消除變量水平高低和計量單位的不同對離散程度測度值的影響撰筷,需要計算離散系數(shù)。

離散系數(shù)也稱為變異系數(shù)(coefficient of variation),它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比畦徘。其計算公式為:


離散系數(shù)或變異系數(shù)

3偏態(tài)與峰態(tài)的度量

偏態(tài)(skewness)它是對數(shù)據(jù)對稱性的測度毕籽。測量偏態(tài)的統(tǒng)計糧食偏態(tài)細數(shù)(coefficient of skewness)抬闯,記作SK.

偏態(tài)數(shù)據(jù)計算方法有很多。在根據(jù)為分組數(shù)據(jù)計算偏態(tài)系數(shù)時关筒,通常采用下面公式:


偏態(tài)

峰態(tài)及其測度


尖峰分布與平峰分布示意圖

根據(jù)分組數(shù)據(jù)計算峰態(tài)系數(shù)是用離差的四次方的平均數(shù)在除以標(biāo)準(zhǔn)差的四次防溶握,其計算公式為:


峰態(tài)



數(shù)據(jù)分布特征與使用的統(tǒng)計描述




最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蒸播,隨后出現(xiàn)的幾起案子奈虾,更是在濱河造成了極大的恐慌,老刑警劉巖廉赔,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異匾鸥,居然都是意外死亡蜡塌,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門勿负,熙熙樓的掌柜王于貴愁眉苦臉地迎上來馏艾,“玉大人,你說我怎么就攤上這事奴愉±拍Γ” “怎么了?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵锭硼,是天一觀的道長房资。 經(jīng)常有香客問我,道長檀头,這世上最難降的妖魔是什么轰异? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮暑始,結(jié)果婚禮上搭独,老公的妹妹穿的比我還像新娘。我一直安慰自己廊镜,他們只是感情好牙肝,可當(dāng)我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嗤朴,像睡著了一般配椭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雹姊,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天颂郎,我揣著相機與錄音,去河邊找鬼容为。 笑死乓序,一個胖子當(dāng)著我的面吹牛寺酪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播替劈,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼寄雀,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了陨献?” 一聲冷哼從身側(cè)響起盒犹,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎眨业,沒想到半個月后急膀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡龄捡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年卓嫂,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片聘殖。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡晨雳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出奸腺,到底是詐尸還是另有隱情餐禁,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布突照,位于F島的核電站帮非,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏讹蘑。R本人自食惡果不足惜喜鼓,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望衔肢。 院中可真熱鬧庄岖,春花似錦、人聲如沸角骤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽邦尊。三九已至背桐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蝉揍,已是汗流浹背链峭。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留又沾,地道東北人弊仪。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓熙卡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親励饵。 傳聞我的和親對象是個殘疾皇子驳癌,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1. 簡述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究兩個或兩個以上變量之間關(guān)系的方法役听。 廣義上說...
    安也也閱讀 8,670評論 0 3
  • 《數(shù)據(jù)分析的統(tǒng)計基礎(chǔ)》的讀書筆記 作 者:經(jīng)管之家颓鲜、曹正鳳 出版社:電子工業(yè)出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,501評論 1 58
  • 數(shù)據(jù)的分布特征可以用柱形圖、折線圖或餅圖等各種圖表直觀地進行展現(xiàn)典予。反映數(shù)據(jù)的分布特征的代表值甜滨,通常用集中趨勢、離散...
    李小夭閱讀 3,412評論 9 4
  • 山繞坡斜瘤袖,車行低速衣摩,盤旋百轉(zhuǎn)簸顛。遍山篁筱翠孽椰,瀑流掛崖間。日高口干尋解渴凛篙,一掬酣飲黍匾,沁透心田。上層巔呛梆,縱覽...
    海1619閱讀 278評論 0 8
  • 一旦放棄锐涯,就覺得什么都無關(guān)緊要,也再不會受到傷害了填物。 愛與恨的天平失去了平衡纹腌,因為盛著愛的那邊太輕,所以反面的恨才...
    EstherVan閱讀 204評論 0 1