利用數(shù)據(jù)的圖表展示數(shù)據(jù)荔烧,可以對數(shù)據(jù)的分布形狀和特征有一個大致的了解得封。但是要全面的把握數(shù)據(jù)的分布特征同廉,還需要找到反映數(shù)據(jù)分布特征的各個代表值仪糖。數(shù)據(jù)分布的特征可以從三個方面進行測度和描述:一是分布的集中趨勢,反映各數(shù)據(jù)的向其中心的靠攏或者集聚的程度迫肖;二是分布的離散程度锅劝,反映數(shù)據(jù)遠離其中心值的趨勢;三是分布的形狀蟆湖,反映數(shù)據(jù)分布的偏態(tài)和豐臺故爵,這三個方面反映了數(shù)據(jù)分布的額不同側(cè)面。本篇把重點放在討論特征值的計算方法隅津、特點及應(yīng)用場合诬垂。
1集中趨勢的度量
集中趨勢(central tendency) 是指一組數(shù)據(jù)向某一中心值靠攏的程度劲室,它反映了一組數(shù)據(jù)中心點的位置所在。
低層次數(shù)據(jù)的凈重去試測度適用于高層次的測量數(shù)據(jù)剥纷;反過來痹籍,高層次的數(shù)據(jù)的集中趨勢測度并不適用于低層次數(shù)據(jù)的測量。因此晦鞋,選用哪一個測度至來反映數(shù)據(jù)的集中蓄勢蹲缠,要根據(jù)所掌握的數(shù)據(jù)類型和特點來確定。
分類數(shù)據(jù):眾數(shù)(mode)
眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值悠垛,用M0表示眾數(shù)主要用于測度分類數(shù)據(jù)的集中趨勢线定,當(dāng)然也適用于作為順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)集中趨勢的測度。一般情況下确买,只有在數(shù)據(jù)量較大的情況下斤讥,眾數(shù)才有意義。眾數(shù)是一個位置代表值湾趾,他不受數(shù)據(jù)中極端值的影響芭商。從分布的角度看,眾數(shù)是具有明顯集中趨勢的點的數(shù)值搀缠,一組數(shù)據(jù)分布的最高峰點所對應(yīng)的數(shù)值即為眾數(shù)铛楣。當(dāng)然,如果數(shù)據(jù)的分布沒有明顯的集中趨勢或最高的峰點艺普,眾數(shù)也有可能不存在簸州;如果有兩個或多個最高峰點,也可以有兩個或多個眾數(shù)歧譬。眾數(shù)示意圖如下:
?順序數(shù)據(jù):中位數(shù)(median)和分位數(shù)
在一組數(shù)據(jù)中岸浑,可以找出在某個位置上的數(shù)據(jù),這些位置上的數(shù)據(jù)就是相應(yīng)的分位數(shù)瑰步,其中包括中位數(shù)矢洲、四分位數(shù)、十分位數(shù)缩焦、百分位數(shù)等读虏。
中位數(shù)(median)是一組數(shù)據(jù)排序后位于中間位置上的變量值,用M0.
根據(jù)為分組的數(shù)據(jù)計算中位數(shù)時舌界,要先對數(shù)據(jù)進行排序,然后確定中位數(shù)的位置泰演。
數(shù)值型數(shù)據(jù):平均數(shù)(mean)
平均數(shù)在統(tǒng)計學(xué)中有著重要的地位呻拌,是集中趨勢的最主要的測度至,它主要適用于數(shù)值型數(shù)據(jù)睦焕,而不適用于分類數(shù)據(jù)和順序數(shù)據(jù)藐握。從統(tǒng)計思想上看靴拱,平均數(shù)是一組數(shù)據(jù)的中心所在,是數(shù)據(jù)誤差相互抵消后的必然結(jié)果猾普。利用平均數(shù)抵消誤差袜炕,反映出事物必然性的數(shù)量特征。
根據(jù)所掌握數(shù)據(jù)的不同初家,平均數(shù)有不同的計算形勢和計算公式偎窘。
簡單平均數(shù)(simple mean)和加權(quán)平均數(shù)(weighted mean)
幾何平均數(shù)(geometric mean)
幾何平均數(shù)適用于特殊的數(shù)據(jù)的一種平均數(shù),它主要用于計算平均比率溜在。當(dāng)所掌握數(shù)據(jù)本身是比率形式時陌知,選用。
眾數(shù)掖肋、中位數(shù)和平均數(shù)的比較
眾數(shù)是一組數(shù)據(jù)的峰值仆葡,不受極端值的影響。其缺點是具有不唯一性志笼,一組數(shù)據(jù)可能有兩個或多個中暑沿盅,也可能沒有眾數(shù)。中暑中已有在數(shù)據(jù)量較多時才有意義纫溃,當(dāng)數(shù)據(jù)量較少時腰涧,不宜使用眾數(shù)。眾數(shù)重要適合作為分類數(shù)據(jù)的集中趨勢的測度值皇耗。
中位數(shù)是一組數(shù)據(jù)中間位置上的代表值南窗,不受極端數(shù)值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時郎楼,使用中位數(shù)也許是一個較好的選擇万伤。中位數(shù)速重要適合作為順序數(shù)據(jù)的集中趨勢的測度。
平均數(shù)主要是針對數(shù)值型數(shù)據(jù)計算的呜袁,而且利用了全部數(shù)據(jù)信息敌买,他是實際應(yīng)用最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布或者接近對稱分布時阶界,3各代表值相等或接近相等虹钮,這時則應(yīng)選擇平均數(shù)據(jù)作為集中趨勢的代表值。但平均數(shù)的主要缺點是一首數(shù)據(jù)極端值的影響膘融,對與偏態(tài)分布的數(shù)據(jù)芙粱,平均數(shù)代表性較差。因此氧映,當(dāng)數(shù)據(jù)為偏態(tài)分布時春畔,特別是偏斜程度較大時,可以考慮中位數(shù)或眾數(shù),這時他們的代表性好于平均數(shù)律姨。
2離散程度的度量
數(shù)據(jù)的離散程度是數(shù)據(jù)分布的一個重要特征振峻,它反映的是各個變量遠離其中心的程度。數(shù)據(jù)離散程度越大择份,集中趨勢的測度值對該組數(shù)據(jù)的代表性就越差扣孟;離散程度越小,代表性就越好荣赶。描述數(shù)據(jù)離散程度采用的測度值凤价,根據(jù)數(shù)據(jù)類型的不同主要有異眾比率、四分位差讯壶、方差和標(biāo)準(zhǔn)差料仗。此外,還有極差伏蚊、品均差以及測度相對離散程度的系數(shù)等立轧。
分類數(shù)據(jù):異眾比率(variation ratio)
異眾比率是指非中數(shù)組的頻數(shù)占總頻數(shù)的比率。其計算公式為:
異眾比率主要衡量眾數(shù)對一組數(shù)的代表程度躏吊。異種比率越大氛改,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差比伏;異眾比率越小胜卤,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好赁项。異眾比率主要適合測度分類輸?shù)碾x散程度葛躏,當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算異眾比率悠菜。
順序數(shù)據(jù):四分位差(quartile deviation)
四分位差也稱為內(nèi)距或四分間(inter quartile)它是上四分位數(shù)與下四分衛(wèi)數(shù)只差舰攒,用
四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小悔醋,說明中間的數(shù)據(jù)越集中摩窃;其數(shù)值越大,說明中間的數(shù)據(jù)越分散芬骄。四分位差不受極值的影響猾愿。此外,由于中位數(shù)處于數(shù)據(jù)的中間位置账阻,因此蒂秘,四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表成都。四分衛(wèi)差主要用于測度順序數(shù)據(jù)的離散程度淘太。對于數(shù)值型數(shù)據(jù)也可以計算四分位差姻僧,但它不適合分類數(shù)據(jù)观挎。
數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差
測度數(shù)值型數(shù)據(jù)離散程度的方法主要有極差、平均差和標(biāo)準(zhǔn)差段化,其中最常用的是方差和標(biāo)準(zhǔn)差。
極差(range):一組數(shù)據(jù)的最大值與最小值之差造成,也稱為全局显熏,用R表示
極差是描述數(shù)據(jù)離散程度最簡單測度值,計算簡單晒屎,易于理解喘蟆,但是它容易受到極端值的影響,且不能反映中間數(shù)據(jù)的分散狀況鼓鲁,因而不能準(zhǔn)確表述數(shù)據(jù)的分散程度蕴轨。
平均差(mean deviation)
平均差也稱為為絕對離差(mean absolute deviation)它是各變量值與其平均數(shù)離差絕對值的平均數(shù)。
?
平均差以平均數(shù)為中心骇吭,反映了每個數(shù)據(jù)與平平局?jǐn)?shù)的差異程度橙弱,他能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散狀況。平均差越大燥狰,說明數(shù)據(jù)離散程度越大棘脐;反之說明離散程度越小。龙致。蛀缝。。為了避免離差之和等與零而無法計算目代,平均差在計算時取了絕對值屈梁。以離差的絕對值來表示總離差就給計算帶來了不變,但平均差的實際意義比較清楚榛了,容易理解在讶。
方差(variance)和標(biāo)準(zhǔn)差(standard deviation)
方差是各變量值與其平均數(shù)離差平方的平均數(shù),方差開方后得到標(biāo)準(zhǔn)差忽冻。與方差不同的是真朗,標(biāo)準(zhǔn)差是有量綱的。
相對位置的度量
有了平均數(shù)和標(biāo)準(zhǔn)差之后僧诚,可以計算一組數(shù)據(jù)中各個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)遮婶,以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并且可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù)湖笨。
標(biāo)準(zhǔn)分?jǐn)?shù)(standard score)是變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值旗扑。也稱為標(biāo)準(zhǔn)化值或z的分?jǐn)?shù)。設(shè)標(biāo)準(zhǔn)分?jǐn)?shù)為z慈省,則有
標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中個數(shù)值的相對位置臀防。比如,某個熟知的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差袱衷。而上式就是我們常用的統(tǒng)計標(biāo)準(zhǔn)化公式捎废,在對多個具有不同量綱的變量進行處理時,常常去要對變量進行標(biāo)準(zhǔn)化處理致燥。
標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0登疗、標(biāo)準(zhǔn)差為1的特性。實際上嫌蚤,z分?jǐn)?shù)只是將原始數(shù)據(jù)進行了線性變換辐益,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的為孩子,也沒有改變該組數(shù)據(jù)的分布形狀脱吱,而只是將改組數(shù)據(jù)變?yōu)槠骄鶖?shù)為0智政、標(biāo)準(zhǔn)差為1.
經(jīng)驗法則
當(dāng)一組數(shù)據(jù)對稱分布時,經(jīng)驗法則表明:
切比雪夫不等式
經(jīng)驗法則適合對稱分布的數(shù)據(jù)箱蝠。如果一組數(shù)據(jù)不是對稱分布续捂,經(jīng)驗法則就不再使用,這時可以使用切比雪夫不等式(Chebyshev’s inequality),它對任何形狀的數(shù)據(jù)都適用宦搬。切比雪夫不等式提供的是“下屆”疾忍,也就是“所占比例至少是多少”,對與任意分布形態(tài)的數(shù)據(jù)床三,根據(jù)切比雪夫不等式一罩,
相對離散程度:離散系數(shù)
方差和標(biāo)準(zhǔn)差是反映數(shù)據(jù)分散程度的絕對值,其對數(shù)值的大小一方面受原變量值本身水平高低的影響撇簿,也就是與變量的平均數(shù)大小有關(guān)聂渊,變量值絕對水平搞的,離散程度的測度值自然也就大四瘫,絕對水平低的離散程度的測度至自然也就泻核浴;另一方面找蜜,它們與原變量值的計量單位相同饼暑,采用不同計量單位計量的變量值,其離散程度的測量值也就不同洗做。因此弓叛,對于其品均水平不同或計量單位不同組別的變量值,是不能用標(biāo)準(zhǔn)差直接比較離散程度的诚纸。為了消除變量水平高低和計量單位的不同對離散程度測度值的影響撰筷,需要計算離散系數(shù)。
離散系數(shù)也稱為變異系數(shù)(coefficient of variation),它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比畦徘。其計算公式為:
3偏態(tài)與峰態(tài)的度量
偏態(tài)(skewness)它是對數(shù)據(jù)對稱性的測度毕籽。測量偏態(tài)的統(tǒng)計糧食偏態(tài)細數(shù)(coefficient of skewness)抬闯,記作SK.
偏態(tài)數(shù)據(jù)計算方法有很多。在根據(jù)為分組數(shù)據(jù)計算偏態(tài)系數(shù)時关筒,通常采用下面公式:
峰態(tài)及其測度
根據(jù)分組數(shù)據(jù)計算峰態(tài)系數(shù)是用離差的四次方的平均數(shù)在除以標(biāo)準(zhǔn)差的四次防溶握,其計算公式為: