數(shù)據(jù)的分布描述簡單可以概括為集中趨勢变秦、離散程度以及分布形狀等
一而账、集中趨勢描述的優(yōu)劣比較
1.平均數(shù)
也稱為均值绍绘,常用的統(tǒng)計(jì)量之一
消除了觀測值的隨機(jī)波動(dòng)
易受極端值的影響
數(shù)學(xué)性質(zhì)優(yōu)良怀读,實(shí)際中最常用
數(shù)據(jù)對稱分布或接近對稱分布時(shí)代表性較好
2.中位數(shù)
排序后處于中間位置上的值绎橘。不受極端值影響
數(shù)據(jù)分布偏斜程度較大時(shí)代表性接好
3. 四分位數(shù)
排序后處于25%和75%位置上的值
不受極端值的影響
4. 眾數(shù)
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值
適合于數(shù)據(jù)量較多時(shí)使用
不受極端值的影響
具有不惟一性胁孙,一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)
數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好
二、離散程度的描述
1.極差
一組數(shù)據(jù)的最大值與最小值之差
離散程度的最簡單測度值
易受極端值影響
未考慮數(shù)據(jù)的分布
2.四分位差
也稱為內(nèi)距或四分間距
上四分位數(shù)與下四分位數(shù)之差
反映了中間50%數(shù)據(jù)的離散程度
不受極端值的影響
用于衡量中位數(shù)的代表性
3.方差與標(biāo)準(zhǔn)差
數(shù)據(jù)離散程度的最常用測度值
反映各變量值與均值的平均差異
根據(jù)總體數(shù)據(jù)計(jì)算的称鳞,稱為總體方差(標(biāo)準(zhǔn)差)
根據(jù)樣本數(shù)據(jù)計(jì)算的涮较,稱為樣本方差(標(biāo)準(zhǔn)差)
4.離差
每個(gè)觀測值與均值的差異
5.標(biāo)準(zhǔn)分?jǐn)?shù)
計(jì)算方式為(原始數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
對某一個(gè)值在一組數(shù)據(jù)中相對位置的度量
可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)
用于對變量的標(biāo)準(zhǔn)化處理
均值等于0
方差等于1
只是將原始數(shù)據(jù)進(jìn)行了線性變換,沒有改變某個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置冈止,也沒有改變該組數(shù)分布的形狀
6.離散系數(shù)
標(biāo)準(zhǔn)差與其相應(yīng)的均值之比
消除了數(shù)據(jù)水平高低和計(jì)量單位的影響
用于對不同組別數(shù)據(jù)離散程度的比較
解釋需要謹(jǐn)慎狂票,特別對于平均值趨近于0的樣本,此時(shí)敏感度較大
沒有置信區(qū)間
7.異眾比率
非眾數(shù)組的頻數(shù)占總頻數(shù)的比率
衡量眾數(shù)對一組數(shù)據(jù)的代表程度熙暴,異眾比率越高大闺属,說明非眾數(shù)組占總頻數(shù)的比重越大,眾數(shù)的代表性越差
三周霉、數(shù)據(jù)分布性狀的描述
偏態(tài)與峰態(tài)測量的是數(shù)據(jù)的形狀掂器,如是否對稱、偏斜的程度以及扁平的程度
1.偏態(tài)
測度統(tǒng)計(jì)量是偏態(tài)系數(shù)
偏態(tài)系數(shù)=0為對稱分布诗眨;>0為右偏分布唉匾;<0為左偏分布
偏態(tài)系數(shù)大于1或小于-1,為高度偏態(tài)分布
偏態(tài)系數(shù)在0.5~1或-1~-0.5之間匠楚,是中等偏態(tài)分布
偏態(tài)系數(shù)越接近0巍膘,偏斜程度就越低
2.峰態(tài)
測度統(tǒng)計(jì)量是峰態(tài)系數(shù)
峰態(tài)系數(shù)=0扁平峰度適中
峰態(tài)系數(shù)<0為扁平分布
峰態(tài)系數(shù)>0為尖峰分布