數(shù)據(jù)的分布特征可以用柱形圖碎捺、折線圖或餅圖等各種圖表直觀地進(jìn)行展現(xiàn)。反映數(shù)據(jù)的分布特征的代表值狰晚,通常用集中趨勢、離散程度和分布形狀來描述缴啡。
在1. 當(dāng)我們在談統(tǒng)計學(xué)時壁晒,提到過數(shù)據(jù)按計量單位分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)业栅,針對這三種不同的數(shù)據(jù)類型秒咐,數(shù)據(jù)分布特征的描述也都不相同。
一碘裕、集中趨勢:數(shù)據(jù)向中心值靠攏的程度
1. 分類數(shù)據(jù)——眾數(shù):出現(xiàn)次數(shù)最多的變量值(EXCEL:MODE函數(shù))携取。
2. 順序數(shù)據(jù)——中位數(shù)和分位數(shù):中位數(shù)是指一組數(shù)據(jù)排序后在中間位置的變量值(EXCEL:MEDIAN函數(shù))。四分位數(shù)是指一組數(shù)據(jù)排序后處于25%和75%位置上的值帮孔,其實中位數(shù)就是50%位置上的值(EXCEL:QUARTILE函數(shù))雷滋。
3. 數(shù)值型數(shù)據(jù)——平均數(shù):數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)(EXCEL:AVERAGE函數(shù))。
4. 眾數(shù)文兢、中位數(shù)和平均數(shù)的比較
當(dāng)數(shù)據(jù)為偏態(tài)分布時,可以考慮選擇中位數(shù)姆坚,代表性比平均數(shù)好澳泵。舉個例子:
張村有個張千萬,九個鄰居窮光蛋旷偿。
統(tǒng)計平均算一算烹俗,各個都是張百萬爆侣。
問:如果你要去張村做生意,是賣奢侈品還是生活用品幢妄?
二兔仰、離散程度:變量值遠(yuǎn)離中心的程度
1. 分類數(shù)據(jù)——異眾比率:非眾數(shù)組的頻數(shù)的占比。占比越小蕉鸳,眾數(shù)的代表性越好乎赴。
2. 順序數(shù)據(jù)——四分位差:上四分位數(shù)與下四分位數(shù)之差。四分位差越小潮尝,集中程度越高榕吼。
3. 數(shù)值型數(shù)據(jù)——方差和標(biāo)準(zhǔn)差
(1)方差:計算公式如下,標(biāo)準(zhǔn)差為方差的平方根勉失。
分母n-1稱為自由度羹蚣。自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù),在方差公式中乱凿,首先計算的是X的平均數(shù)顽素,在X的平均數(shù)確認(rèn)后,必然有一個值不能自由取值徒蟆,能自由取值的個數(shù)就是n-1個胁出。
舉個例子,假如有三個數(shù)段审,X平均值為5全蝶,其中有兩個數(shù)分別為6和7,那么第三個數(shù)必然為2寺枉。
(2)相對位置的度量
在處理不同量綱的變量時抑淫,為了消除量綱差異,需要對變量進(jìn)行標(biāo)準(zhǔn)化型凳。
標(biāo)準(zhǔn)分?jǐn)?shù)表達(dá)了在一組數(shù)據(jù)中丈冬,各數(shù)值的相對位置。比如Z=-1.5甘畅,也就是比平均數(shù)低1.5個標(biāo)準(zhǔn)差埂蕊。
除此之外,對稱分布時的正態(tài)分布疏唾,任何分布形狀的切比雪夫不等式蓄氧,都對數(shù)據(jù)的分布與均值和標(biāo)準(zhǔn)差的關(guān)系做了很好的解釋,后面涉及到時再做展開槐脏。
(3)離散系數(shù)
平均水平不同的變量喉童,不宜直接比較標(biāo)準(zhǔn)差。離散系數(shù)能消除變量值水平高低和單位不同的影響顿天。
離散系數(shù)(變異系數(shù))= 標(biāo)準(zhǔn)差/平均值
離散系數(shù)越大堂氯,離散程度也越大蔑担。對不同的樣本數(shù)據(jù)進(jìn)行比較時,通常用離散系數(shù)咽白。
三啤握、偏態(tài)與峰態(tài)
1.偏態(tài)SK:對數(shù)據(jù)分布對稱性的測量。(EXCEL:SKEW函數(shù))
SK>0 右偏晶框,SK<0排抬,左偏。SK=0授段,對稱蹲蒲。越接近0 ,偏態(tài)程度越低侵贵。SK越大届搁,偏斜程度越大。
2.峰態(tài)K:數(shù)據(jù)分布平峰或尖峰程度的測量模燥。(EXCEL:KURT函數(shù))
峰態(tài)是與標(biāo)準(zhǔn)正態(tài)分布比較咖祭,服從標(biāo)準(zhǔn)正態(tài)分布,K=0蔫骂。K>0,尖峰分布牺汤,數(shù)據(jù)比較集中辽旋,K<0,平峰分布檐迟,數(shù)據(jù)比較分散补胚。
在EXCEL中,我們可以通過數(shù)據(jù)分析—描述分析追迟,來獲取偏度峰度溶其,以及其他的數(shù)據(jù)概括性度量值。