數(shù)據(jù)分析的對象主要是結(jié)構(gòu)化數(shù)據(jù),雖然數(shù)據(jù)的類型有很多量淌,但是所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個維度進行描述饿自,這三個維度就是數(shù)據(jù)的集中趨勢描述,數(shù)據(jù)的離散程度描述和數(shù)據(jù)的分布形態(tài)描述锈拨。
集中趨勢描述
數(shù)據(jù)的集中趨勢描述是尋找反映事物特征的數(shù)據(jù)集合的代表值或中心值,這個代表值或中心值可以很好地反映事物目前所處的位置和發(fā)展水平羹唠。主要描述指標包含:
1. 眾數(shù)奕枢、中位數(shù)、平均數(shù)
- 眾數(shù)
數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值被稱為眾數(shù)佩微。
備注:數(shù)據(jù)集中時有效缝彬,可以具有多個眾數(shù)。如果數(shù)據(jù)集合中所有數(shù)據(jù)值出現(xiàn)的次數(shù)相同哺眯,那么該數(shù)據(jù)集合沒有眾數(shù)谷浅。 - 中位數(shù)
按照升序排列數(shù)據(jù)后:
-
n為奇數(shù)時, n為奇數(shù)
-
n為偶數(shù)時,
n為偶數(shù)
備注:中位數(shù)與算術(shù)平均值相比,中位數(shù)的優(yōu)勢在于不受數(shù)據(jù)集合中個別極端值的影響奶卓,表現(xiàn)出穩(wěn)定的特點一疯。這一特點使其在數(shù)據(jù)集合的數(shù)值分布有較大偏斜時,能夠保持對數(shù)據(jù)集合特征的代表性夺姑。因此墩邀,中位數(shù)常被用來度量具有偏斜性質(zhì)的數(shù)據(jù)集合的集中趨勢。
- 平均數(shù)
指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)盏浙,計算公式同算數(shù)平均數(shù)眉睹。
2. 算數(shù)平均值、加權(quán)平均值废膘、幾何平均值
- 算數(shù)平均數(shù)
將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值個數(shù)就得到簡單算術(shù)平均
值竹海。
假設(shè)有一組包含n個數(shù)值的數(shù)據(jù)集合,它們的數(shù)值分別為x1 丐黄,x2 斋配,…,xn 孵稽,該數(shù)據(jù)集合的簡單算術(shù)平均值的計算公式為:
算術(shù)平均值 - 加權(quán)平均值
有時每個數(shù)據(jù)值的權(quán)重不一樣许起,需要用加權(quán)算術(shù)平均值來表示數(shù)據(jù)集合的集中趨勢。
假設(shè)有一個數(shù)據(jù)集合菩鲜,總共包括k個不同類別的數(shù)據(jù)組园细,各組的簡單算術(shù)平均值表示為x-1,x-2接校,…猛频,x-k狮崩,每個數(shù)據(jù)組的數(shù)值個數(shù)分別為f1,f2鹿寻,…睦柴,fk,每組的數(shù)值個數(shù)就是每個數(shù)據(jù)組的權(quán)重毡熏,那么加權(quán)算術(shù)平均值的計算公式可以表示為:
加權(quán)平均值
備注:簡單算術(shù)平均值可以看作是所有數(shù)值的權(quán)重都為1的加權(quán)算術(shù)平均值坦敌,即所有數(shù)值的重要性相同。
算數(shù)平均值缺陷:當數(shù)據(jù)集合中有極大值或極小值存在時痢法,會對算術(shù)平均值產(chǎn)生很大的影響狱窘,其計算結(jié)果會掩蓋數(shù)據(jù)集合的真實特征,這時算術(shù)平均值就失去了代表性财搁。- 幾何平均值
有些數(shù)據(jù)之間的關(guān)系不是加減關(guān)系蘸炸,而是乘除關(guān)系。此時尖奔,應(yīng)該用幾何平均值來表示由這樣的數(shù)值組成的數(shù)據(jù)集合的集中趨勢搭儒。
幾何平均值被用于各種定比數(shù)據(jù)的平均值計算。
假設(shè)有一個定比數(shù)據(jù)集合提茁,集合中的數(shù)值分別為x1淹禾,x2,…茴扁,xn稀拐,且所有的數(shù)值均大于 0,那么該數(shù)據(jù)集合的幾何平均值的計算公式為:
幾何平均值
- 幾何平均值
離散程度描述
1. 數(shù)值型數(shù)據(jù):極差丹弱、平均偏差德撬、方差、標準差
- 極差
極差又被稱為全距躲胳,是指數(shù)據(jù)集合中最大值與最小值的差值蜓洪,表示
整個數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
現(xiàn)有數(shù)據(jù)集合(xmin坯苹,x2隆檀,…,xmax)粹湃,全距的計算公式為:
極差 - 平均偏差
平均偏差的數(shù)值代表了所有數(shù)值與平均值的平均偏差距離恐仑。
平均偏差的計算公式為:
平均偏差
備注:①平均差異大,表明各標志值與算術(shù)平均數(shù)的差異程度越大为鳄,該算術(shù)平均數(shù)的代表性就越猩哑汀;②平均差越小孤钦,表明各標志值與算術(shù)平均數(shù)的差異程度越小歧斟,該算術(shù)平均數(shù)的代表性就越大纯丸。 -
方差
(1)總體方差:如果數(shù)據(jù)集合(x1,x2静袖,…觉鼻,xn)就是數(shù)據(jù)總體,并且數(shù)據(jù)集合有N個數(shù)值队橙,假設(shè)數(shù)據(jù)總體的均值為μ坠陈,那么總體方差σ2的計算公式為:
總體方差
(2)樣本方差:為了區(qū)分,樣本的均值用x-表示捐康,樣本方差用s2表示畅姊,樣本標準差用s表示。假設(shè)樣本容量為n吹由,那么樣本方差的計算公式為:樣本方差 -
標準差
(1)總體標準差是方差的正值平方根,其計算公式為:
總體標準差
(2)樣本標準差:
樣本標準差的計算公式為:樣本標準差
2. 順序數(shù)據(jù):四分位數(shù)
(1)先將數(shù)字由小到大排序:下四分位數(shù)Q1朱嘴,又稱“較小四分位數(shù)”.
(2)第二四分位數(shù) (Q2)倾鲫,又稱“中位數(shù)”
(3)上四分位數(shù)Q3,又稱“較大四分位數(shù)”
(4)四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1)這個差值區(qū)間包含了整個數(shù)據(jù)集合50%的數(shù)據(jù)值萍嬉。
Q1-Q2之間距離的差的一半又稱為分半四分位差乌昔。
3. 分類數(shù)據(jù):異眾比率。
異眾比率
①主要適合測度分類數(shù)據(jù)的離散程度
②異眾比率越大壤追,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大磕道,眾數(shù)的代表性就越差;
③異眾比率越小行冰,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小溺蕉,眾數(shù)的代表性越好;
相對離散程度描述
變異系數(shù)
如果兩者的方差和標準差相等時悼做,那么到底哪個數(shù)據(jù)集合的離散程度更高疯特、更低或相同?對于這個問題肛走,方差和標準差解決不了漓雅,變異系數(shù)卻可以。
總體的變異系數(shù)計算公式為:
樣本的變異系數(shù)計算公式為:
備注:①變異系數(shù)越小朽色,變異(偏離)程度越小邻吞,風(fēng)險也就越小葫男;
②變異系數(shù)越大抱冷,變異(偏離)程度越大,風(fēng)險也就越大梢褐。
分布的形狀
偏態(tài)系數(shù)
偏態(tài)分布
圖片來源于網(wǎng)絡(luò)
備注:
(1)看長尾在哪邊就是往哪偏徘层;
(2)峰左移峻呕,右偏態(tài);
(3)峰右移趣效,左偏態(tài)瘦癌;
(4)偏態(tài)系數(shù):SK< 0 左偏,又稱為負偏跷敬;SK> 0 右偏讯私,又稱為正偏。
(5)當樣本增大時西傀,其均數(shù)趨向正態(tài)分布
加權(quán)偏態(tài)系數(shù)計算公式:
峰態(tài)系數(shù)
峰態(tài)分布
正態(tài)分布的峰度K=3斤寇,均勻分布的峰度K=1.8。
備注:除了左偏右偏之外我們還需要從峰度上看峰度是否偏離了正態(tài)分布拥褂。
kurtosis=K-3 稱為超值峰度
kurtosis>0娘锁,尖峰態(tài)(leptokurtic),數(shù)據(jù)集比較分散饺鹃,極端數(shù)值較多
kurtosis<0莫秆,低峰態(tài)(platykurtic),數(shù)據(jù)集比較集中悔详,兩側(cè)的數(shù)據(jù)比較少
注:此文章部分節(jié)選于《人人都會數(shù)據(jù)分析》镊屎。![ffff.jpeg]