水平的描述
- 平均數(shù)(mean)
也稱(chēng)為均值牡直,常用的統(tǒng)計(jì)量之一缀匕。消除了觀測(cè)值的隨機(jī)波動(dòng),但易受極端值的影響井氢。
根據(jù)總體數(shù)據(jù)計(jì)算的弦追,稱(chēng)為平均數(shù),記為μ花竞;根據(jù)樣本數(shù)據(jù)計(jì)算的劲件,稱(chēng)為樣本平均數(shù),記為 x ̄
數(shù)據(jù)對(duì)稱(chēng)分布或接近對(duì)稱(chēng)分布時(shí)代表性較好 - 中位數(shù)和分位數(shù)
排序后處于中間位置上的值约急。不受極端值影響零远。位置確定,中位數(shù)位置=(n+1)/2厌蔽;數(shù)值確定隶校;
數(shù)據(jù)分布偏斜程度較大時(shí)代表性較好 -
四分位數(shù)—用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)(quartile)
排序后處于25%和75%位置上的值,不受極端值的影響
- 眾數(shù)(mode)
一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值模叙。適合于數(shù)據(jù)量較多時(shí)使用,不受極端值的影響择浊,
一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù),數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好
差異的描述
- 極差(range)
一組數(shù)據(jù)的最大值與最小值之差逾条,離散程度的最簡(jiǎn)單測(cè)度值琢岩。易受極端值影響,未考慮數(shù)據(jù)的分布
計(jì)算公式為:R = max(xi) - min(xi) - 四分位差(quartile deviation)
也稱(chēng)為內(nèi)距或四分間距
上四分位數(shù)與下四分位數(shù)之差:Qd= QU – QL
反映了中間50%數(shù)據(jù)的離散程度师脂,不受極端值的影響担孔。用于衡量中位數(shù)的代表性 - 方差和標(biāo)準(zhǔn)差(variance and standard deviation)
數(shù)據(jù)離散程度的最常用測(cè)度值,反映各變量值與均值的平均差異吃警。
根據(jù)總體數(shù)據(jù)計(jì)算的糕篇,稱(chēng)為總體方差(標(biāo)準(zhǔn)差),記為σ2(σ)酌心;根據(jù)樣本數(shù)據(jù)計(jì)算的拌消,稱(chēng)為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)
- 變異系數(shù)(coefficient of variation)
標(biāo)準(zhǔn)差與其相應(yīng)的均值之比谒府,對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度拼坎。消除了數(shù)據(jù)水平高低和計(jì)量單位的影響
用于對(duì)不同組別數(shù)據(jù)離散程度的比較,計(jì)算公式為:vs=s/xˉ -
標(biāo)準(zhǔn)得分
用于對(duì)變量的標(biāo)準(zhǔn)化處理,也就是把一組數(shù)據(jù)轉(zhuǎn)化為平均數(shù)為0壳鹤,標(biāo)準(zhǔn)差為1的新數(shù)據(jù)盛龄。計(jì)算公式為:
也稱(chēng)標(biāo)準(zhǔn)化值完疫,對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量泰鸡,可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)
-
經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱(chēng)分布時(shí)
約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) - 如果一組數(shù)據(jù)不是對(duì)稱(chēng)分布,經(jīng)驗(yàn)法則就不再適用芳誓,這時(shí)可使用切比雪夫不等式(Chebyshev’s inequality)余舶,它對(duì)任何分布形狀的數(shù)據(jù)都適用。切比雪夫不等式提供的是“下界”锹淌,也就是“所占比例至少是多少”
對(duì)于任意分布形態(tài)的數(shù)據(jù)匿值,根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)赂摆。其中k是大于1的任意值挟憔,但不一定是整數(shù)- 對(duì)于k=2,3烟号,4绊谭,該不等式的含義是
至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
- 對(duì)于k=2,3烟号,4绊谭,該不等式的含義是
分布形狀的度量
- 偏態(tài)(skewness)
統(tǒng)計(jì)學(xué)家K.Pearson于1895年首次提出。是指數(shù)據(jù)分布的不對(duì)稱(chēng)性汪拥。
測(cè)量數(shù)據(jù)分布不對(duì)稱(chēng)性的統(tǒng)計(jì)量稱(chēng)為偏度系數(shù)(coefficient of skewness)达传,記作SK
偏度系數(shù)=0為對(duì)稱(chēng)分布;>0為右偏分布;<0為左偏分布
偏度系數(shù)大于1或小于-1宪赶,為高度偏態(tài)分布宗弯;偏度系數(shù)在0.5~1或-1~-0.5之間,為是中等偏態(tài)分布逊朽;偏度系數(shù)越接近0罕伯,偏斜程度就越低。計(jì)算公式為: - 峰度(kurtosis)
統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出叽讳。數(shù)據(jù)分布峰值的高低 。測(cè)度統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficient of kurtosis)
峰態(tài)系數(shù)=0扁平峰度適中坟募;峰態(tài)系數(shù)<0為扁平分布岛蚤;峰態(tài)系數(shù)>0為尖峰分布
計(jì)算公式:
總結(jié)