數(shù)據(jù)的描述性分析:概括性度量

水平的描述

  1. 平均數(shù)(mean)
    也稱(chēng)為均值牡直,常用的統(tǒng)計(jì)量之一缀匕。消除了觀測(cè)值的隨機(jī)波動(dòng),但易受極端值的影響井氢。
    根據(jù)總體數(shù)據(jù)計(jì)算的弦追,稱(chēng)為平均數(shù),記為μ花竞;根據(jù)樣本數(shù)據(jù)計(jì)算的劲件,稱(chēng)為樣本平均數(shù),記為 x ̄
    數(shù)據(jù)對(duì)稱(chēng)分布或接近對(duì)稱(chēng)分布時(shí)代表性較好
  2. 中位數(shù)和分位數(shù)
    排序后處于中間位置上的值约急。不受極端值影響零远。位置確定,中位數(shù)位置=(n+1)/2厌蔽;數(shù)值確定隶校;
    數(shù)據(jù)分布偏斜程度較大時(shí)代表性較好
  3. 四分位數(shù)—用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)(quartile)

    排序后處于25%和75%位置上的值,不受極端值的影響
  4. 眾數(shù)(mode)
    一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值模叙。適合于數(shù)據(jù)量較多時(shí)使用,不受極端值的影響择浊,
    一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù),數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好

差異的描述

  1. 極差(range)
    一組數(shù)據(jù)的最大值與最小值之差逾条,離散程度的最簡(jiǎn)單測(cè)度值琢岩。易受極端值影響,未考慮數(shù)據(jù)的分布
    計(jì)算公式為:R = max(xi) - min(xi)
  2. 四分位差(quartile deviation)
    也稱(chēng)為內(nèi)距或四分間距
    上四分位數(shù)與下四分位數(shù)之差:Qd= QU – QL
    反映了中間50%數(shù)據(jù)的離散程度师脂,不受極端值的影響担孔。用于衡量中位數(shù)的代表性
  3. 方差和標(biāo)準(zhǔn)差(variance and standard deviation)
    數(shù)據(jù)離散程度的最常用測(cè)度值,反映各變量值與均值的平均差異吃警。
    根據(jù)總體數(shù)據(jù)計(jì)算的糕篇,稱(chēng)為總體方差(標(biāo)準(zhǔn)差),記為σ2(σ)酌心;根據(jù)樣本數(shù)據(jù)計(jì)算的拌消,稱(chēng)為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)
  4. 變異系數(shù)(coefficient of variation)
    標(biāo)準(zhǔn)差與其相應(yīng)的均值之比谒府,對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度拼坎。消除了數(shù)據(jù)水平高低和計(jì)量單位的影響
    用于對(duì)不同組別數(shù)據(jù)離散程度的比較,計(jì)算公式為:vs=s/xˉ
  5. 標(biāo)準(zhǔn)得分
    也稱(chēng)標(biāo)準(zhǔn)化值完疫,對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量泰鸡,可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)

    用于對(duì)變量的標(biāo)準(zhǔn)化處理,也就是把一組數(shù)據(jù)轉(zhuǎn)化為平均數(shù)為0壳鹤,標(biāo)準(zhǔn)差為1的新數(shù)據(jù)盛龄。計(jì)算公式為:
  • 經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱(chēng)分布時(shí)
    約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
    約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
    約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
  • 如果一組數(shù)據(jù)不是對(duì)稱(chēng)分布,經(jīng)驗(yàn)法則就不再適用芳誓,這時(shí)可使用切比雪夫不等式(Chebyshev’s inequality)余舶,它對(duì)任何分布形狀的數(shù)據(jù)都適用。切比雪夫不等式提供的是“下界”锹淌,也就是“所占比例至少是多少”
    對(duì)于任意分布形態(tài)的數(shù)據(jù)匿值,根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)赂摆。其中k是大于1的任意值挟憔,但不一定是整數(shù)
    • 對(duì)于k=2,3烟号,4绊谭,該不等式的含義是
      至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
      至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
      至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)

分布形狀的度量

  1. 偏態(tài)(skewness)
    統(tǒng)計(jì)學(xué)家K.Pearson于1895年首次提出。是指數(shù)據(jù)分布的不對(duì)稱(chēng)性汪拥。
    測(cè)量數(shù)據(jù)分布不對(duì)稱(chēng)性的統(tǒng)計(jì)量稱(chēng)為偏度系數(shù)(coefficient of skewness)达传,記作SK
    偏度系數(shù)=0為對(duì)稱(chēng)分布;>0為右偏分布;<0為左偏分布
    偏度系數(shù)大于1或小于-1宪赶,為高度偏態(tài)分布宗弯;偏度系數(shù)在0.5~1或-1~-0.5之間,為是中等偏態(tài)分布逊朽;偏度系數(shù)越接近0罕伯,偏斜程度就越低。計(jì)算公式為:
  2. 峰度(kurtosis)
    統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出叽讳。數(shù)據(jù)分布峰值的高低 。測(cè)度統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficient of kurtosis)
    峰態(tài)系數(shù)=0扁平峰度適中坟募;峰態(tài)系數(shù)<0為扁平分布岛蚤;峰態(tài)系數(shù)>0為尖峰分布
    計(jì)算公式:
總結(jié)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市懈糯,隨后出現(xiàn)的幾起案子涤妒,更是在濱河造成了極大的恐慌,老刑警劉巖赚哗,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件她紫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡屿储,警方通過(guò)查閱死者的電腦和手機(jī)贿讹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)够掠,“玉大人民褂,你說(shuō)我怎么就攤上這事》杼叮” “怎么了赊堪?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)竖哩。 經(jīng)常有香客問(wèn)我哭廉,道長(zhǎng),這世上最難降的妖魔是什么相叁? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任遵绰,我火速辦了婚禮,結(jié)果婚禮上钝荡,老公的妹妹穿的比我還像新娘街立。我一直安慰自己,他們只是感情好埠通,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布赎离。 她就那樣靜靜地躺著,像睡著了一般端辱。 火紅的嫁衣襯著肌膚如雪梁剔。 梳的紋絲不亂的頭發(fā)上虽画,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音荣病,去河邊找鬼码撰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛个盆,可吹牛的內(nèi)容都是我干的脖岛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼颊亮,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼柴梆!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起终惑,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绍在,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后雹有,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體偿渡,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年霸奕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了溜宽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡铅祸,死狀恐怖坑质,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情临梗,我是刑警寧澤涡扼,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站盟庞,受9級(jí)特大地震影響吃沪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜什猖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一票彪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧不狮,春花似錦降铸、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春谅畅,著一層夾襖步出監(jiān)牢的瞬間登渣,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工毡泻, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留胜茧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓仇味,卻偏偏與公主長(zhǎng)得像呻顽,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子丹墨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容