統(tǒng)計學(xué)-數(shù)據(jù)的描述性統(tǒng)計

數(shù)據(jù)分析的對象主要是結(jié)構(gòu)化數(shù)據(jù),雖然數(shù)據(jù)的類型有很多量淌,但是所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個維度進行描述饿自,這三個維度就是數(shù)據(jù)的集中趨勢描述數(shù)據(jù)的離散程度描述數(shù)據(jù)的分布形態(tài)描述锈拨。

集中趨勢描述

數(shù)據(jù)的集中趨勢描述是尋找反映事物特征的數(shù)據(jù)集合的代表值或中心值,這個代表值或中心值可以很好地反映事物目前所處的位置和發(fā)展水平羹唠。主要描述指標包含:

1. 眾數(shù)奕枢、中位數(shù)平均數(shù)

  • 眾數(shù)
    數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值被稱為眾數(shù)佩微。
    備注:數(shù)據(jù)集中時有效缝彬,可以具有多個眾數(shù)。如果數(shù)據(jù)集合中所有數(shù)據(jù)值出現(xiàn)的次數(shù)相同哺眯,那么該數(shù)據(jù)集合沒有眾數(shù)谷浅。
  • 中位數(shù)
    按照升序排列數(shù)據(jù)后:
  1. n為奇數(shù)時,
    n為奇數(shù)
  2. n為偶數(shù)時,

    n為偶數(shù)

    備注:中位數(shù)與算術(shù)平均值相比,中位數(shù)的優(yōu)勢在于不受數(shù)據(jù)集合中個別極端值的影響奶卓,表現(xiàn)出穩(wěn)定的特點一疯。這一特點使其在數(shù)據(jù)集合的數(shù)值分布有較大偏斜時,能夠保持對數(shù)據(jù)集合特征的代表性夺姑。因此墩邀,中位數(shù)常被用來度量具有偏斜性質(zhì)的數(shù)據(jù)集合的集中趨勢。

  • 平均數(shù)
    指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)盏浙,計算公式同算數(shù)平均數(shù)眉睹。

2. 算數(shù)平均值加權(quán)平均值废膘、幾何平均值

  • 算數(shù)平均數(shù)
    將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值個數(shù)就得到簡單算術(shù)平均
    值竹海。
    假設(shè)有一組包含n個數(shù)值的數(shù)據(jù)集合,它們的數(shù)值分別為x1 丐黄,x2 斋配,…,xn 孵稽,該數(shù)據(jù)集合的簡單算術(shù)平均值的計算公式為:
    算術(shù)平均值
  • 加權(quán)平均值
    有時每個數(shù)據(jù)值的權(quán)重不一樣许起,需要用加權(quán)算術(shù)平均值來表示數(shù)據(jù)集合的集中趨勢。
    假設(shè)有一個數(shù)據(jù)集合菩鲜,總共包括k個不同類別的數(shù)據(jù)組园细,各組的簡單算術(shù)平均值表示為x-1,x-2接校,…猛频,x-k狮崩,每個數(shù)據(jù)組的數(shù)值個數(shù)分別為f1,f2鹿寻,…睦柴,fk,每組的數(shù)值個數(shù)就是每個數(shù)據(jù)組的權(quán)重毡熏,那么加權(quán)算術(shù)平均值的計算公式可以表示為:
    加權(quán)平均值

    備注:簡單算術(shù)平均值可以看作是所有數(shù)值的權(quán)重都為1的加權(quán)算術(shù)平均值坦敌,即所有數(shù)值的重要性相同。
    算數(shù)平均值缺陷:當數(shù)據(jù)集合中有極大值或極小值存在時痢法,會對算術(shù)平均值產(chǎn)生很大的影響狱窘,其計算結(jié)果會掩蓋數(shù)據(jù)集合的真實特征,這時算術(shù)平均值就失去了代表性财搁。
    • 幾何平均值
      有些數(shù)據(jù)之間的關(guān)系不是加減關(guān)系蘸炸,而是乘除關(guān)系。此時尖奔,應(yīng)該用幾何平均值來表示由這樣的數(shù)值組成的數(shù)據(jù)集合的集中趨勢搭儒。
      幾何平均值被用于各種定比數(shù)據(jù)的平均值計算。
      假設(shè)有一個定比數(shù)據(jù)集合提茁,集合中的數(shù)值分別為x1淹禾,x2,…茴扁,xn稀拐,且所有的數(shù)值均大于 0,那么該數(shù)據(jù)集合的幾何平均值的計算公式為:
      幾何平均值

離散程度描述

1. 數(shù)值型數(shù)據(jù):極差丹弱、平均偏差德撬、方差標準差

  • 極差
    極差又被稱為全距躲胳,是指數(shù)據(jù)集合中最大值與最小值的差值蜓洪,表示
    整個數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
    現(xiàn)有數(shù)據(jù)集合(xmin坯苹,x2隆檀,…,xmax)粹湃,全距的計算公式為:
    極差
  • 平均偏差
    平均偏差的數(shù)值代表了所有數(shù)值與平均值的平均偏差距離恐仑。
    平均偏差的計算公式為:
    平均偏差

    備注:①平均差異大,表明各標志值與算術(shù)平均數(shù)的差異程度越大为鳄,該算術(shù)平均數(shù)的代表性就越猩哑汀;②平均差越小孤钦,表明各標志值與算術(shù)平均數(shù)的差異程度越小歧斟,該算術(shù)平均數(shù)的代表性就越大纯丸。
  • 方差

    (1)總體方差:如果數(shù)據(jù)集合(x1,x2静袖,…觉鼻,xn)就是數(shù)據(jù)總體,并且數(shù)據(jù)集合有N個數(shù)值队橙,假設(shè)數(shù)據(jù)總體的均值為μ坠陈,那么總體方差σ2的計算公式為:
    總體方差

    (2)樣本方差:為了區(qū)分,樣本的均值用x-表示捐康,樣本方差用s2表示畅姊,樣本標準差用s表示。假設(shè)樣本容量為n吹由,那么樣本方差的計算公式為:
    樣本方差
  • 標準差

    (1)總體標準差是方差的正值平方根,其計算公式為:
    總體標準差

    (2)樣本標準差:

    樣本標準差的計算公式為:
    樣本標準差

樣本標準差s對總體標準差σ的估計誤差為:
樣本標準差s對總體標準差σ的估計誤差

2. 順序數(shù)據(jù):四分位數(shù)

(1)先將數(shù)字由小到大排序:下四分位數(shù)Q1朱嘴,又稱“較小四分位數(shù)”.
(2)第二四分位數(shù) (Q2)倾鲫,又稱“中位數(shù)”
(3)上四分位數(shù)Q3,又稱“較大四分位數(shù)”
(4)四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1)這個差值區(qū)間包含了整個數(shù)據(jù)集合50%的數(shù)據(jù)值萍嬉。
Q1-Q2之間距離的差的一半又稱為分半四分位差乌昔。


四分位數(shù)

3. 分類數(shù)據(jù):異眾比率
異眾比率

①主要適合測度分類數(shù)據(jù)的離散程度
②異眾比率越大壤追,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大磕道,眾數(shù)的代表性就越差;
③異眾比率越小行冰,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小溺蕉,眾數(shù)的代表性越好;

相對離散程度描述

變異系數(shù)

如果兩者的方差和標準差相等時悼做,那么到底哪個數(shù)據(jù)集合的離散程度更高疯特、更低或相同?對于這個問題肛走,方差和標準差解決不了漓雅,變異系數(shù)卻可以。
總體的變異系數(shù)計算公式為:

總體的變異系數(shù)

樣本的變異系數(shù)計算公式為:
樣本的變異系數(shù)

備注:①變異系數(shù)越小朽色,變異(偏離)程度越小邻吞,風(fēng)險也就越小葫男;
②變異系數(shù)越大抱冷,變異(偏離)程度越大,風(fēng)險也就越大梢褐。

分布的形狀

偏態(tài)系數(shù)
偏態(tài)分布
圖片來源于網(wǎng)絡(luò)

備注:
(1)看長尾在哪邊就是往哪偏徘层;
(2)峰左移峻呕,右偏態(tài);
(3)峰右移趣效,左偏態(tài)瘦癌;
(4)偏態(tài)系數(shù):SK< 0 左偏,又稱為負偏跷敬;SK> 0 右偏讯私,又稱為正偏。
(5)當樣本增大時西傀,其均數(shù)趨向正態(tài)分布

偏態(tài)系數(shù)計算公式:
偏態(tài)系數(shù)

加權(quán)偏態(tài)系數(shù)計算公式:
加權(quán)偏態(tài)系數(shù)

峰態(tài)系數(shù)
峰態(tài)分布

正態(tài)分布的峰度K=3斤寇,均勻分布的峰度K=1.8。
備注:除了左偏右偏之外我們還需要從峰度上看峰度是否偏離了正態(tài)分布拥褂。
kurtosis=K-3 稱為超值峰度
kurtosis>0娘锁,尖峰態(tài)(leptokurtic),數(shù)據(jù)集比較分散饺鹃,極端數(shù)值較多
kurtosis<0莫秆,低峰態(tài)(platykurtic),數(shù)據(jù)集比較集中悔详,兩側(cè)的數(shù)據(jù)比較少

峰態(tài)系數(shù)計算公式:
峰態(tài)系數(shù)

注:此文章部分節(jié)選于《人人都會數(shù)據(jù)分析》镊屎。![ffff.jpeg]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市茄螃,隨后出現(xiàn)的幾起案子缝驳,更是在濱河造成了極大的恐慌,老刑警劉巖归苍,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件用狱,死亡現(xiàn)場離奇詭異,居然都是意外死亡拼弃,警方通過查閱死者的電腦和手機齿拂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肴敛,“玉大人署海,你說我怎么就攤上這事∫侥校” “怎么了砸狞?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長镀梭。 經(jīng)常有香客問我刀森,道長,這世上最難降的妖魔是什么报账? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任研底,我火速辦了婚禮埠偿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘榜晦。我一直安慰自己冠蒋,他們只是感情好,可當我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布乾胶。 她就那樣靜靜地躺著抖剿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪识窿。 梳的紋絲不亂的頭發(fā)上斩郎,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天,我揣著相機與錄音喻频,去河邊找鬼缩宜。 笑死,一個胖子當著我的面吹牛甥温,可吹牛的內(nèi)容都是我干的锻煌。 我是一名探鬼主播,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼窿侈,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了秋茫?” 一聲冷哼從身側(cè)響起史简,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肛著,沒想到半個月后圆兵,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡枢贿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年殉农,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片局荚。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡超凳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出耀态,到底是詐尸還是另有隱情轮傍,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布首装,位于F島的核電站创夜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏仙逻。R本人自食惡果不足惜驰吓,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一涧尿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧檬贰,春花似錦姑廉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至迷雪,卻和暖如春限书,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背章咧。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工倦西, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人赁严。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓扰柠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疼约。 傳聞我的和親對象是個殘疾皇子卤档,可洞房花燭夜當晚...
    茶點故事閱讀 43,658評論 2 350