統(tǒng)計學(xué)入門級-描述性統(tǒng)計理論

最近加入一個數(shù)據(jù)挖掘?qū)W習(xí)小組钝诚,熱心的群主制定了一個詳細的每周學(xué)習(xí)計劃榄棵,分為統(tǒng)計學(xué)和機器學(xué)習(xí)兩大知識點。學(xué)習(xí)完要提交作業(yè)拧略,以文章輸出或者其它方式都行瘪弓,現(xiàn)在開始第一周的統(tǒng)計學(xué)相關(guān)知識輸出啦,先上一張思維導(dǎo)圖袱饭。前面部分以文字為主虑乖,涉及到的數(shù)學(xué)公式放在最后栓票。

數(shù)據(jù)的分布特征與適用的描述統(tǒng)計量總結(jié)

一走贪、集中趨勢

集中趨勢反映各數(shù)據(jù)向其中心值靠攏或聚集的程度。

㈠ 眾數(shù)

  • 數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的變量值被稱為眾數(shù)继找。
  • 眾數(shù)可能有一個逃沿,也可能有多個。如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣边臼,那么這組數(shù)據(jù)沒有眾數(shù)假消。
  • 高斯分布(正態(tài)分布)中富拗,眾數(shù)位于峰值,和平均數(shù)粘拾、中位數(shù)相同创千。
  • 一般情況下,只有在數(shù)據(jù)量比較大的情況下寓涨,眾數(shù)才有意義氯檐。

㈡ 中位數(shù)

將一組數(shù)據(jù)按大小順序排列后冠摄,處于中間位置上的變量值就是中位數(shù)。計算中位數(shù)有兩種情況沃呢,根據(jù)數(shù)據(jù)個數(shù)而定拆挥。中位數(shù)是一個位置代表值某抓,同樣不受極端值的影響否副。

㈢ 分位數(shù)

也許大家都比較熟悉十分位數(shù)崎坊,百分位數(shù),但對于四分位數(shù)就沒那么了解了吧曲尸。四分位數(shù)是一組數(shù)據(jù)排序后處于25%(下四分位數(shù))和75%(上四分位數(shù))位置上的值另患。

箱線圖就是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值奏篙、上四分位數(shù)、中位數(shù)为严、下四分位數(shù)與最大值來描述數(shù)據(jù)的一種圖肺稀。額话原,箱線圖經(jīng)常應(yīng)用在識別檢測異常值方面。


㈣ 平均數(shù)

平均數(shù)也稱為均值涉馅,是一組數(shù)據(jù)相加后除以數(shù)據(jù)個數(shù)得到的結(jié)果稚矿。它是集中趨勢的最主要測度值捻浦。對未經(jīng)分組數(shù)據(jù)計算的平均數(shù)稱為簡單平均數(shù),也就是常說的平均數(shù)昧识。每年都會看到說哪個城市的平均薪資出爐了盗扒,大PK之類的缀去,不看不知道朵耕,一看就扎心淋叶!

對分組數(shù)據(jù)計算的平均數(shù)稱為加權(quán)平均數(shù)煞檩。幾何平均數(shù)是n個變量值乘積的n次方根栅贴,主要用于計算平均比率。

對于具有單峰分布的大多數(shù)數(shù)據(jù)而言凝赛,眾數(shù)坛缕、中位數(shù)和平均數(shù)之間具有以下的關(guān)系:

  • 如果數(shù)據(jù)是對稱分布赚楚,眾數(shù)=中位數(shù)=平均數(shù)
  • 如果數(shù)據(jù)是左偏分布毙沾,說明數(shù)據(jù)存在極小值,必然拉動平均數(shù)向極小值一方靠宠页。而眾數(shù)和中位數(shù)是位置代表值左胞,不受極值的影響,所以平均數(shù)< 中位數(shù)< 眾數(shù)
  • 如果數(shù)據(jù)是右偏分布举户,說明數(shù)據(jù)存在極大值烤宙,必然拉動平均數(shù)向極大值一方靠,則眾數(shù)< 中位數(shù) < 平均數(shù)
不同分布的眾數(shù)俭嘁、中位數(shù)和平均數(shù)大小關(guān)系

均值躺枕、中位數(shù)、眾數(shù)優(yōu)缺點:

二兄淫、離散程度

離散程度反映各數(shù)據(jù)遠離其中心值的趨勢。

㈠ 數(shù)值型數(shù)據(jù)

① 極差

極差:一組數(shù)據(jù)的最大值和最小值之差捕虽,也稱全距慨丐,用R表示。極差容易受極端值的影響泄私,不能反映出中間數(shù)據(jù)的分散情況房揭。

② 平均差

平均差也稱平均絕對離差备闲、平均偏差,它是各變量值與其平均數(shù)離差絕對值的平均數(shù)捅暴。平均差以平均數(shù)為中心恬砂,反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度。為了避免離差之和等于零而無法計算平均差這個問題蓬痒,因此采取了絕對值泻骤,以離差的絕對值來表示總離差。

③ 方差

方差是各變量值與其平均數(shù)離差平方的平均數(shù)梧奢。

④ 標準差

標準差是方差的平方根狱掂。

★ 注意 ★

  • 方差和標準差能較好地反映出數(shù)據(jù)的離散程度,是應(yīng)用最廣的離散程度的測度值亲轨。
  • 樣本方差是用樣本數(shù)據(jù)個數(shù)減1后去除離差平方和趋惨,其中樣本數(shù)據(jù)個數(shù)減1,即n-1稱為自由度惦蚊。
  • 與方差不同的是器虾,標準差是有量綱的,它與變量值的計量單位相同蹦锋,其實際意義比方差清楚兆沙。因此,在對實際問題進行分析時會更多地使用標準差莉掂。

㈡ 順序數(shù)據(jù)

四分位差

四分位差 IQR(四分位距):是上四分位數(shù)和下四分位數(shù)之差挤悉。它反映了中間50%的數(shù)據(jù)的離散程度,其數(shù)值越小巫湘,說明中間的數(shù)據(jù)越集中装悲,反之則越分散尚氛。同樣不受極值的影響诀诊。

㈢ 分類數(shù)據(jù)

異眾比率

異眾比率指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度属瓣。異眾比率越大說明眾數(shù)的代表性越差抡蛙,越小說明眾數(shù)的代表性越好魂迄。

㈣ 相對離散程度

離散系數(shù)

離散系數(shù)又稱變異系數(shù)捣炬, 它是一組數(shù)據(jù)的標準差與其相應(yīng)的平均數(shù)之比。離散系數(shù)主要用于比較不同樣本數(shù)據(jù)的離散程度婿屹。離散系數(shù)大灭美,說明數(shù)據(jù)的離散程度越大,離散系數(shù)小昂利,說明數(shù)據(jù)的離散程度也小届腐。

三、分布的形狀

㈠ 偏態(tài)系數(shù)

偏態(tài)是對數(shù)據(jù)分布對稱性的測度蜂奸。測度偏態(tài)的統(tǒng)計量是偏態(tài)系數(shù)梯捕,用SK表示。SK的值越大窝撵,表示偏斜的程度越大。

  • 如果一組數(shù)據(jù)的分布是對稱的襟铭,離差三次方(具體公式看后面的圖)后正負離差可以相互抵消碌奉,則SK等于0。
  • 如果分布是非對稱的寒砖,偏態(tài)系數(shù)有正有負赐劣。SK為正值時,表示正離差值較大哩都,判斷為正偏或右偏魁兼。
  • SK為負值時,表示負離差值較大漠嵌,判斷為負偏或左偏咐汞。

㈡ 峰態(tài)系數(shù)

峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度。測度峰態(tài)的統(tǒng)計量是峰態(tài)系數(shù)儒鹿,用K表示化撕。峰態(tài)通常是相對于標準正態(tài)分布而言的:

  • 如果一組數(shù)據(jù)服從標準正態(tài)分布,則峰態(tài)系數(shù)的值為0约炎;
  • 如果峰態(tài)系數(shù)的值明顯不等于0植阴,則表明分布比正態(tài)分布更平或更尖,稱為平峰分布或尖峰分布圾浅。K大于0時為尖峰分布掠手,數(shù)據(jù)分布更集中;小于0時為扁平分布狸捕,數(shù)據(jù)的分布越分散喷鸽。

相關(guān)的數(shù)學(xué)公式如下:(手寫一遍,加深記憶灸拍,哈哈...)

方差魁衙、離散系數(shù)报腔、偏態(tài)系數(shù)和峰態(tài)系數(shù):

自認為是自己寫得很用心的一篇文章啦,嘻嘻剖淀!總體來說纯蛾,上述知識也算消化了大半了,比較不熟悉的是后面的偏態(tài)系數(shù)和峰態(tài)系數(shù)纵隔,有待后面繼續(xù)深入探索翻诉。下周開始結(jié)合Python進行描述性統(tǒng)計實踐。在看的小伙伴們?nèi)绻X得對你有用的話點個喜歡捌刮,發(fā)現(xiàn)有不對的地方歡迎留言指正碰煌,謝謝~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市绅作,隨后出現(xiàn)的幾起案子芦圾,更是在濱河造成了極大的恐慌,老刑警劉巖俄认,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件个少,死亡現(xiàn)場離奇詭異,居然都是意外死亡眯杏,警方通過查閱死者的電腦和手機夜焦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來岂贩,“玉大人茫经,你說我怎么就攤上這事∥颍” “怎么了卸伞?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長锉屈。 經(jīng)常有香客問我瞪慧,道長,這世上最難降的妖魔是什么部念? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任弃酌,我火速辦了婚禮,結(jié)果婚禮上儡炼,老公的妹妹穿的比我還像新娘妓湘。我一直安慰自己,他們只是感情好乌询,可當(dāng)我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布榜贴。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪唬党。 梳的紋絲不亂的頭發(fā)上鹃共,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音驶拱,去河邊找鬼霜浴。 笑死,一個胖子當(dāng)著我的面吹牛蓝纲,可吹牛的內(nèi)容都是我干的阴孟。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼税迷,長吁一口氣:“原來是場噩夢啊……” “哼永丝!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起箭养,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤慕嚷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后毕泌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喝检,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年懈词,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辩诞。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡坎弯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出译暂,到底是詐尸還是另有隱情抠忘,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布外永,位于F島的核電站崎脉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏伯顶。R本人自食惡果不足惜囚灼,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望祭衩。 院中可真熱鬧灶体,春花似錦、人聲如沸掐暮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽路克。三九已至樟结,卻和暖如春养交,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瓢宦。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工碎连, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刁笙。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓破花,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疲吸。 傳聞我的和親對象是個殘疾皇子座每,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,490評論 2 348