最近加入一個數(shù)據(jù)挖掘?qū)W習(xí)小組钝诚,熱心的群主制定了一個詳細的每周學(xué)習(xí)計劃榄棵,分為統(tǒng)計學(xué)和機器學(xué)習(xí)兩大知識點。學(xué)習(xí)完要提交作業(yè)拧略,以文章輸出或者其它方式都行瘪弓,現(xiàn)在開始第一周的統(tǒng)計學(xué)相關(guān)知識輸出啦,先上一張思維導(dǎo)圖袱饭。前面部分以文字為主虑乖,涉及到的數(shù)學(xué)公式放在最后栓票。
一走贪、集中趨勢
集中趨勢反映各數(shù)據(jù)向其中心值靠攏或聚集的程度。
㈠ 眾數(shù)
- 數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的變量值被稱為眾數(shù)继找。
- 眾數(shù)可能有一個逃沿,也可能有多個。如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣边臼,那么這組數(shù)據(jù)沒有眾數(shù)假消。
- 在高斯分布(正態(tài)分布)中富拗,眾數(shù)位于峰值,和平均數(shù)粘拾、中位數(shù)相同创千。
- 一般情況下,只有在數(shù)據(jù)量比較大的情況下寓涨,眾數(shù)才有意義氯檐。
㈡ 中位數(shù)
將一組數(shù)據(jù)按大小順序排列后冠摄,處于中間位置上的變量值就是中位數(shù)。計算中位數(shù)有兩種情況沃呢,根據(jù)數(shù)據(jù)個數(shù)而定拆挥。中位數(shù)是一個位置代表值某抓,同樣不受極端值的影響否副。
㈢ 分位數(shù)
也許大家都比較熟悉十分位數(shù)崎坊,百分位數(shù),但對于四分位數(shù)就沒那么了解了吧曲尸。四分位數(shù)是一組數(shù)據(jù)排序后處于25%(下四分位數(shù))和75%(上四分位數(shù))位置上的值另患。
箱線圖就是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值奏篙、上四分位數(shù)、中位數(shù)为严、下四分位數(shù)與最大值來描述數(shù)據(jù)的一種圖肺稀。額话原,箱線圖經(jīng)常應(yīng)用在識別檢測異常值方面。
㈣ 平均數(shù)
平均數(shù)也稱為均值涉馅,是一組數(shù)據(jù)相加后除以數(shù)據(jù)個數(shù)得到的結(jié)果稚矿。它是集中趨勢的最主要測度值捻浦。對未經(jīng)分組數(shù)據(jù)計算的平均數(shù)稱為簡單平均數(shù),也就是常說的平均數(shù)昧识。每年都會看到說哪個城市的平均薪資出爐了盗扒,大PK之類的缀去,不看不知道朵耕,一看就扎心淋叶!
對分組數(shù)據(jù)計算的平均數(shù)稱為加權(quán)平均數(shù)煞檩。幾何平均數(shù)是n個變量值乘積的n次方根栅贴,主要用于計算平均比率。
對于具有單峰分布的大多數(shù)數(shù)據(jù)而言凝赛,眾數(shù)坛缕、中位數(shù)和平均數(shù)之間具有以下的關(guān)系:
- 如果數(shù)據(jù)是對稱分布赚楚,眾數(shù)=中位數(shù)=平均數(shù)
- 如果數(shù)據(jù)是左偏分布毙沾,說明數(shù)據(jù)存在極小值,必然拉動平均數(shù)向極小值一方靠宠页。而眾數(shù)和中位數(shù)是位置代表值左胞,不受極值的影響,所以平均數(shù)< 中位數(shù)< 眾數(shù)
- 如果數(shù)據(jù)是右偏分布举户,說明數(shù)據(jù)存在極大值烤宙,必然拉動平均數(shù)向極大值一方靠,則眾數(shù)< 中位數(shù) < 平均數(shù)
均值躺枕、中位數(shù)、眾數(shù)優(yōu)缺點:
二兄淫、離散程度
離散程度反映各數(shù)據(jù)遠離其中心值的趨勢。
㈠ 數(shù)值型數(shù)據(jù)
① 極差
極差:一組數(shù)據(jù)的最大值和最小值之差捕虽,也稱全距慨丐,用R表示。極差容易受極端值的影響泄私,不能反映出中間數(shù)據(jù)的分散情況房揭。
② 平均差
平均差也稱平均絕對離差备闲、平均偏差,它是各變量值與其平均數(shù)離差絕對值的平均數(shù)捅暴。平均差以平均數(shù)為中心恬砂,反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度。為了避免離差之和等于零而無法計算平均差這個問題蓬痒,因此采取了絕對值泻骤,以離差的絕對值來表示總離差。
③ 方差
方差是各變量值與其平均數(shù)離差平方的平均數(shù)梧奢。
④ 標準差
標準差是方差的平方根狱掂。
★ 注意 ★
- 方差和標準差能較好地反映出數(shù)據(jù)的離散程度,是應(yīng)用最廣的離散程度的測度值亲轨。
- 樣本方差是用樣本數(shù)據(jù)個數(shù)減1后去除離差平方和趋惨,其中樣本數(shù)據(jù)個數(shù)減1,即n-1稱為自由度惦蚊。
- 與方差不同的是器虾,標準差是有量綱的,它與變量值的計量單位相同蹦锋,其實際意義比方差清楚兆沙。因此,在對實際問題進行分析時會更多地使用標準差莉掂。
㈡ 順序數(shù)據(jù)
四分位差
四分位差 IQR(四分位距):是上四分位數(shù)和下四分位數(shù)之差挤悉。它反映了中間50%的數(shù)據(jù)的離散程度,其數(shù)值越小巫湘,說明中間的數(shù)據(jù)越集中装悲,反之則越分散尚氛。同樣不受極值的影響诀诊。
㈢ 分類數(shù)據(jù)
異眾比率
異眾比率指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度属瓣。異眾比率越大說明眾數(shù)的代表性越差抡蛙,越小說明眾數(shù)的代表性越好魂迄。
㈣ 相對離散程度
離散系數(shù)
離散系數(shù)又稱變異系數(shù)捣炬, 它是一組數(shù)據(jù)的標準差與其相應(yīng)的平均數(shù)之比。離散系數(shù)主要用于比較不同樣本數(shù)據(jù)的離散程度婿屹。離散系數(shù)大灭美,說明數(shù)據(jù)的離散程度越大,離散系數(shù)小昂利,說明數(shù)據(jù)的離散程度也小届腐。
三、分布的形狀
㈠ 偏態(tài)系數(shù)
偏態(tài)是對數(shù)據(jù)分布對稱性的測度蜂奸。測度偏態(tài)的統(tǒng)計量是偏態(tài)系數(shù)梯捕,用SK表示。SK的值越大窝撵,表示偏斜的程度越大。
- 如果一組數(shù)據(jù)的分布是對稱的襟铭,離差三次方(具體公式看后面的圖)后正負離差可以相互抵消碌奉,則SK等于0。
- 如果分布是非對稱的寒砖,偏態(tài)系數(shù)有正有負赐劣。SK為正值時,表示正離差值較大哩都,判斷為正偏或右偏魁兼。
- SK為負值時,表示負離差值較大漠嵌,判斷為負偏或左偏咐汞。
㈡ 峰態(tài)系數(shù)
峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度。測度峰態(tài)的統(tǒng)計量是峰態(tài)系數(shù)儒鹿,用K表示化撕。峰態(tài)通常是相對于標準正態(tài)分布而言的:
- 如果一組數(shù)據(jù)服從標準正態(tài)分布,則峰態(tài)系數(shù)的值為0约炎;
- 如果峰態(tài)系數(shù)的值明顯不等于0植阴,則表明分布比正態(tài)分布更平或更尖,稱為平峰分布或尖峰分布圾浅。K大于0時為尖峰分布掠手,數(shù)據(jù)分布更集中;小于0時為扁平分布狸捕,數(shù)據(jù)的分布越分散喷鸽。
相關(guān)的數(shù)學(xué)公式如下:(手寫一遍,加深記憶灸拍,哈哈...)
方差魁衙、離散系數(shù)报腔、偏態(tài)系數(shù)和峰態(tài)系數(shù):
自認為是自己寫得很用心的一篇文章啦,嘻嘻剖淀!總體來說纯蛾,上述知識也算消化了大半了,比較不熟悉的是后面的偏態(tài)系數(shù)和峰態(tài)系數(shù)纵隔,有待后面繼續(xù)深入探索翻诉。下周開始結(jié)合Python進行描述性統(tǒng)計實踐。在看的小伙伴們?nèi)绻X得對你有用的話點個喜歡捌刮,發(fā)現(xiàn)有不對的地方歡迎留言指正碰煌,謝謝~