最近在公眾號(hào)認(rèn)識(shí)大V居士老師,最初說(shuō)要組織人一起系統(tǒng)學(xué)習(xí)數(shù)據(jù)挖掘萎战,其中涉及統(tǒng)計(jì)+機(jī)器學(xué)習(xí)的理論基礎(chǔ)咐容。趕著這么好的機(jī)會(huì)決定開(kāi)始行動(dòng)。第一周主題是描述性統(tǒng)計(jì)使用工具為Excel蚂维。希望大家不要陷入死記硬背戳粒,而是要將每個(gè)概念從實(shí)際解決問(wèn)題的環(huán)節(jié)中抽離,圍繞要解決問(wèn)題虫啥,樹(shù)立目標(biāo)蔚约,選擇合適的統(tǒng)計(jì)量,然后得出結(jié)論孝鹊。本文會(huì)按照三塊來(lái)講明白描述統(tǒng)計(jì)的幾種統(tǒng)計(jì)量炊琉,實(shí)例、公式又活、概念苔咪、擴(kuò)展附錄(包括:Excel的數(shù)據(jù)是怎么來(lái)的,公式使用有哪些技巧)柳骄。因?yàn)楦拍罹哂邢到y(tǒng)性和相對(duì)枯燥性团赏,放在最后的部分對(duì)例子中用到的思路進(jìn)行說(shuō)明。
第一部分:實(shí)例
先來(lái)看一組數(shù)據(jù):
問(wèn)題1 這個(gè)班級(jí)的同學(xué)身高體重發(fā)育情況如何耐薯?圍繞這個(gè)問(wèn)題進(jìn)行拆解:
結(jié)論:經(jīng)過(guò)分析舔清,我們對(duì)2013班同學(xué)整體的身高體重進(jìn)行匯報(bào):
該班同學(xué)主要的年齡平均值為14,其中最多為15歲曲初,排名居中為14歲体谒;
平均身高為149,最多的身高分布為131臼婆,排名居中的身高為147
平均體重為56kg抒痒,分布最多的是47kg,偏中為55kg
相較體重和身高分布來(lái)說(shuō)均值在56颁褂,根據(jù)身高體重對(duì)照表來(lái)說(shuō)故响,該班同學(xué)整體偏胖
去年一年,身高上漲均值為17%
那么颁独,年齡彩届、身高體重分組趨勢(shì)是如何的呢?我們將年齡每多一歲為一組誓酒,身高每5kg為一組樟蠕,體重每5kg為一組對(duì)每組頻率分布進(jìn)行統(tǒng)計(jì)如下圖所所示:
問(wèn)題2 班里語(yǔ)文跟數(shù)學(xué)成績(jī)哪個(gè)成績(jī)更好?是否存在兩極化差異?分布最集中的分?jǐn)?shù)段在什么地方
結(jié)論:語(yǔ)文跟數(shù)學(xué)數(shù)據(jù)對(duì)比分析
相較于語(yǔ)文坯墨,數(shù)學(xué)整體平均分?jǐn)?shù)更高寂汇,兩極化差異小病往,最好和最差的差距較小捣染。
數(shù)學(xué)跟語(yǔ)文一樣,都屬于非正態(tài)分布停巷,成績(jī)分布最集中的在左邊耍攘,是左偏分布
語(yǔ)文和數(shù)學(xué)成績(jī)分布都相對(duì)分散,不集中
那對(duì)數(shù)學(xué)和語(yǔ)文進(jìn)行分每4分分一組畔勤,查看頻率情況蕾各,分析結(jié)果如下圖所示:
接著我們按照這個(gè)分組更進(jìn)一步對(duì)語(yǔ)文數(shù)學(xué)眾數(shù)組的代表度進(jìn)行分析(異眾比率)
按照每組中分?jǐn)?shù)出現(xiàn)的不同頻率進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)數(shù)學(xué)異眾比率和語(yǔ)文持平均高于50%庆揪,說(shuō)明數(shù)學(xué)和語(yǔ)文的眾數(shù)無(wú)法很好地代表總體式曲。
綜上:這個(gè)班的學(xué)生體重偏大;語(yǔ)文和數(shù)學(xué)成績(jī)相比缸榛,數(shù)學(xué)成績(jī)更好吝羞,分散更集中。語(yǔ)文兩極化分布嚴(yán)重内颗,且優(yōu)生占比較高
第二部分 統(tǒng)計(jì)學(xué)概念 描述統(tǒng)計(jì)
好噠钧排,以上實(shí)例就介紹完成了。接下來(lái)我們一一拆解這個(gè)實(shí)例中用到的統(tǒng)計(jì)學(xué)概念:
描述性統(tǒng)計(jì)顧名思義均澳,對(duì)一組數(shù)據(jù)進(jìn)行大致的了解和描述恨溜。它是對(duì)一組數(shù)據(jù)做分析的基礎(chǔ)。那么如何簡(jiǎn)明扼要的認(rèn)識(shí)這組數(shù)據(jù)呢找前?
總體來(lái)說(shuō)糟袁,要從三個(gè)大的方面來(lái)說(shuō)明:集中趨勢(shì):描述整組數(shù)據(jù)的集中程度;離散程度:數(shù)據(jù)中的離中趨勢(shì)躺盛,對(duì)數(shù)據(jù)組中各個(gè)數(shù)據(jù)分布情況做出的說(shuō)明项戴;相對(duì)離散程度:變異的偏離程度;分布形狀:一眼知道這組數(shù)據(jù)是否是正態(tài)分布還是偏態(tài)分布颗品,如果是偏態(tài)分布肯尺,是正偏態(tài)還是負(fù)偏態(tài)
算數(shù)平均數(shù)(也叫平均數(shù)):表示一組數(shù)據(jù)集中趨勢(shì)的量數(shù),一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)
加權(quán)平均數(shù):有些時(shí)候躯枢,每個(gè)數(shù)據(jù)值的權(quán)重是不一樣的则吟,需要用加權(quán)算術(shù)平均值來(lái)表示數(shù)據(jù)集合的集中趨勢(shì)。每個(gè)數(shù)據(jù)可能其所代表的權(quán)重不同锄蹂,先對(duì)其進(jìn)行加權(quán)和求和氓仲,之后統(tǒng)一除以加權(quán)后的數(shù)量
幾何平均數(shù):有些數(shù)據(jù)之間的關(guān)系不是加減關(guān)系而是乘除關(guān)系。用幾何平均值來(lái)表示這樣的數(shù)值組成的數(shù)據(jù)集合的集中趨勢(shì)。比如銀行的平均存款年利率敬扛、汽車(chē)每條生產(chǎn)線平均產(chǎn)品合格率晰洒、學(xué)生學(xué)習(xí)成績(jī)平均增長(zhǎng)率川队。既然要計(jì)算根號(hào)娜谊,那需要確保其中所有值都大于0
眾數(shù):在數(shù)據(jù)集合中,只有一個(gè)數(shù)值出現(xiàn)次數(shù)最多右犹,那么這個(gè)數(shù)據(jù)就是該數(shù)據(jù)集的眾數(shù)急侥。
中位數(shù):將數(shù)據(jù)集從高到低排列砌滞,最中間的數(shù)就是中位數(shù),中位數(shù)比平均數(shù)的優(yōu)勢(shì)在于不受數(shù)據(jù)集合中個(gè)別極端值的影響坏怪,表現(xiàn)出穩(wěn)定的特點(diǎn)
數(shù)據(jù)離中趨勢(shì)有以下幾種統(tǒng)計(jì)量:
方差:方差與平均差一樣也代表所有數(shù)值與平均值偏差的距離贝润,而方差的解決方式是平方
標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差沿襲了方差的解決方案但是為了處理單位平方的問(wèn)題對(duì)整個(gè)公式加了根號(hào)
極差(全距):數(shù)據(jù)集合中最大和最小值的差值,表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離
平均差:代表所有數(shù)值與平均值的平均偏差距離
四分位差:四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1)铝宵,這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集50%的數(shù)據(jù)值
相對(duì)離散程度一般會(huì)使用離散系數(shù)表示:
離散系數(shù):平均水平不同的變量打掘,不宜直接比較標(biāo)準(zhǔn)差。離散系數(shù)能消除變量值水平高低和單位不同的影響鹏秋。離散系數(shù)(變異系數(shù))= 標(biāo)準(zhǔn)差/平均值
具體的分布形態(tài)是以下幾種:
異眾比率:首先對(duì)數(shù)學(xué)成績(jī)分布進(jìn)行分組尊蚁,獲得眾數(shù)組,接著查看眾數(shù)組的數(shù)據(jù)情況
偏態(tài)系數(shù):SK>0 右偏拼岳,SK<0枝誊,左偏。SK=0惜纸,對(duì)稱(chēng)叶撒。越接近0 ,偏態(tài)程度越低耐版。SK越大祠够,偏斜程度越大
峰態(tài)系數(shù):正態(tài)分布的峰度K=3,均勻分布的峰度K=1.8粪牲。
除了左偏右偏之外我們還需要從峰度上看峰度是否偏離了正態(tài)分布
kurtosis=K-3 稱(chēng)為超值峰度
kurtosis>0古瓤,尖峰態(tài)(leptokurtic),數(shù)據(jù)集比較分散腺阳,極端數(shù)值較多
kurtosis<0落君,低峰態(tài)(platykurtic),數(shù)據(jù)集比較集中亭引,兩側(cè)的數(shù)據(jù)比較少
第三部分 如何使用Excel玩轉(zhuǎn)這組數(shù)據(jù)
1绎速、這組數(shù)據(jù)是如何隨機(jī)產(chǎn)生的?
一個(gè)重要的公式:RANDBETWEEN(1,100) 可以幫你產(chǎn)生1-100隨機(jī)數(shù)值
2焙蚓、最后一個(gè)實(shí)例用到的異眾比率是如何一次性計(jì)算好的纹冤?
Excel對(duì)同一組數(shù)據(jù)進(jìn)行分組常常用到數(shù)據(jù)分組的公式洒宝,操作如下:選中要填充的單元格,填寫(xiě)公式“=FREQUENCY(B2:B42,H2:H9)”萌京,同時(shí)按下Ctrl+shift+enter 即可完成數(shù)組運(yùn)算
最后雁歌,附上整個(gè)Excel表格,不過(guò)貌似簡(jiǎn)書(shū)沒(méi)有發(fā)現(xiàn)插入公式的地方知残,具體有需要可以聯(lián)系我 zhaoxiajdt?