統(tǒng)計(jì)學(xué)基礎(chǔ) 描述統(tǒng)計(jì)

最近在公眾號(hào)認(rèn)識(shí)大V居士老師,最初說(shuō)要組織人一起系統(tǒng)學(xué)習(xí)數(shù)據(jù)挖掘萎战,其中涉及統(tǒng)計(jì)+機(jī)器學(xué)習(xí)的理論基礎(chǔ)咐容。趕著這么好的機(jī)會(huì)決定開(kāi)始行動(dòng)。第一周主題是描述性統(tǒng)計(jì)使用工具為Excel蚂维。希望大家不要陷入死記硬背戳粒,而是要將每個(gè)概念從實(shí)際解決問(wèn)題的環(huán)節(jié)中抽離,圍繞要解決問(wèn)題虫啥,樹(shù)立目標(biāo)蔚约,選擇合適的統(tǒng)計(jì)量,然后得出結(jié)論孝鹊。本文會(huì)按照三塊來(lái)講明白描述統(tǒng)計(jì)的幾種統(tǒng)計(jì)量炊琉,實(shí)例、公式又活、概念苔咪、擴(kuò)展附錄(包括:Excel的數(shù)據(jù)是怎么來(lái)的,公式使用有哪些技巧)柳骄。因?yàn)楦拍罹哂邢到y(tǒng)性和相對(duì)枯燥性团赏,放在最后的部分對(duì)例子中用到的思路進(jìn)行說(shuō)明。

第一部分:實(shí)例

先來(lái)看一組數(shù)據(jù):


2013班級(jí)同學(xué)身體及成績(jī)狀況

問(wèn)題1 這個(gè)班級(jí)的同學(xué)身高體重發(fā)育情況如何耐薯?圍繞這個(gè)問(wèn)題進(jìn)行拆解:


計(jì)算2013班同學(xué)年齡身高體重分析過(guò)程


計(jì)算之后的結(jié)果

結(jié)論:經(jīng)過(guò)分析舔清,我們對(duì)2013班同學(xué)整體的身高體重進(jìn)行匯報(bào):

該班同學(xué)主要的年齡平均值為14,其中最多為15歲曲初,排名居中為14歲体谒;

平均身高為149,最多的身高分布為131臼婆,排名居中的身高為147

平均體重為56kg抒痒,分布最多的是47kg,偏中為55kg

相較體重和身高分布來(lái)說(shuō)均值在56颁褂,根據(jù)身高體重對(duì)照表來(lái)說(shuō)故响,該班同學(xué)整體偏胖

去年一年,身高上漲均值為17%


那么颁独,年齡彩届、身高體重分組趨勢(shì)是如何的呢?我們將年齡每多一歲為一組誓酒,身高每5kg為一組樟蠕,體重每5kg為一組對(duì)每組頻率分布進(jìn)行統(tǒng)計(jì)如下圖所所示:

年齡身高體重分布圖

問(wèn)題2 班里語(yǔ)文跟數(shù)學(xué)成績(jī)哪個(gè)成績(jī)更好?是否存在兩極化差異?分布最集中的分?jǐn)?shù)段在什么地方


語(yǔ)文數(shù)學(xué)成績(jī)分析


數(shù)學(xué)語(yǔ)文成績(jī)好壞及分散程度

結(jié)論:語(yǔ)文跟數(shù)學(xué)數(shù)據(jù)對(duì)比分析

相較于語(yǔ)文坯墨,數(shù)學(xué)整體平均分?jǐn)?shù)更高寂汇,兩極化差異小病往,最好和最差的差距較小捣染。

數(shù)學(xué)跟語(yǔ)文一樣,都屬于非正態(tài)分布停巷,成績(jī)分布最集中的在左邊耍攘,是左偏分布

語(yǔ)文和數(shù)學(xué)成績(jī)分布都相對(duì)分散,不集中


那對(duì)數(shù)學(xué)和語(yǔ)文進(jìn)行分每4分分一組畔勤,查看頻率情況蕾各,分析結(jié)果如下圖所示:


語(yǔ)文和數(shù)學(xué)的分布集中趨勢(shì)

接著我們按照這個(gè)分組更進(jìn)一步對(duì)語(yǔ)文數(shù)學(xué)眾數(shù)組的代表度進(jìn)行分析(異眾比率)


異眾比率分析

按照每組中分?jǐn)?shù)出現(xiàn)的不同頻率進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)數(shù)學(xué)異眾比率和語(yǔ)文持平均高于50%庆揪,說(shuō)明數(shù)學(xué)和語(yǔ)文的眾數(shù)無(wú)法很好地代表總體式曲。

綜上:這個(gè)班的學(xué)生體重偏大;語(yǔ)文和數(shù)學(xué)成績(jī)相比缸榛,數(shù)學(xué)成績(jī)更好吝羞,分散更集中。語(yǔ)文兩極化分布嚴(yán)重内颗,且優(yōu)生占比較高

第二部分 統(tǒng)計(jì)學(xué)概念 描述統(tǒng)計(jì)

好噠钧排,以上實(shí)例就介紹完成了。接下來(lái)我們一一拆解這個(gè)實(shí)例中用到的統(tǒng)計(jì)學(xué)概念:

描述性統(tǒng)計(jì)顧名思義均澳,對(duì)一組數(shù)據(jù)進(jìn)行大致的了解和描述恨溜。它是對(duì)一組數(shù)據(jù)做分析的基礎(chǔ)。那么如何簡(jiǎn)明扼要的認(rèn)識(shí)這組數(shù)據(jù)呢找前?

總體來(lái)說(shuō)糟袁,要從三個(gè)大的方面來(lái)說(shuō)明:集中趨勢(shì):描述整組數(shù)據(jù)的集中程度;離散程度:數(shù)據(jù)中的離中趨勢(shì)躺盛,對(duì)數(shù)據(jù)組中各個(gè)數(shù)據(jù)分布情況做出的說(shuō)明项戴;相對(duì)離散程度:變異的偏離程度;分布形狀:一眼知道這組數(shù)據(jù)是否是正態(tài)分布還是偏態(tài)分布颗品,如果是偏態(tài)分布肯尺,是正偏態(tài)還是負(fù)偏態(tài)

算數(shù)平均數(shù)(也叫平均數(shù)):表示一組數(shù)據(jù)集中趨勢(shì)的量數(shù),一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)

加權(quán)平均數(shù):有些時(shí)候躯枢,每個(gè)數(shù)據(jù)值的權(quán)重是不一樣的则吟,需要用加權(quán)算術(shù)平均值來(lái)表示數(shù)據(jù)集合的集中趨勢(shì)。每個(gè)數(shù)據(jù)可能其所代表的權(quán)重不同锄蹂,先對(duì)其進(jìn)行加權(quán)和求和氓仲,之后統(tǒng)一除以加權(quán)后的數(shù)量

幾何平均數(shù):有些數(shù)據(jù)之間的關(guān)系不是加減關(guān)系而是乘除關(guān)系。用幾何平均值來(lái)表示這樣的數(shù)值組成的數(shù)據(jù)集合的集中趨勢(shì)。比如銀行的平均存款年利率敬扛、汽車(chē)每條生產(chǎn)線平均產(chǎn)品合格率晰洒、學(xué)生學(xué)習(xí)成績(jī)平均增長(zhǎng)率川队。既然要計(jì)算根號(hào)娜谊,那需要確保其中所有值都大于0

眾數(shù):在數(shù)據(jù)集合中,只有一個(gè)數(shù)值出現(xiàn)次數(shù)最多右犹,那么這個(gè)數(shù)據(jù)就是該數(shù)據(jù)集的眾數(shù)急侥。

中位數(shù):將數(shù)據(jù)集從高到低排列砌滞,最中間的數(shù)就是中位數(shù),中位數(shù)比平均數(shù)的優(yōu)勢(shì)在于不受數(shù)據(jù)集合中個(gè)別極端值的影響坏怪,表現(xiàn)出穩(wěn)定的特點(diǎn)

數(shù)據(jù)離中趨勢(shì)有以下幾種統(tǒng)計(jì)量:

方差:方差與平均差一樣也代表所有數(shù)值與平均值偏差的距離贝润,而方差的解決方式是平方

標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差沿襲了方差的解決方案但是為了處理單位平方的問(wèn)題對(duì)整個(gè)公式加了根號(hào)

極差(全距):數(shù)據(jù)集合中最大和最小值的差值,表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離

平均差:代表所有數(shù)值與平均值的平均偏差距離

四分位差:四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1)铝宵,這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集50%的數(shù)據(jù)值

相對(duì)離散程度一般會(huì)使用離散系數(shù)表示:

離散系數(shù):平均水平不同的變量打掘,不宜直接比較標(biāo)準(zhǔn)差。離散系數(shù)能消除變量值水平高低和單位不同的影響鹏秋。離散系數(shù)(變異系數(shù))= 標(biāo)準(zhǔn)差/平均值

具體的分布形態(tài)是以下幾種:

異眾比率:首先對(duì)數(shù)學(xué)成績(jī)分布進(jìn)行分組尊蚁,獲得眾數(shù)組,接著查看眾數(shù)組的數(shù)據(jù)情況

偏態(tài)系數(shù):SK>0 右偏拼岳,SK<0枝誊,左偏。SK=0惜纸,對(duì)稱(chēng)叶撒。越接近0 ,偏態(tài)程度越低耐版。SK越大祠够,偏斜程度越大

峰態(tài)系數(shù):正態(tài)分布的峰度K=3,均勻分布的峰度K=1.8粪牲。

除了左偏右偏之外我們還需要從峰度上看峰度是否偏離了正態(tài)分布

kurtosis=K-3 稱(chēng)為超值峰度

kurtosis>0古瓤,尖峰態(tài)(leptokurtic),數(shù)據(jù)集比較分散腺阳,極端數(shù)值較多

kurtosis<0落君,低峰態(tài)(platykurtic),數(shù)據(jù)集比較集中亭引,兩側(cè)的數(shù)據(jù)比較少

第三部分 如何使用Excel玩轉(zhuǎn)這組數(shù)據(jù)

1绎速、這組數(shù)據(jù)是如何隨機(jī)產(chǎn)生的?

一個(gè)重要的公式:RANDBETWEEN(1,100) 可以幫你產(chǎn)生1-100隨機(jī)數(shù)值

2焙蚓、最后一個(gè)實(shí)例用到的異眾比率是如何一次性計(jì)算好的纹冤?

Excel對(duì)同一組數(shù)據(jù)進(jìn)行分組常常用到數(shù)據(jù)分組的公式洒宝,操作如下:選中要填充的單元格,填寫(xiě)公式“=FREQUENCY(B2:B42,H2:H9)”萌京,同時(shí)按下Ctrl+shift+enter 即可完成數(shù)組運(yùn)算


666的異眾比率計(jì)算


最后雁歌,附上整個(gè)Excel表格,不過(guò)貌似簡(jiǎn)書(shū)沒(méi)有發(fā)現(xiàn)插入公式的地方知残,具體有需要可以聯(lián)系我 zhaoxiajdt?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末靠瞎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子橡庞,更是在濱河造成了極大的恐慌较坛,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扒最,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡华嘹,警方通過(guò)查閱死者的電腦和手機(jī)吧趣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)耙厚,“玉大人强挫,你說(shuō)我怎么就攤上這事⊙” “怎么了俯渤?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)型宝。 經(jīng)常有香客問(wèn)我八匠,道長(zhǎng),這世上最難降的妖魔是什么趴酣? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任梨树,我火速辦了婚禮,結(jié)果婚禮上岖寞,老公的妹妹穿的比我還像新娘抡四。我一直安慰自己,他們只是感情好仗谆,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布指巡。 她就那樣靜靜地躺著,像睡著了一般隶垮。 火紅的嫁衣襯著肌膚如雪藻雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1 290
  • 那天岁疼,我揣著相機(jī)與錄音阔涉,去河邊找鬼缆娃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瑰排,可吹牛的內(nèi)容都是我干的贯要。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼椭住,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼崇渗!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起京郑,我...
    開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宅广,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后些举,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體跟狱,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年户魏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驶臊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡叼丑,死狀恐怖关翎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情鸠信,我是刑警寧澤纵寝,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站星立,受9級(jí)特大地震影響爽茴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贞铣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一闹啦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧辕坝,春花似錦窍奋、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至纺酸,卻和暖如春窖逗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背餐蔬。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工碎紊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留佑附,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓仗考,卻偏偏與公主長(zhǎng)得像音同,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子秃嗜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348