注:說(shuō)人話的統(tǒng)計(jì)學(xué)系列原連載于協(xié)和八微信公眾號(hào)利凑。本文為筆者的學(xué)習(xí)筆記浆劲,每篇文章標(biāo)題已加入原文超鏈接。如侵權(quán)請(qǐng)告知哀澈。
第 2 章 算術(shù)平均數(shù)與正態(tài)分布
01 數(shù)據(jù)到手了牌借,第一件事先干啥?| 說(shuō)人話的統(tǒng)計(jì)學(xué)
1 探索性數(shù)據(jù)分析(exploratory data analysis) 預(yù)處理(pre-processing)
- 發(fā)現(xiàn)數(shù)據(jù)中可能存在的錯(cuò)誤和遺漏
- 掌握數(shù)據(jù)的基本情況
- 檢查我們想要執(zhí)行的統(tǒng)計(jì)檢驗(yàn)的假設(shè)是否成立
1.1 離散型數(shù)據(jù)(discrete data)
1.1.1 有序變量(ordinal variable)
教育程度
1.1.2 名義變量(nominal variable)
基因型
1.2 離散型數(shù)據(jù)的探索性數(shù)據(jù)分析
頻數(shù)(或頻率)表
1.3 連續(xù)型數(shù)據(jù)(continuous data)
身高體重
1.4 連續(xù)型數(shù)據(jù)的探索性數(shù)據(jù)分析
1.4.1 集中趨勢(shì)(central tendency)
平均數(shù)(mean)
算術(shù)平均數(shù)(arithmatic mean)
中位數(shù)(median)
1.4.2 展布(spread) 數(shù)據(jù)的波動(dòng)或發(fā)散程度
方差(variance)
標(biāo)準(zhǔn)差(standard deviation)
四分位點(diǎn)(quartile)
四分位差(interquartile range) Q3和Q1之差
1.5 統(tǒng)計(jì)圖
箱線圖(boxplot)
頻率直方圖(histogram)
02 算術(shù)平均數(shù):簡(jiǎn)單背后有乾坤 | 說(shuō)人話的統(tǒng)計(jì)學(xué)·協(xié)和八
“極大似然估計(jì)”(maximum likelihood estimation, MLE)
對(duì)真值μ的不同估計(jì)可以看成是不同的假說(shuō)割按,而在這些假說(shuō)的基礎(chǔ)上走哺,我們實(shí)際得到的數(shù)據(jù)出現(xiàn)的概率P(數(shù)據(jù)|假說(shuō))(即似然函數(shù)likelihood)就不同,由此我們選出那個(gè)能使P(數(shù)據(jù)|假說(shuō))最大的估計(jì)值作為我們最愿意相信的一個(gè)哲虾。
高斯:反正算術(shù)平均數(shù)都被人類(lèi)用了千百年丙躏,沒(méi)準(zhǔn)兒它就是對(duì)真值的極大似然估計(jì)呢?干脆我來(lái)看看束凑,什么樣的誤差分布能讓算術(shù)平均數(shù)成為極大似然估計(jì)吧晒旅?
高斯推出來(lái)的正是著名的正態(tài)分布(normal distribution,也稱(chēng)高斯分布)
03 正態(tài)分布到底是怎么來(lái)的汪诉?| 協(xié)和八
棣莫弗-拉普拉斯中心極限定理
De Moivre-Laplace Central LimitTheorem
如果我們有n個(gè)獨(dú)立的废恋、分布相同的以概率p取1、以概率1-p取0的隨機(jī)變量扒寄,如果n足夠大鱼鼓,它們加起來(lái)的和稍作變換之后就會(huì)服從正態(tài)分布。一個(gè)很不嚴(yán)謹(jǐn)?shù)歉?jiǎn)單的說(shuō)法就是该编,一堆足夠多的0/1取值的變量加起來(lái)會(huì)變成一個(gè)正態(tài)分布迄本。
Lindelberg-Levy中心極限定理
如果我們有n個(gè)獨(dú)立、同分布的隨機(jī)變量课竣,而且它們的均值和方差都是有限的嘉赎,那么當(dāng)n趨于無(wú)窮大時(shí),這n個(gè)隨機(jī)變量之和的一個(gè)簡(jiǎn)單變換(類(lèi)似于之前棣莫弗-拉普拉斯中心極限定理中的變換)服從正態(tài)分布于樟。
中心極限定理3.x版
很多時(shí)候公条,即使隨機(jī)變量并不獨(dú)立,或者并非來(lái)自同樣的概率分布迂曲,它們的和(或者均值——由于n是個(gè)確定的數(shù)靶橱,因此求和與求均值是等價(jià)的)在n足夠大時(shí)仍然服從正態(tài)分布。