Coursera Basic Statistics 統(tǒng)計基礎(chǔ) 筆記

這兩天修完了Coursera 上的 Basic Statistics - University of Amsterdam
具體的筆記就不搬了羡亩，這個課不錯，很多生動的案例币他，老師很萌抽兆，推薦給統(tǒng)計入門的同學(xué)。
這里我分享一些讓我百思不得其解的問題酪穿，和后來是怎么弄清楚的与倡。

image from Basic Statistics - www.coursera.org

標準差公式

總體標準差：

\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu )^2}

樣本標準差：

s = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(x_i-\bar{x} )^2}

這里最讓我納悶的事情就是為什么樣本標準差除的是 N-1 而不是N. 原來這個和自由度還有關(guān)系。原來如果直接用樣本均值套到總體標準差的公式里昆稿，求出來的方差會偏小纺座。所以用 N-1 把結(jié)果『放大』一點，就能獲得方差的正確的估計了溉潭。
換一個說法净响，在求方差之前我們已經(jīng)有了樣本的平均值，那么樣本的自由度就為 N-1, 所以除以 N-1 可以獲得方差的無偏估計喳瓣。

參考

為什么樣本方差（sample variance）的分母是 n-1馋贤？ - 知乎
樣本方差的自由度是n-1，為何總體的自由度就是n畏陕？在求總體方差時配乓，難道不也要用到總體的均值嗎？ - 知乎

z-table & t-table

正態(tài)分布的公式

總看到用公式求值的時候總是用z table找z-value對應(yīng)的p-value. 例如week 5的一個例子：從巴黎的hispter中隨機抽一個，他讀 On the road 超過1000分鐘的概率是犹芹？做法就是用sample的 mean 和 standard deviation 求出 z-value, 再查表得出累積概率崎页。就是這個：
[站外圖片上傳中...(image-5c654f-1529115674251)]

我一開始還以為每個sample都有不同的 z-table, 在老師搬出z-table的時候還很納悶，為什么總有這個table?
后來才明白這是標準正態(tài)分布表, 因為 z-value 是把 sample standardize 后的值腰埂，反正有了z-value就可以查表知道從0到 z 的面積.
然后問題又來了飒焦，這個表是哪里來的？順手Google了一下屿笼。我們已經(jīng)知道了正態(tài)分布的概率密度函數(shù)：

f(x)=\frac{1}{\sigma\sqrt{2\pi }}e^{-0.5(\frac{x-\mu}{\sigma})^2}

這里分清三個概念：

PDF：概率密度函數(shù)（probability density function）, 在數(shù)學(xué)中牺荠，連續(xù)型隨機變量的概率密度函數(shù)（在不至于混淆時可以簡稱為密度函數(shù)）是一個描述這個隨機變量的輸出值，在某個確定的取值點附近的可能性的函數(shù)驴一。
PMF : 概率質(zhì)量函數(shù)（probability mass function), 在概率論中休雌，概率質(zhì)量函數(shù)是離散隨機變量在各特定取值上的概率。
CDF : 累積分布函數(shù) (cumulative distribution function)肝断，又叫分布函數(shù)杈曲，是概率密度函數(shù)的積分，能完整描述一個實隨機變量X的概率分布孝情。
pdf 和 pmf 的不同之處在于：概率質(zhì)量函數(shù)是對離散隨機變量定義的鱼蝉，本身代表該值的概率；概率密度函數(shù)是對連續(xù)隨機變量定義的箫荡，本身不是概率魁亦，只有對連續(xù)隨機變量的概率密度函數(shù)在某區(qū)間內(nèi)進行積分后才是概率。

我們通過查 z-table 得出的值是cdf. 如果要求從0到 z 中的某個區(qū)域的面積羔挡，我們可以通過積分得出
[圖片上傳失敗...(image-93fd77-1529115674251)]=\int_{x_{1}}^{{x_{2}}\frac{1}{\sigma&space;\sqrt{2\pi&space;}}e}{-0.5(\frac{x-\mu&space;}{\sigma&space;})^2})
換句話說洁奈，cdf 是pdf的積分，pdf是cdf的導(dǎo)數(shù)绞灼。我沒學(xué)過積分所以到這就不是我理解范圍之內(nèi)的了利术。總之可以愉快地使用 z-table了低矮，t-table也是同理印叁。
不過 t-table還有一個麻煩的地方就是單尾雙尾檢測 (One tail & two tails) 時看表略有不同。標準的 t-table 會標明 level of significance.

image from: How to Read Student’s t Distribution Table (With PDF)

參考：

概率中的PDF军掂，PMF轮蜕，CDF
Where do the values in the Z-table come from? By: Krista Floer
Where do the values in a z-table come from?

標準差和標準誤 SD & SEM

這個概念真的很想讓我死啊，想了一會兒想明白了蝗锥，過了幾天又不明白了跃洛，寫下來防止下次又忘了。
其實標準差很好理解的终议，上面也說了總體標準差 α 的公式汇竭。
但標準誤真的很饒人葱蝗。先上公式：

\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}

根據(jù)中心極限定理：

Sampling distribution of sample mean approaches a normal distribution with mean μ and variance σ^2/n as the sample size becomes large.
大量相互獨立隨機變量的均值經(jīng)適當標準化后依分布收斂于正態(tài)分布。

Standard error of mean 的意思是樣本均值與總體均值的近似度细燎。樣本越大两曼，標準誤差就越小，樣本均值與總體均值也就越接近找颓。

Standard error of the mean is a measure of how far your sample mean is likely to be from the true mean of the population. So lower the SEM, the more likely your calculated mean is close the actual mean (Piers Support).
SD - variability of data
SEM - precision of data

圖片來源：Piers Support - YouTube

如上圖合愈，多次取樣會得到不同的 sample mean, 將這些 sample 匯總得到的 SD of sample mean 就是 standard error.

例（如下圖）：當SD等于10時叮贩，不同的樣本大小會得到不同的SEM. 樣本量越大击狮，其平均數(shù)越接近總體平均數(shù)，根據(jù)公式益老，SEM越小彪蓬，也就越精確。

圖片來源：http://davidmlane.com/hyperstat/A107371.html

這些都還好懂捺萌，最讓人不懂的是根號n是怎么來的档冬。維基百科說：

https://en.wikipedia.org/wiki/Standard_error#Derivations

理解一：如果按照定義求 SEM，N 次取樣桃纯，variance of sampling distribution of sample mean （σ 為總體標準差）

\sigma_{\bar{x}}^2=\frac{\sigma^2}{N}

那么 SEM 的公式直接開方就 make sense了酷誓。
但其實 SEM 公式里的 n 是樣本大小而非取樣次數(shù)，這點我一直沒有理解态坦。
理解二：如果把 SEM 單純看成描述樣本精確度的一個系數(shù)盐数，除以根號 n，樣本越大 SEM 越小伞梯，越精確玫氢。

理解一是 N 次取樣的標準差，所有的取樣有一個標準差（標準誤）谜诫。理解二是描述一次取樣的精確度漾峡，每次取樣都有不同的標準誤。

參考

有沒有懂統(tǒng)計的喻旷，標準誤為什么等于標準差除以根號n生逸，求公式推導(dǎo)過程？ - 知乎
Standard Deviation and Standard Error of the Mean
Standard error - Wikipedia

Update: Standard Error of the Mean

晚上睡覺前看了 Charles Wheelan 寫的Naked Statistics 第八章且预，對中心極限定理和標準誤有非常詳細的解釋槽袄。書中作者以 Americans' changing lives 的數(shù)據(jù)為例解釋了標準誤的大小和其精確度的關(guān)系。

下圖1) 樣本量 n=20, 從總體隨機取樣辣之；2）樣本量 n=100, 從總體隨機取樣掰伸；3）樣本量 n=100, 從女性隨機取樣；

Naked statistics, chapter 8

我們可以看到怀估，樣本量小的時候數(shù)據(jù)比較分散狮鸭，樣本量大的時候更為集中合搅，當總體的平均值下降時，隨機樣本的平均值也會下降（男性+女性 VS 女性）歧蕉。

A large standard error means that the sample means are spread out widely around the population mean; a small standard error means that they are clustered relatively tightly.

標準誤作為樣本均值的標準差灾部，和總體標準差 σ 成正比，和樣本量 n 成反比惯退，所以一個是分子赌髓，一個是分母。

參考

Wheelan, C. (2013). Naked statistics: Stripping the dread from the data. Chapter 8. WW Norton & Company.

置信區(qū)間 Confidence Interval

后來我才明白我糾結(jié)的地方不在標準誤公式催跪，而是當總體標準差 (population standard deviation) 未知時求置信區(qū)間的方法锁蠕。

首先，根據(jù)中心極限定理懊蒸，樣本平均數(shù)會接近荣倾，但或多或少和總體平均數(shù)有所偏差。如下圖骑丸，在正態(tài)分布中舌仍，68%的樣本平均數(shù)（我們會取樣很多次）在離同體平均數(shù)一個標準差范圍內(nèi)，95%的樣本平均數(shù)在離同體平均數(shù)兩個標準差范圍內(nèi)通危。

https://www.quora.com/Is-there-a-derivation-for-the-68-95-99-rule-in-normal-distribution

如果我們已知總體標準誤和總體平均值铸豁，我們可以推測68%的樣本平均數(shù)離總體平均值有一個標準誤的距離，從而得知這些樣本平均數(shù)的范圍菊碟。

反過來节芥，如果我們已知總體標準誤和一次取樣的平均值，就可以推測出離總體平均數(shù)若干個標準差的范圍（誤差范圍）框沟，最大誤差范圍為E:

\bar{x}-E<\mu<\bar{x}+E

當總體標準差已知時藏古，我們采用 z 檢驗，置信區(qū)間的公式為：

\mu=\bar{x}\pm Z_{\frac{a}{2}}\frac{\sigma }{\sqrt{n}}

但現(xiàn)實情況中一般我們都不知道總體標準差忍燥，所以我們用 t-檢驗（別問我為什么）. 因為總體標準差未知拧晕，我們只能用樣本標準差來推測總體 estimate the Standard Error of the Mean:

\mu=\bar{x}\pm t_{\frac{a}{2}}\frac{s}{\sqrt{n}}

如果看 t 分布的表，信度相同時 t 值會比 z 值大一些梅垄，多少將 maximum error of the estimate 擴大了厂捞。

參考

STAT 100 | Statistical concepts and reasoning - 10.3 Confidence Intervals for a Population Mean
Stats: Estimating the Mean

最后編輯于：2018.08.06 18:32:36

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市队丝，隨后出現(xiàn)的幾起案子靡馁，更是在濱河造成了極大的恐慌，老刑警劉巖机久，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件臭墨，死亡現(xiàn)場離奇詭異，居然都是意外死亡膘盖，警方通過查閱死者的電腦和手機胧弛，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門尤误，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人结缚，你說我怎么就攤上這事损晤。” “怎么了红竭？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵尤勋，是天一觀的道長。經(jīng)常有香客問我茵宪，道長最冰，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任眉厨，我火速辦了婚禮锌奴，結(jié)果婚禮上兽狭，老公的妹妹穿的比我還像新娘憾股。我一直安慰自己，他們只是感情好箕慧，可當我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布服球。她就那樣靜靜地躺著，像睡著了一般颠焦。火紅的嫁衣襯著肌膚如雪斩熊。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天伐庭，我揣著相機與錄音粉渠，去河邊找鬼。笑死圾另，一個胖子當著我的面吹牛霸株，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播集乔，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼去件，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了扰路？” 一聲冷哼從身側(cè)響起尤溜，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎汗唱，沒想到半個月后宫莱，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡哩罪，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年授霸，在試婚紗的時候發(fā)現(xiàn)自己被綠了肥印。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绝葡，死狀恐怖深碱，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情藏畅，我是刑警寧澤敷硅，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站愉阎，受9級特大地震影響绞蹦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜榜旦，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一幽七、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧溅呢，春花似錦澡屡、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案驶鹉，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至铣墨，卻和暖如春室埋，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背伊约。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工姚淆，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人屡律。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓腌逢，卻偏偏與公主長得像，于是被迫代替她去往敵國和親疹尾。傳聞我的和親對象是個殘疾皇子上忍，可洞房花燭夜當晚...
茶點故事閱讀 45,860評論 2贊 361