這兩天修完了Coursera 上的 Basic Statistics - University of Amsterdam
具體的筆記就不搬了羡亩,這個課不錯,很多生動的案例币他,老師很萌抽兆,推薦給統(tǒng)計入門的同學(xué)。
這里我分享一些讓我百思不得其解的問題酪穿,和后來是怎么弄清楚的与倡。
標準差公式
總體標準差:
樣本標準差:
這里最讓我納悶的事情就是為什么樣本標準差除的是 N-1 而不是N. 原來這個和自由度還有關(guān)系。原來如果直接用樣本均值套到總體標準差的公式里昆稿,求出來的方差會偏小纺座。所以用 N-1 把結(jié)果『放大』一點,就能獲得方差的正確的估計了溉潭。
換一個說法净响,在求方差之前我們已經(jīng)有了樣本的平均值,那么樣本的自由度就為 N-1, 所以除以 N-1 可以獲得方差的無偏估計喳瓣。
參考
z-table & t-table
正態(tài)分布的公式
總看到用公式求值的時候總是用z table找z-value對應(yīng)的p-value. 例如week 5的一個例子:從巴黎的hispter中隨機抽一個,他讀 On the road 超過1000分鐘的概率是犹芹?做法就是用sample的 mean 和 standard deviation 求出 z-value, 再查表得出累積概率崎页。就是這個:
[站外圖片上傳中...(image-5c654f-1529115674251)]
我一開始還以為每個sample都有不同的 z-table, 在老師搬出z-table的時候還很納悶,為什么總有這個table?
后來才明白這是標準正態(tài)分布表, 因為 z-value 是把 sample standardize 后的值腰埂,反正有了z-value就可以查表知道從0到 z 的面積.
然后問題又來了飒焦,這個表是哪里來的?順手Google了一下屿笼。我們已經(jīng)知道了正態(tài)分布的概率密度函數(shù):
這里分清三個概念:
- PDF:概率密度函數(shù)(probability density function), 在數(shù)學(xué)中牺荠,連續(xù)型隨機變量的概率密度函數(shù)(在不至于混淆時可以簡稱為密度函數(shù))是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數(shù)驴一。
- PMF : 概率質(zhì)量函數(shù)(probability mass function), 在概率論中休雌,概率質(zhì)量函數(shù)是離散隨機變量在各特定取值上的概率。
- CDF : 累積分布函數(shù) (cumulative distribution function)肝断,又叫分布函數(shù)杈曲,是概率密度函數(shù)的積分,能完整描述一個實隨機變量X的概率分布孝情。
pdf 和 pmf 的不同之處在于:概率質(zhì)量函數(shù)是對離散隨機變量定義的鱼蝉,本身代表該值的概率;概率密度函數(shù)是對連續(xù)隨機變量定義的箫荡,本身不是概率魁亦,只有對連續(xù)隨機變量的概率密度函數(shù)在某區(qū)間內(nèi)進行積分后才是概率。
我們通過查 z-table 得出的值是cdf. 如果要求從0到 z 中的某個區(qū)域的面積羔挡,我們可以通過積分得出
[圖片上傳失敗...(image-93fd77-1529115674251)]=\int_{x_{1}}{x_{2}}\frac{1}{\sigma&space;\sqrt{2\pi&space;}}e{-0.5(\frac{x-\mu&space;}{\sigma&space;})^2})
換句話說洁奈,cdf 是pdf的積分,pdf是cdf的導(dǎo)數(shù)绞灼。我沒學(xué)過積分所以到這就不是我理解范圍之內(nèi)的了利术。總之可以愉快地使用 z-table了低矮,t-table也是同理印叁。
不過 t-table還有一個麻煩的地方就是單尾雙尾檢測 (One tail & two tails) 時看表略有不同。標準的 t-table 會標明 level of significance.
參考:
- 概率中的PDF军掂,PMF轮蜕,CDF
- Where do the values in the Z-table come from? By: Krista Floer
- Where do the values in a z-table come from?
標準差和標準誤 SD & SEM
這個概念真的很想讓我死啊,想了一會兒想明白了蝗锥,過了幾天又不明白了跃洛,寫下來防止下次又忘了。
其實標準差很好理解的终议,上面也說了總體標準差 α 的公式汇竭。
但標準誤真的很饒人葱蝗。先上公式:
根據(jù)中心極限定理:
Sampling distribution of sample mean approaches a normal distribution with mean μ and variance σ^2/n as the sample size becomes large.
大量相互獨立隨機變量的均值經(jīng)適當標準化后依分布收斂于正態(tài)分布。
Standard error of mean 的意思是樣本均值與總體均值的近似度细燎。樣本越大两曼,標準誤差就越小,樣本均值與總體均值也就越接近找颓。
Standard error of the mean is a measure of how far your sample mean is likely to be from the true mean of the population. So lower the SEM, the more likely your calculated mean is close the actual mean (Piers Support).
SD - variability of data
SEM - precision of data
如上圖合愈,多次取樣會得到不同的 sample mean, 將這些 sample 匯總得到的 SD of sample mean 就是 standard error.
例(如下圖):當SD等于10時叮贩,不同的樣本大小會得到不同的SEM. 樣本量越大击狮,其平均數(shù)越接近總體平均數(shù),根據(jù)公式益老,SEM越小彪蓬,也就越精確。
這些都還好懂捺萌,最讓人不懂的是根號n是怎么來的档冬。維基百科說:
理解一:如果按照定義求 SEM,N 次取樣桃纯,variance of sampling distribution of sample mean (σ 為總體標準差)
那么 SEM 的公式直接開方就 make sense了酷誓。
但其實 SEM 公式里的 n 是樣本大小而非取樣次數(shù),這點我一直沒有理解态坦。
理解二:如果把 SEM 單純看成描述樣本精確度的一個系數(shù)盐数,除以根號 n,樣本越大 SEM 越小伞梯,越精確玫氢。
理解一是 N 次取樣的標準差,所有的取樣有一個標準差(標準誤)谜诫。理解二是描述一次取樣的精確度漾峡,每次取樣都有不同的標準誤。
參考
- 有沒有懂統(tǒng)計的喻旷,標準誤為什么等于標準差除以根號n生逸,求公式推導(dǎo)過程? - 知乎
- Standard Deviation and Standard Error of the Mean
- Standard error - Wikipedia
Update: Standard Error of the Mean
晚上睡覺前看了 Charles Wheelan 寫的Naked Statistics 第八章且预,對中心極限定理和標準誤有非常詳細的解釋槽袄。書中作者以 Americans' changing lives 的數(shù)據(jù)為例解釋了標準誤的大小和其精確度的關(guān)系。
下圖1) 樣本量 n=20, 從總體隨機取樣辣之;2)樣本量 n=100, 從總體隨機取樣掰伸;3)樣本量 n=100, 從女性隨機取樣;
我們可以看到怀估,樣本量小的時候數(shù)據(jù)比較分散狮鸭,樣本量大的時候更為集中合搅,當總體的平均值下降時,隨機樣本的平均值也會下降(男性+女性 VS 女性)歧蕉。
A large standard error means that the sample means are spread out widely around the population mean; a small standard error means that they are clustered relatively tightly.
標準誤作為樣本均值的標準差灾部,和總體標準差 σ 成正比,和樣本量 n 成反比惯退,所以一個是分子赌髓,一個是分母。
參考
置信區(qū)間 Confidence Interval
后來我才明白我糾結(jié)的地方不在標準誤公式催跪,而是當總體標準差 (population standard deviation) 未知時求置信區(qū)間的方法锁蠕。
首先,根據(jù)中心極限定理懊蒸,樣本平均數(shù)會接近荣倾,但或多或少和總體平均數(shù)有所偏差。如下圖骑丸,在正態(tài)分布中舌仍,68%的樣本平均數(shù)(我們會取樣很多次)在離同體平均數(shù)一個標準差范圍內(nèi),95%的樣本平均數(shù)在離同體平均數(shù)兩個標準差范圍內(nèi)通危。
如果我們已知總體標準誤和總體平均值铸豁,我們可以推測68%的樣本平均數(shù)離總體平均值有一個標準誤的距離,從而得知這些樣本平均數(shù)的范圍菊碟。
反過來节芥,如果我們已知總體標準誤和一次取樣的平均值,就可以推測出離總體平均數(shù)若干個標準差的范圍(誤差范圍)框沟,最大誤差范圍為E:
當總體標準差已知時藏古,我們采用 z 檢驗,置信區(qū)間的公式為:
但現(xiàn)實情況中一般我們都不知道總體標準差忍燥,所以我們用 t-檢驗(別問我為什么). 因為總體標準差未知拧晕,我們只能用樣本標準差來推測總體 estimate the Standard Error of the Mean:
如果看 t 分布的表,信度相同時 t 值會比 z 值大一些梅垄,多少將 maximum error of the estimate 擴大了厂捞。