1. 從算術(shù)平均數(shù)說起
- 作為最常用的對總體平均水平的估計谐宙,為啥它就是最好的
2. 極大似然估計
- 任務(wù)是通過測量值X1,X2,...墅茉,Xn來估計μ,n個數(shù)據(jù)對應(yīng)n個誤差(測量值和真實值之差)呜呐,假設(shè)我們挑了一個數(shù)
作為對真值μ的估計就斤,我們就能據(jù)此算出誤差的估計:
- 如果隨機誤差e1,e2卵史,...战转,en服從某種已知的規(guī)律,那么出現(xiàn)這些誤差的估計的概率就可以被計算出來:
- 這是一個關(guān)于
的函數(shù)以躯,存在一個
使其取值最大槐秧,我們把這個
視作μ的最佳估計(極大似然意義)。 - 接下來就要找出隨機誤差的性質(zhì)忧设,也就是其概率密度函數(shù)刁标,從而寫出似然函數(shù)。
-
首先址晕,任意兩個不同的測量值的隨機誤差之間是獨立的膀懈,所以可以把似然函數(shù)拆開,變成每個隨機誤差出現(xiàn)概率的乘積:
其次谨垃,既然是隨機誤差启搂,那么它在零點兩側(cè)的可能性是相同的硼控。更進(jìn)一步說,對于絕對值相同的誤差胳赌,取值為正和取值為負(fù)的可能性應(yīng)該是一樣的牢撼。
最后,絕對值小的隨機誤差出現(xiàn)的可能性比絕對值大的可能性大疑苫。
-
最后的最后熏版,高斯反向解決了這個問題:假設(shè)算術(shù)平均數(shù)就是對真值的極大似然估計,那么什么樣的誤差分布能讓算數(shù)平均數(shù)成為極大似然估計呢捍掺?他推出了:
-
也就是我們熟悉的正態(tài)分布撼短。
3. 正態(tài)分布
3.1. 淵源
- 拉普拉斯讀到了高斯的論文,發(fā)現(xiàn)高斯推出的概率密度函數(shù)很面熟挺勿,和他的中心極限定理(棣莫弗-拉普拉斯中心極限定理)里推出的足夠多個二項分布相加得到的分布的概率密度函數(shù)非常像曲横。
- 拉普拉斯認(rèn)為這不是一個巧合,進(jìn)而想到满钟,雖然我們并不一定知道隨機誤差究竟是什么引起的胜榔,但是如果誤差也可以看成許多微小量(拉普拉斯稱之為“元誤差”)疊加起來的總和,那么根據(jù)中心極限定理湃番,隨機誤差也就該服從正態(tài)分布了夭织。
3.2. 中心極限定理的演進(jìn)
- 2.0版:如果我們有n個獨立、同分布的隨機變量吠撮,而且它們的均值和方差都是有限的尊惰,那么當(dāng)n趨于無窮大時,這n個隨機變量之和的一個簡單變換(類似于之前棣莫弗-拉普拉斯中心極限定理中的變換)服從正態(tài)分布泥兰。
- 3.x版:很多時候弄屡,即使隨機變量并不獨立,或者并非來自同樣的概率分布鞋诗,它們的和(或者均值——由于n是個確定的數(shù)膀捷,因此求和與求均值是等價的)在n足夠大時仍然服從正態(tài)分布。
3.3. 為什么重要
- 首先削彬,中心極限定理是概率論和統(tǒng)計學(xué)最重要的定理(沒有之一)全庸;
- 其次,我們接下來要講到的許多統(tǒng)計學(xué)方法——如t檢驗融痛、方差分析壶笼、多元線性回歸等——都會對數(shù)據(jù)的正態(tài)性有要求。