定義
抽樣分布也稱統(tǒng)計(jì)量分布吁津、隨機(jī)變量函數(shù)分布译红,是指樣本估計(jì)量的分布运沦。樣本估計(jì)量是樣本的一個函數(shù)窥突,在統(tǒng)計(jì)學(xué)中稱作統(tǒng)計(jì)量萎津,因此抽樣分布也是指統(tǒng)計(jì)量的分布【1】杈帐。以樣本平均數(shù)為例桑阶,它是總體平均數(shù)的一個估計(jì)量唆樊,如果按照相同的樣本容量霜运,相同的抽樣方式脾歇,反復(fù)地抽取樣本,每次可以計(jì)算一個平均數(shù)淘捡,所有可能樣本的平均數(shù)所形成的分布藕各,就是樣本平均數(shù)的抽樣分布。
也就是說焦除,我們將抽樣分布定義為樣本統(tǒng)計(jì)量的分布激况。
有多種樣本統(tǒng)計(jì)量:均值,方差膘魄,標(biāo)準(zhǔn)差乌逐。
抽樣分布的一些特點(diǎn)
- 樣本分布以初始參數(shù)值為中心。
- 根據(jù)樣本容量大小创葡,抽樣分布降低了方差浙踢。具體說來,抽樣分布的方差等于初始數(shù)據(jù)的方差除以樣本容量灿渴。這也同樣適用于樣本平均數(shù)方差洛波!
如果說我們有隨機(jī)變量X,和方差 σ2骚露,那么 的分布 (樣本平均數(shù)的抽樣分布) 方差為: σ2 /n
抽樣分布常用符號
我們經(jīng)常使用希臘符號作為參數(shù)
蹬挤,使用小寫字母作為對應(yīng)統(tǒng)計(jì)量
。有時候在文學(xué)作品中棘幸,你也會看到帶有 "帽子" 的希臘字母焰扳,表示這是對應(yīng)參數(shù)
的估算。
下面這個表格提供了一些最常見的參數(shù)和對應(yīng)統(tǒng)計(jì)量:
抽樣分布涉及的兩個重要數(shù)學(xué)定理
大數(shù)法則
大數(shù)法則表示隨著樣本容量增加够话,樣本平均數(shù)越來越接近總體平均數(shù)蓝翰。
但是我們首先如何確定樣本平均數(shù)可以估計(jì)總體平均數(shù)呢?我們以后如何識別參數(shù)與統(tǒng)計(jì)量的其他關(guān)系呢女嘲?
下面是三種最常見的估計(jì)技巧:
最大似然估計(jì)
似然性
“似然性”和“概率”意思接近畜份。都是指某種事件發(fā)生的可能性。但是二者又有明確的區(qū)分:概率欣尼,用于在已知一些參數(shù)的情況下爆雹,預(yù)測接下來在觀測上所得的結(jié)果停蕉;似然性,則是用于在已知某些觀測所得的結(jié)果時钙态,對有關(guān)事物之性質(zhì)的參數(shù)進(jìn)行估值慧起。
可以將“概率”和“似然性”理解為互為可逆的過程〔岬梗“概率”是由因到果蚓挤,而“似然性”是由果求因。似然函數(shù)
似然函數(shù)是一種關(guān)于統(tǒng)計(jì)模型中的參數(shù)的函數(shù)驻子,表示模型函數(shù)中的似然性灿意。【2】
在已知某個參數(shù)B時崇呵,事件A會發(fā)生的概率為:P(A|B) = P(A,B) / P(B)
由貝葉斯法則【3】:
P(B|A) = (P(A|B) * P(B)) / P(A)
因此缤剧,我們可以反過來構(gòu)造表示似然性的方法:已知有事件A發(fā)生,運(yùn)用似然函數(shù)L(B|A)
域慷,我們估計(jì)參數(shù)B的可能性荒辕。形式上,似然函數(shù)也是一種條件概率函數(shù)犹褒,但我們關(guān)注的變量改變了:
b-> P(A|B=b)例子
考慮投擲一枚硬幣的實(shí)驗(yàn)抵窒。首先假設(shè)我們用的是“公平的硬幣”,即正面朝上和反面朝上的概率都為0.5叠骑。
此時估脆,投兩次都是正面朝上的概率為0.25,用條件概率表示:
P(HH | pH = 0.5) = 0.25
其中H指正面朝上座云。
如果一個硬幣的質(zhì)量分布不夠均勻, 那么它可能是一枚"非公平的硬幣"
統(tǒng)計(jì)學(xué)中,我們關(guān)心的是在已知一系列投擲的結(jié)果時付材,關(guān)于硬幣投擲時正面朝上的可能性的信息朦拖。
我們可以建立一個統(tǒng)計(jì)模型:假設(shè)硬幣投出時會有pH的概率正面朝上,而有1-pH 的概率反面朝上厌衔。
這時璧帝,通過觀察已發(fā)生的兩次投擲,條件概率可以改寫成似然函數(shù):
L(pH | HH) = P(HH | pH = 0.5) = 0.25
也就是說富寿,對于取定的似然函數(shù)睬隶,在觀測到兩次投擲都是正面朝上時,pH = 0.5的似然性是0.25页徐。
如果考慮pH = 0.6苏潜,那么似然函數(shù)的值也會改變。
L(pH | HH) = P(HH | pH = 0.6) = 0.36
注意到似然函數(shù)的值變大了变勇。
這說明恤左,如果參數(shù)pH = 0.5的取值變成0.6的話贴唇,結(jié)果觀測到連續(xù)兩次正面朝上的概率要比假設(shè)pH = 0.5時更大。也就是說飞袋,參數(shù)pH取成0.6要比取成0.5更有說服力戳气,更為“合理”。
總之巧鸭,似然函數(shù)的重要性不是它的具體取值瓶您,而是當(dāng)參數(shù)變化時函數(shù)到底變小還是變大。
對同一個似然函數(shù)纲仍,其所代表的模型中呀袱,某項(xiàng)參數(shù)值具有多種可能,但如果存在一個參數(shù)值巷折,使得它的函數(shù)值達(dá)到最大的話压鉴,那么這個值就是該項(xiàng)參數(shù)最為“合理”的參數(shù)值。
在這個例子中锻拘,如圖1所示油吭,似然函數(shù)實(shí)際上等于:
L(θ | HH) = P(HH | pH = θ) = θ2
如果取pH = 1,那么似然函數(shù)達(dá)到最大值1署拟。也就是說婉宰,當(dāng)連續(xù)觀測到兩次正面朝上時,假設(shè)硬幣投擲時正面朝上的概率為1是最合理的推穷。
最大似然估計(jì)
最大似然估計(jì)(英語:maximum likelihood estimation心包,縮寫為MLE),也稱極大似然估計(jì)馒铃、最大概似估計(jì)蟹腾,是用來估計(jì)一個概率模型的參數(shù)的一種方法【4】。
上文已經(jīng)提到区宇,似然函數(shù)取得最大值表示相應(yīng)的參數(shù)能夠使得統(tǒng)計(jì)模型最為合理娃殖。
最大似然估計(jì)的做法是:首先選取似然函數(shù)(一般是概率密度函數(shù))或概率質(zhì)量函數(shù)),整理之后求最大值议谷。實(shí)際應(yīng)用中一般會取似然函數(shù)的對數(shù)作為求最大值的函數(shù)炉爆,這樣求出的最大值和直接求最大值得到的結(jié)果是相同的。似然函數(shù)的最大值不一定唯一卧晓,也不一定存在芬首。與矩法估計(jì)比較,最大似然估計(jì)的精確度較高逼裆,信息損失較少郁稍,但計(jì)算量較大。
距估計(jì)(Method of Moments)
- 距(Moments)
數(shù)學(xué)中矩的概念來自于物理學(xué)波附。在物理學(xué)中艺晴,矩是用來表示物體形狀的物理量昼钻。定義在實(shí)數(shù)域上的實(shí)函數(shù)相對于值c的n階矩為:
μn = ∫(x-c)n?(x)dx。
如果?(x)是概率密度函數(shù)封寞,則容易看出相對于值0的1階距是連續(xù)隨機(jī)變量的數(shù)學(xué)期望然评。
隨機(jī)變量的方差可以定義為其2階中心距:Var(x) = ∫[(x-E(x))]2?(x)dx
隨機(jī)變量的偏態(tài)可以定義為其3階中心距:S(x) = ∫[(x-E(x))]3?(x)dx
隨機(jī)變量的峰態(tài)可以定義為其4階中心距:K(x) = ∫[(x-E(x))]4?(x)dx - 總體距(theoretical moments)
真實(shí)分布的k階距”肪浚【6】 - 樣本距(sample moments)
根據(jù)樣本計(jì)算出的k階距碗淌。 - 矩估計(jì)
英語:method of moments,是估計(jì)總體參數(shù)的方法抖锥。首先推導(dǎo)涉及感興趣的參數(shù)的總體矩
(即所考慮的隨機(jī)變量的冪的期望值)的方程亿眠。然后取出一個樣本并從這個樣本估計(jì)總體矩。接著使用樣本矩取代(未知的)總體矩磅废,解出感興趣的參數(shù)纳像。從而得到那些參數(shù)的估計(jì)。矩估計(jì)
是英國統(tǒng)計(jì)學(xué)家卡爾·皮爾遜【5】于1894年提出的拯勉。 - 方法
假設(shè)問題是要估計(jì)表征隨機(jī)變量W的分布?W(ω;θ)的k
個未知參數(shù)θ1竟趾,θ2,...θk宫峦。如果真實(shí)分布("總體矩
")的前k階矩可以表示成這些θ的函數(shù):
μ1 ≡ E[W] = g1(θ1岔帽,θ2,...θk)
μ2 ≡ E[W2] = g2(θ1导绷,θ2犀勒,...θk)
...
μk ≡ E[Wk] = gk(θ1,θ2妥曲,...θk)
設(shè)取出一大小為n的樣本贾费,得到θ1,θ2檐盟,...θk铸本。對于j = 1,2遵堵,... k,令:
j = 1/n * ∑ωij
為j階樣本矩怨规,是μj的估計(jì)陌宿。θ1,θ2波丰,...θk的距估計(jì)量記為1壳坪,
2,...
k掰烟,由這些方程的解(如果存在)定義:
1 = g1(
1爽蝴,
2沐批,...
k)
2 = g2(
1,
2蝎亚,...
k)
...
k = gk(
1九孩,
2,...
k)
貝葉斯估計(jì)
貝葉斯估計(jì)(Bayesian estimation)是利用貝葉斯定理【7】結(jié)合新的證據(jù)及以前的先驗(yàn)概率发框,來得到新的概率躺彬。它提供了一種計(jì)算假設(shè)概率的方法,基于假設(shè)的先驗(yàn)概率梅惯、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身宪拥。
貝葉斯估計(jì)將后驗(yàn)概率(考慮相關(guān)證據(jù)或數(shù)據(jù)后,某一事件的條件機(jī)率)推導(dǎo)為先驗(yàn)概率(考慮相關(guān)證據(jù)或數(shù)據(jù)前铣减,某一事件不確定性的機(jī)率)及似然函數(shù)的共同作用結(jié)果她君。貝葉斯推斷根據(jù)貝葉斯定理計(jì)算后驗(yàn)概率:
其中,
-
|
表示將某事件成立作為條件葫哗。 -
H
表示假說缔刹,其機(jī)率可能會受實(shí)驗(yàn)數(shù)據(jù)(以下會稱為證據(jù))影響。一般來說會有許多互相矛盾的假說魄梯,任務(wù)是要確認(rèn)哪一個假說可能性最高桨螺。 -
E
表示證據(jù)。證據(jù)對應(yīng)新的數(shù)據(jù)酿秸,也就是還沒用來計(jì)算先驗(yàn)概率的數(shù)據(jù)灭翔。 -
P(H)
,先驗(yàn)概率辣苏,是觀察到數(shù)據(jù)E
(目前證據(jù))之前肝箱,假說H
的機(jī)率。 -
P(H|E)
稀蟋,后驗(yàn)概率煌张,是在給定證據(jù)E
之后,假說H
的機(jī)率退客,是希望求得的資訊骏融,也就是在有目前證據(jù)時,假說H
的機(jī)率萌狂。 -
P(E|H)
是假定H
成立時档玻,觀察到E
的機(jī)率。在H
不變時茫藏,這是E
的函數(shù)误趴,也是似然函數(shù),指出在給定假設(shè)下假說和證據(jù)的相容程度务傲。似然函數(shù)是證據(jù)E
的函數(shù)凉当,而后驗(yàn)概率是假說H
的函數(shù)枣申。 -
P(E)
有時會稱為邊緣似然率。此系數(shù)對所有可能的假說都是定值看杭,因此在判斷不同假說的相對機(jī)率時忠藤,不會用到這個系數(shù)中。
針對不同的H
數(shù)值泊窘,只有P(H)
和P(E|H)
(都在分子)會影響P(H|E)
的數(shù)值熄驼。假說的后驗(yàn)概率和其先驗(yàn)概率(固有似然率)和新產(chǎn)生的似然率(假說和新得到證據(jù)的相容性)乘積成正比。
貝葉斯估計(jì)最關(guān)鍵的點(diǎn)是可以利用貝斯定理結(jié)合新的證據(jù)及以前的先驗(yàn)機(jī)率烘豹,來得到新的機(jī)率(這和頻率論推論相反瓜贾,頻率論推論只考慮證據(jù),不考慮先驗(yàn)機(jī)率)携悯。
而且貝葉斯估計(jì)可以迭代使用:在觀察一些證據(jù)后得到的后設(shè)機(jī)率可以當(dāng)作新的先驗(yàn)機(jī)率祭芦,再根據(jù)新的證據(jù)得到新的后設(shè)機(jī)率。因此貝斯定理可以應(yīng)用在許多不同的證據(jù)上憔鬼,不論這些證據(jù)是一起出現(xiàn)或是不同時出現(xiàn)都可以龟劲,這個程序稱為貝葉斯更新(Bayesian updating)。
中心極限定理
中心極限定理表示樣本容量足夠大轴或,平均數(shù)的抽樣分布越接近正態(tài)分布昌跌。
中心極限定理 實(shí)際上應(yīng)用于這些常見的統(tǒng)計(jì)量中:
- 樣本平均數(shù) (
)
- 樣本比例 (p)
- 樣本平均數(shù)的差異 (
-
)
- 樣本比例的差異 (
-
)
推論統(tǒng)計(jì)
推論統(tǒng)計(jì)在于使用我們收集的數(shù)據(jù)(樣本)對更大的總體數(shù)據(jù)(總體)得出結(jié)論。
使用推論統(tǒng)計(jì)要求我們對準(zhǔn)確代表感興趣的總體進(jìn)行取樣照雁。
收集數(shù)據(jù)的常見方式是調(diào)查蚕愤。然而,根據(jù)提問的問題和提問的方式饺蚊,調(diào)查會帶有偏見性萍诱。這是解決項(xiàng)目時你應(yīng)該想到的話題。
推論統(tǒng)計(jì)涉及的術(shù)語
- 總體
我們想要研究的整個群體污呼。 - 參數(shù)
描述總體的數(shù)值摘要 - 樣本
總體的子集 - 統(tǒng)計(jì)量
描述樣本的數(shù)值摘要 - 推論
根據(jù)統(tǒng)計(jì)量得出關(guān)于參數(shù)的結(jié)論稱為推論裕坊。
自助法 (bootstrap)
簡介
Bootstrap方法是非常有用的一種統(tǒng)計(jì)學(xué)上的估計(jì)方法,是斯坦福統(tǒng)計(jì)系的教授Bradley Efron【9】在總結(jié)燕酷、歸納前人研究成果的基礎(chǔ)上提出一種新的非參數(shù)統(tǒng)計(jì)方法籍凝。【8】
Bootstrap是可進(jìn)行統(tǒng)計(jì)量區(qū)間估計(jì)的統(tǒng)計(jì)方法苗缩,也稱為自助法静浴。
Why Bootstrap
我們往往無法知道總體的參數(shù),因此我們通過抽樣來試圖對總體的參數(shù)進(jìn)行估計(jì)挤渐。為此,一種方法是不停的對總體不停的取樣双絮,來得出樣本統(tǒng)計(jì)量的分布浴麻。但是得问,這顯然是不可能的。還有兩種方法能派上用場:
- 對總體分布的形狀作出假設(shè)软免。正態(tài)宫纬,貝努力,等等膏萧。
- 充分利用樣本信息漓骚。
對于#1,如果你能確定假設(shè)成立榛泛,即整體服從某一種分布蝌蹂,那么只要計(jì)算量在可接受的范圍內(nèi),就沒有問題曹锨。比方說孤个,總體服從正態(tài)分布,那么樣本來自總體沛简,也能以正態(tài)分布進(jìn)行描述齐鲤,抽樣分布為正態(tài)分布。然而椒楣,當(dāng)總體分布未知的時候给郊,只能以Bootstrap方法進(jìn)行分析。
我們有理由采用#2捧灰,因?yàn)闃颖臼俏覀儍H有的也是最好的關(guān)于總體的信息淆九,而且,大多數(shù)隨機(jī)抽取的樣本同總體非常的相似凤壁》砸伲【10】
實(shí)例
Bootstrap是放回抽樣。這里以一個??來描述其基本過程:
假設(shè)我們有兩個金融資產(chǎn)X和Y拧抖,我們現(xiàn)在想要合理配置這兩個資產(chǎn)煤搜,使得其資產(chǎn)組合的風(fēng)險(xiǎn)最小。也就是找到一個α唧席,使得Var(αX + (1-α) Y)最小擦盾。這個問題幾十年前馬爾可維茨已經(jīng)在其投資組合理論里給出了解答,最優(yōu)的α表達(dá)式如下:
但是現(xiàn)實(shí)生活中實(shí)際上我們并不知道2,2以及σXY的值淌哟,故而只能通過X和Y的一系列樣本對其進(jìn)行估計(jì)迹卢。并用估計(jì)值2,2以及XY代替2,2以及σXY的值插入公式:
所以我們唯一的任務(wù)就是合理地估計(jì)2,2以及XY,傳統(tǒng)方法中我們一般會考慮直接使用樣本方差(sample variance)去估計(jì)2,2以及σXY的值徒仓,然而自從有了Bootstrap之后腐碱,我們有了另一種方法與途徑,可以更好地去做估計(jì)總體的分布特性,即不僅可以估計(jì)α症见,還可以估計(jì)α**的方差喂走、中位數(shù)等值。
步驟
- 在原有的樣本中通過重抽樣抽取一定數(shù)量(比如100)的新樣本谋作,重抽樣(Re-sample)的意思就是有放回的抽取芋肠,即一個數(shù)據(jù)有可以被重復(fù)抽取超過一次。
- 基于產(chǎn)生的新樣本遵蚜,計(jì)算我們需要估計(jì)的統(tǒng)計(jì)量帖池。
在這例子中,我們需要估計(jì)的統(tǒng)計(jì)量是α吭净,那么我們就需要基于新樣本的計(jì)算樣本方差睡汹、協(xié)方差的值作為2,
2以及σXY,然后通過上面公式算出一個
攒钳。
- 重復(fù)上述步驟n次(一般是n>1000次)帮孔。
在這個例子中,通過n次(假設(shè)n=1000)不撑,我們就可以得到1000個αi文兢。也就是α1,α2焕檬,...姆坚,α1000。 -
最后实愚,我們可以計(jì)算被估計(jì)量的均值和方差:
b_t_3.jpg
我們發(fā)現(xiàn)兼呵,通過Bootstrap方法我們竟然不僅可以估計(jì)α的值( 這點(diǎn)普通方法也可以很容易做到),還可以估計(jì)α的accuracy也就是其Standard Error腊敲。這可是只利用原有的樣本進(jìn)行一次估計(jì)所做不到的击喂。那么Bootstrap對于分布特性的估計(jì)效果究竟如何呢?請看下圖:
左邊是真實(shí)的α分步碰辅,右邊則是基于bootstrap方法得到的1000個α的分布懂昂,可以看到,二者是比較相近的没宾,也就是說Bootstrap有著不錯的估計(jì)效果凌彬。而且當(dāng)重復(fù)次數(shù)增多,Bootstrap的估計(jì)效果會更好循衰。
不僅是α的標(biāo)準(zhǔn)差铲敛,如果我們想要估計(jì)α的中位數(shù)、分位數(shù)等統(tǒng)計(jì)量会钝,也是可以通過Boostrap方法做到的伐蒋,其整個流程可以用下面一張圖詮釋:
本質(zhì)上,Bootstrap方法,是將一次的估計(jì)過程先鱼,重復(fù)上千次上萬次徒蟆,從而便得到了得到上千個甚至上萬個的估計(jì)值,于是利用這不止一個的估計(jì)值型型,我們就可以估計(jì)α均值以外的其他統(tǒng)計(jì)量:比如標(biāo)準(zhǔn)差、中位數(shù)等全蝶。
Python的random.choice方法
在 python 中使用 random.choice 實(shí)際上是自助法闹蒜。無論選擇多少次,我們數(shù)據(jù)集中任何數(shù)字的概率保持不變抑淫。
【1】抽樣分布
【2】似然函數(shù)
【3】貝葉斯法則
【4】最大似然估計(jì)
【5】卡爾·皮爾遜
【6】Method of Moments
【7】統(tǒng)計(jì)學(xué)5-貝葉斯法則 : 關(guān)于先驗(yàn)概率绷落,后驗(yàn)概率,條件概率的概念及他們之間的關(guān)系始苇,可以參考這篇文章砌烁。
【8】Bootstrap詳解:本文的例子來自于這篇文章。
【9】布拉德利·埃弗龍
【10】https://stats.stackexchange.com/questions/26088/explaining-to-laypeople-why-bootstrapping-works