抽樣中樣本量的確定是一個(gè)非常重要的問(wèn)題趣效,在不考慮抽樣成本的前提下瘦癌,樣本量越多估計(jì)的越準(zhǔn),然而實(shí)際情況中我們需要平衡抽樣成本與估計(jì)結(jié)果的置信度——以盡可能低的樣本得到盡可能高的置信結(jié)果跷敬。
1.均值估計(jì)的樣本量
先來(lái)說(shuō)一個(gè)簡(jiǎn)單的例子
【例子】假設(shè)我們想估計(jì)一個(gè)學(xué)校中學(xué)生的平均身高讯私。希望誤差能控制在d=1cm范圍內(nèi),那么至少要抽取多少學(xué)生數(shù)呢西傀?
假設(shè)學(xué)生的身高是隨機(jī)變量, 我們知道均值是近似服從正態(tài)分布的斤寇。當(dāng)樣本量較大的時(shí)候可以直接用正態(tài)分布進(jìn)行置信區(qū)間估計(jì),當(dāng)樣本量較小的時(shí)候可以用t分布進(jìn)行置信區(qū)間估計(jì)拥褂。
檢驗(yàn)的置信區(qū)間是 , 因此有
從而可以推出來(lái)所需要的樣本量
說(shuō)明:
- 這里即為方差娘锁,可以通過(guò)樣本進(jìn)行估計(jì)
- 是實(shí)驗(yàn)的臨界誤差,在這個(gè)例子中是1cm肿仑,在不同的場(chǎng)合下沒(méi)有一個(gè)固定的辦法去確定一個(gè)合適的d致盟,比如就是誤差是在1cm可以接受碎税,還是0.1cm可以接受尤慰,這個(gè)往往由具體的業(yè)務(wù)場(chǎng)景來(lái)人工決定。
- 對(duì)于大樣本來(lái)說(shuō)雷蹂,z檢驗(yàn)其臨界的水平可以直接查表或者計(jì)算出伟端,但是當(dāng)小樣本時(shí)候,t檢驗(yàn)來(lái)說(shuō)略微有些不同匪煌。因?yàn)閠檢驗(yàn)的t值還取決于本身的自由度df=n-1,其也是關(guān)于n的函數(shù)责蝠。
小樣本的t檢驗(yàn)迭代法
(1) 先用z分?jǐn)?shù)替代t分?jǐn)?shù),計(jì)算所需的樣本量n
(2) 根據(jù)計(jì)算出來(lái)的n萎庭,在df=n-1的條件下霜医,用t分?jǐn)?shù)替代上一步的z分?jǐn)?shù),重新計(jì)算所需樣本量n
(3) 由于t分布比z分布扁平一些驳规,相同置信度下肴敛,t分?jǐn)?shù)>z分布。所以(2)新估計(jì)出來(lái)的n要比(1)的略大。
(4) 依次重復(fù)該步驟医男,當(dāng)發(fā)現(xiàn)相鄰兩次迭代中n(取整之后)相同砸狞,則停止迭代流程即可。
沒(méi)有方差的預(yù)估
前面說(shuō)明中為方差镀梭,可以通過(guò)樣本進(jìn)行預(yù)估刀森,假設(shè)我們很不幸連方差的樣本信息也沒(méi)有該怎么辦呢?
其中 即我們不去關(guān)注方差的情況报账,而關(guān)于誤差相比于標(biāo)準(zhǔn)差的比例研底,即標(biāo)準(zhǔn)化d。
如何控制變異性
在實(shí)驗(yàn)設(shè)計(jì)時(shí)候笙什,我們可以控制實(shí)驗(yàn)的顯著性水平飘哨,臨界差值d的大小,以及最終的樣本量琐凭。那邊在實(shí)際做問(wèn)卷調(diào)查的時(shí)候芽隆,如何去盡量減小數(shù)據(jù)的變異性呢⊥城《用戶體驗(yàn)度量》一書(shū)中給了一些可供參考的建議:
- 確保被測(cè)者了解他們應(yīng)該做什么胚吁,或者在不透漏信息的條件下讓他們提前熟悉測(cè)試華景。
- 如果合適使用專家測(cè)試而非新手用戶愁憔。如果兩個(gè)都需要腕扶,那么可以針對(duì)兩組用戶不同的樣本量。
- 對(duì)可能和均值吨掌、方差相關(guān)的測(cè)量進(jìn)行數(shù)據(jù)轉(zhuǎn)換半抱。比如一些有偏態(tài)分布的做對(duì)數(shù)轉(zhuǎn)換。
2.二項(xiàng)分布估計(jì)的樣本量
與均值的類似膜宋,
(1)在大樣本條件下
在p未知的情況下窿侈,可以用其上限p=0.5進(jìn)行估計(jì)。
(2)小樣本條件下
根據(jù)wald矯正的p進(jìn)行估計(jì)