本文介紹樣本量對實(shí)驗(yàn)效果的影響,以及如何正確選擇樣本量。僅作為實(shí)驗(yàn)設(shè)計(jì)者可跳過最后數(shù)學(xué)推導(dǎo)過程,直接使用工具運(yùn)算情臭。
樣本量的影響
假設(shè)一個(gè)這樣的實(shí)驗(yàn),按鈕顏色對用戶點(diǎn)擊率的影響:
假設(shè)A樣式點(diǎn)擊率30%赌蔑,B樣式點(diǎn)擊率為40%俯在。考慮以下兩種情況:
- 當(dāng)每個(gè)頁面有10次訪問時(shí)娃惯,直觀感受上并不能證明B比A的點(diǎn)擊率高跷乐。實(shí)際約65%的可能性差異是隨機(jī)產(chǎn)生的。
- 當(dāng)每個(gè)頁面有1000次訪問時(shí)趾浅,差異不像是隨機(jī)產(chǎn)生了愕提。實(shí)際只有約0.0002%可能性差異是隨機(jī)產(chǎn)生的。
通過上面例子發(fā)現(xiàn)皿哨,相同的差異程度下浅侨,樣本數(shù)量越多,我們越有把握兩者并不相同往史。這也是符合生活經(jīng)驗(yàn)的仗颈。
樣本量選擇原則
我們已經(jīng)知道了樣本數(shù)越多佛舱,證據(jù)會越可信椎例,那么樣本數(shù)該怎么選擇呢?
實(shí)驗(yàn)角度请祖,樣本量越多越好
樣本數(shù)量變多订歪,實(shí)驗(yàn)則有了更多的“證據(jù)”,實(shí)驗(yàn)的“可靠性”也就越強(qiáng)肆捕。
業(yè)務(wù)角度刷晋,樣本量越少越好
樣本量應(yīng)該越少越好,因?yàn)椋?/p>
- 試錯(cuò)成本大慎陵。假設(shè)我們拿50%用的戶來跑實(shí)驗(yàn)眼虱,但不幸的是,1周后結(jié)果表明實(shí)驗(yàn)組的總收入下降了20%席纽。算下來捏悬,你的實(shí)驗(yàn)在一周內(nèi)給整個(gè)公司帶來了10%的損失。這個(gè)試錯(cuò)成本未免高了一些...
- 其它風(fēng)險(xiǎn)增加润梯。移動(dòng)端例子过牙,假設(shè)B方案崩潰率增長甥厦,1%流量我們可以從容處理,50%流量會對業(yè)務(wù)造成嚴(yán)重影響寇钉,甚至事故定責(zé)刀疙。
- 流量有限。流量總數(shù)是確定的扫倡,同類型的實(shí)驗(yàn)不能重疊谦秧,實(shí)驗(yàn)流量更小,就可以同時(shí)運(yùn)行更多的實(shí)驗(yàn)撵溃。
樣本量如何選擇
通過樣本量計(jì)算工具可以直接得到油够,有很多的在線工具,例如對轉(zhuǎn)化率可使用Evan's Awesome A/B Tools
參數(shù)解釋
- Baseline conversion rate:填入實(shí)驗(yàn)前估測到的轉(zhuǎn)化率征懈,可以通過舊數(shù)據(jù)統(tǒng)計(jì)作為估算石咬。
- Minimum Detectable Effect:填入希望觀測到的最小效果。填入實(shí)驗(yàn)的預(yù)期卖哎。
- Statistical power:1 - 假陰性概率鬼悠。實(shí)驗(yàn)效果真實(shí)有效時(shí),能被正確發(fā)現(xiàn)的概率亏娜。
- Significance level:假陽性概率焕窝。實(shí)驗(yàn)實(shí)際沒有效果時(shí),被錯(cuò)誤發(fā)現(xiàn)的概率维贺。
總結(jié)
樣本量選擇一般過程:打開樣量計(jì)算器它掂,填入α, power, MDE,填入已知參數(shù)(轉(zhuǎn)化率溯泣、均值虐秋、方差等),得到結(jié)果垃沦。
附錄:樣本量計(jì)算原理
需要讀者有一定數(shù)理統(tǒng)計(jì)知識客给,跳過不影響實(shí)驗(yàn)設(shè)計(jì)。從單尾假設(shè)檢驗(yàn)出發(fā)進(jìn)行推導(dǎo)肢簿,然后擴(kuò)展到雙尾假設(shè)檢驗(yàn)靶剑。
(簡書bug導(dǎo)致\bar{x}顯示為x^2,請注意)
單尾假設(shè)檢驗(yàn)
定義θ = μ2 - μ1池充,圖中對應(yīng)假設(shè)可轉(zhuǎn)換為:
原假設(shè):θ = 0桩引,此時(shí)對應(yīng)紅色曲線
備擇假設(shè):θ > 0,此時(shí)對應(yīng)綠色曲線
μ1:方案A的期望值收夸,不可改變坑匠。
μ2:方案B的期望值,不可改變咱圆。
:方案A的均值笛辟,會隨機(jī)波動(dòng)功氨。
:方案B的均值,會隨機(jī)波動(dòng)手幢。
捷凄,紅色曲線下,紅色面積占比围来。
跺涤。
,綠色曲線下监透,綠色面積占比桶错。
MDE:根據(jù)期望效果取的值,會參與樣本量計(jì)算
μ2 - μ1 >= mde時(shí)胀蛮,power大于等于預(yù)設(shè)值院刁,實(shí)驗(yàn)容易顯著。
μ2 - μ1 < mde時(shí)粪狼,power小于預(yù)設(shè)退腥,實(shí)驗(yàn)不容易顯著。
在中再榄,C為預(yù)設(shè)常量狡刘,、通過實(shí)驗(yàn)獲取無法控制困鸥,唯一可以改變的是嗅蔬,樣本量增大 -> 減少 -> 實(shí)驗(yàn)顯著概率升高。
計(jì)算過程:
,
x疾就、y樣本量同為n澜术,標(biāo)準(zhǔn)差同為時(shí),
,
易得
雙尾假設(shè)檢驗(yàn)
定義θ = μ2 - μ1虐译,雙尾情況下對應(yīng)假設(shè):
原假設(shè):θ = 0瘪板;
備擇假設(shè):θ ≠ 0 吴趴,等價(jià)于 θ > 0 or θ < 0漆诽。
雙尾假設(shè)檢驗(yàn)一般是對稱的,在此情況下有:
正態(tài)分布的概率密度函數(shù)特點(diǎn)為左右對稱(鐘形曲線)锣枝,由此可知:
可以理解為一個(gè)α水平的雙尾假設(shè)檢驗(yàn)厢拭,等于兩個(gè)α/2水平的單尾假設(shè)檢驗(yàn)。
將α/2帶入單尾計(jì)算公式撇叁,得到雙尾檢驗(yàn)需要的樣本量為: