AB測試對于產(chǎn)品和運營優(yōu)化的重要性有目共睹蚌吸。為了能更快的得到試驗結(jié)果锈拨,試驗流量越大越好。但是當流量不夠的時候怎么辦呢羹唠?小流量AB測試能不能做奕枢?能!下面有多個節(jié)約流量的方法佩微。
消除異常數(shù)據(jù)的影響
當點擊量作為指標時缝彬,有時會看到少量設備貢獻了數(shù)萬的點擊。這些設備可能是出了bug處于異常狀態(tài)哺眯,也可能是在運行自動化測試谷浅,總之不會是正常的業(yè)務數(shù)據(jù)。如果將這些數(shù)據(jù)計入統(tǒng)計結(jié)果奶卓,將會對結(jié)果的準確性產(chǎn)生很大的影響一疯。嚴重的情況只能重做試驗,相當于本次試驗流量全浪費掉了夺姑。所以極端用戶的數(shù)據(jù)不進行統(tǒng)計墩邀,實踐中讓點擊量最大的1%用戶數(shù)據(jù)不參與計算。
正確統(tǒng)計進入試驗的用戶數(shù)
轉(zhuǎn)化漏斗中的每個步驟都可以進行AB測試盏浙。假設在轉(zhuǎn)化漏斗的第3層的頁面進行AB測試磕蒲,在統(tǒng)計試驗UV的時候,比較科學的方法是將進入到該頁面的用戶統(tǒng)計為試驗UV只盹,而不是所有訪客辣往。如果沒進入該頁面的用戶也統(tǒng)計為試驗UV,則會稀釋試驗數(shù)據(jù)殖卑。下面舉個例子看一下稀釋的效果:
AB測試需要樣本量的經(jīng)驗公式為
δ是希望檢測到的最小變化站削,p為轉(zhuǎn)化率,σ是樣本的標準差孵稽。
假設到達該頁面的訪客為10%许起,該頁面轉(zhuǎn)化率為50%十偶,如果想檢測出10%的提升(50%提升到55%),根據(jù)公式計算大概需要1600試驗樣本园细,對應總訪客16000惦积。如果把所有訪客作為試驗樣本參與統(tǒng)計,則該種算法下頁面轉(zhuǎn)化率為5%(只有原來的十分之一)猛频,同樣想檢測出10%的提升(5%提升到5.5%)狮崩,則需要30400試驗樣本,對應總訪客也是30400鹿寻。
這個例子里節(jié)約了大概1/2的流量睦柴,如果試驗頁面的轉(zhuǎn)化率更高,前面漏斗的轉(zhuǎn)化率更低毡熏,節(jié)約效果會更明顯坦敌。
點擊轉(zhuǎn)化率比點擊數(shù)量更容易獲得統(tǒng)計顯著的結(jié)果
有些場景下,如果認為用戶多次點擊和單次的點擊差別并不大(比如下載痢法,注冊狱窘,看廣告等),可以觀察點擊轉(zhuǎn)化率指標的統(tǒng)計結(jié)果财搁。轉(zhuǎn)化率是去重的训柴,用戶只要點擊過就計算為1,否則計算為0妇拯。同樣的試驗樣本幻馁,點擊量的標準差是一定大于轉(zhuǎn)化率的。
仍然用上面提到的公式舉例:
假設用戶點擊量的分布為0次20%越锈,1次20%仗嗦,2次20%,3次20%甘凭,4次20%稀拐。
則點擊量均值為2方差為2,想檢測出10%的提升需要800樣本量丹弱。
轉(zhuǎn)化率為80%德撬,方差為0.16,想檢測出10%的提升需要400樣本量躲胳。
這個例子里節(jié)約了1/2的樣本量蜓洪,如果點擊量的分布更加分散,節(jié)約效果會更明顯坯苹。
原始版本的流量不要浪費掉
在有些情況下隆檀,為了穩(wěn)妥起見往往只會讓一小部分流量(比如總用戶的1%)看到試驗版本,99%的用戶看到原始版本,如果統(tǒng)計試驗數(shù)據(jù)的時候恐仑,看到原始版本的用戶只挑出和看到試驗版本用戶數(shù)相同的人數(shù)(總用戶的1%)來參與統(tǒng)計泉坐,則另外98%的流量相當于浪費了,他們實際上是對試驗有幫助的裳仆。當試驗版本和原始版本樣本數(shù)不相同時腕让,有一個計算等效樣本數(shù)的公式:
N = (1/Ncontrol + 1/Nexperimnet)-1
當Ncontrol=Nexperimnet時計算得出N=Nexperimnet/2
如果原始版本(即control版本)的流量全部參與統(tǒng)計,則Ncontrol>>Nexperimnet計算得出N=Nexperimnet
等效樣本數(shù)量翻倍了歧斟,相當于又節(jié)約了1/2的流量纯丸。
善用分層試驗
想優(yōu)化的地方太多了,同時跑多個試驗是常態(tài)构捡,是不是流量就不夠用了?如果試驗之間互相不會干擾壳猜,可以考慮分層試驗勾徽。分層試驗即允許同一個用戶同時參加多個試驗,通過流量分配的隨機算法保證試驗結(jié)果的代表性统扳。原來流量只能做一個試驗喘帚,現(xiàn)在不相關(guān)的試驗可以一起做了,效率成倍增加咒钟。
同層試驗共用原始版本數(shù)據(jù)
同層的多個試驗吹由,大家的原始版本是完全相同的,分開各自統(tǒng)計顯然浪費了數(shù)據(jù)朱嘴。以4個試驗為例:
如果每個試驗有獨立的原始版本和試驗版本倾鲫,流量分配都是總流量的1/8,則根據(jù)上面提到的等效樣本量公式萍嬉,每個試驗的等效樣本數(shù)為總流量的1/16乌昔。如果4個試驗的原始版本合并為公共的原始版本(占總流量1/2),則每個試驗的等效樣本數(shù)為總流量的1/10壤追。等效樣本量提升了60%磕道。
如果多個AB測試試驗優(yōu)化的是同一指標,還可以進一步的對公共原始版本的流量進行微調(diào)行冰。令n為試驗數(shù)量溺蕉,則 (Ncontrol/Nexperimnet)2 = n 時等效樣本數(shù)量達到最大值。n=4代入得到原始版本占總流量1/3悼做,每個試驗版本占總流量1/6疯特,最終每個試驗的等效樣本數(shù)為總流量的1/9。等效樣本量又提升了11%肛走。
本文作者:吆喝科技CSM團隊客戶成功專家 @ 韓剛