CUPED(Controlled-experiment Using Pre-Experiment Data)是一種通過聯(lián)系實(shí)驗(yàn)前數(shù)據(jù),讓方差變小的方法。
(簡(jiǎn)書的Latex解析經(jīng)常不對(duì)钞澳,部分公式顯示可能錯(cuò)誤,如\bar{X}被顯示為X^2)
目的(what)
通過數(shù)據(jù)變換所禀,得到更小的方差劲室。
為什么要減小方差(why)
A/B實(shí)驗(yàn)結(jié)果取決于實(shí)驗(yàn)組方差(var)幕帆、效果():
var變小侮繁,會(huì)讓結(jié)果更加容易顯著虑粥。
方法(how)
1. 思路
構(gòu)建,滿足:
-
與
一樣宪哩,是
的無偏估計(jì)娩贷;
-
相對(duì)
,方差更小锁孟。
使用來評(píng)估實(shí)驗(yàn)效果彬祖,效果相似,方差變小罗岖。
2. 原理
如果有另一隨機(jī)變量,并且已知
腹躁。則有互相獨(dú)立的二維隨機(jī)變量
桑包,定義:
由于,所以
是
的無偏估計(jì)纺非,則:
哑了,
當(dāng)時(shí),
的值最猩沼薄(線性回歸弱左,最小二乘法),此時(shí):
與
的相關(guān)系數(shù)越大炕淮,得到的方差越小拆火。
3. 擴(kuò)展到A/B
如果選擇的不會(huì)被實(shí)驗(yàn)干擾,則
涂圆,
實(shí)驗(yàn)組们镜、對(duì)照組在零假設(shè)下還有相同的,得:
润歉,得到
微軟的實(shí)踐經(jīng)驗(yàn)
1. 選擇協(xié)變量(X)
選擇相關(guān)系數(shù)更大的協(xié)變量模狭,效果更好。微軟的建議:
- 選擇實(shí)驗(yàn)運(yùn)行之前的指標(biāo)數(shù)據(jù)最好踩衩;
- 實(shí)驗(yàn)之前指標(biāo)數(shù)據(jù)的時(shí)間粒度越長(zhǎng)嚼鹉,效果越好贩汉;
- 實(shí)驗(yàn)運(yùn)行周期并不是越長(zhǎng)越好。
實(shí)驗(yàn)前數(shù)據(jù)并不是X得唯一選擇锚赤,只要是不會(huì)被實(shí)驗(yàn)干預(yù)影響的變量匹舞,都可以選擇。比如用戶加入實(shí)驗(yàn)的日期宴树。
2. 實(shí)驗(yàn)前數(shù)據(jù)缺失(
對(duì)應(yīng)的
不存在)
新用戶或太久沒回歸的用戶策菜,可能沒有舊的記錄【票幔可以對(duì)缺失的數(shù)據(jù)又憨,補(bǔ)為適當(dāng)?shù)闹怠?/p>
結(jié)語
本文簡(jiǎn)單介紹了CUPED這種強(qiáng)大的方法,合理的使用可以大大增加實(shí)驗(yàn)的敏感度锭吨。
僅做簡(jiǎn)單介紹蠢莺、總結(jié),實(shí)踐細(xì)節(jié)可參閱相關(guān)資料零如。
思考:CUPED與線性回歸
CUPED方法的本質(zhì)是對(duì)X躏将、Y進(jìn)行二維線性回歸。
默認(rèn)情況算法:
CUPED算法:
舉例:CUPED算法(藍(lán)色)在z軸上的波動(dòng)相對(duì)默認(rèn)算法(黃色)明顯變?nèi)?/p>