A/B實(shí)驗(yàn)進(jìn)階——通過實(shí)驗(yàn)前數(shù)據(jù)減小方差(CUPED)

CUPED(Controlled-experiment Using Pre-Experiment Data)是一種通過聯(lián)系實(shí)驗(yàn)前數(shù)據(jù),讓方差變小的方法。
(簡(jiǎn)書的Latex解析經(jīng)常不對(duì)钞澳,部分公式顯示可能錯(cuò)誤,如\bar{X}被顯示為X^2)

目的(what)

通過數(shù)據(jù)變換所禀,得到更小的方差劲室。

為什么要減小方差(why)

A/B實(shí)驗(yàn)結(jié)果取決于實(shí)驗(yàn)組方差(var)幕帆、效果(\Delta):
t = \frac { \Delta }{var(\Delta) } = \frac { \bar { Y_{t} } - \bar { Y_{c} }}{\sqrt {var(\bar {Y_t} - \bar {Y_c}) } }

var變小侮繁,會(huì)讓結(jié)果更加容易顯著虑粥。

方法(how)

1. 思路

構(gòu)建\Delta^*,滿足:

  • \Delta^*\Delta一樣宪哩,是E(Y_t - Y_c)的無偏估計(jì)娩贷;
  • \Delta^*相對(duì)\Delta,方差更小锁孟。

使用\Delta^*來評(píng)估實(shí)驗(yàn)效果彬祖,效果相似,方差變小罗岖。

2. 原理

如果有另一隨機(jī)變量X,并且已知E(X)腹躁。則有互相獨(dú)立的二維隨機(jī)變量(X_i, Y_i)桑包,定義:

\hat{Y}_{cu} = \bar{Y} - \theta \bar{X} + \theta E(X)

由于E( \theta E(X)-\theta \bar{X}) = 0,所以\hat{Y}_{cu}E(Y)的無偏估計(jì)纺非,則:
var(\hat{Y}_{cu}) = var(Y - \theta X) / n = \frac {1} {n} (var(Y) + \theta^2 var(X) - 2\theta cov(X,Y))哑了,
當(dāng)\theta = cov(X,Y) / var(X)時(shí),var(\hat{Y}_{cu})的值最猩沼薄(線性回歸弱左,最小二乘法),此時(shí):

var (\hat{Y}_{cu}) = \frac {1}{n}(var(Y) - cov(X,Y)^{2}/var(X)) = \frac{var(Y)}{n} (1 - \frac { cov(X,Y)^{2}}{var(X)var(Y)}) = var ( \bar{Y} ) (1 - \rho ^{2} ) \leq var( \bar {Y})

XY的相關(guān)系數(shù)越大炕淮,得到的方差越小拆火。

3. 擴(kuò)展到A/B

如果選擇的X不會(huì)被實(shí)驗(yàn)干擾,則E( X ^ {t} ) - E( X ^ {c} ) = 0涂圆,
實(shí)驗(yàn)組们镜、對(duì)照組在零假設(shè)下還有相同的\theta,得:

\Delta_{cv} = \hat {Y}_{cu} ^{t} - \hat{Y}_{cu}^{c} = ( \bar {Y}_{cu} ^{t} - \bar {Y}_{cu}^{c} ) - \theta(\bar{X}_{cu}^{t} - \bar {X}_{cu}^{c}) + \theta (E( X ^ {t} - X ^ {c} ) ) = \Delta - \theta \Delta _ { x }润歉,得到
var(\Delta_{cv}) = var(\Delta)(1-\rho ^2)

微軟的實(shí)踐經(jīng)驗(yàn)

1. 選擇協(xié)變量(X)

選擇相關(guān)系數(shù)更大的協(xié)變量模狭,效果更好。微軟的建議:

  • 選擇實(shí)驗(yàn)運(yùn)行之前的指標(biāo)數(shù)據(jù)最好踩衩;
  • 實(shí)驗(yàn)之前指標(biāo)數(shù)據(jù)的時(shí)間粒度越長(zhǎng)嚼鹉,效果越好贩汉;
  • 實(shí)驗(yàn)運(yùn)行周期并不是越長(zhǎng)越好。

實(shí)驗(yàn)前數(shù)據(jù)并不是X得唯一選擇锚赤,只要是不會(huì)被實(shí)驗(yàn)干預(yù)影響的變量匹舞,都可以選擇。比如用戶加入實(shí)驗(yàn)的日期宴树。

2. 實(shí)驗(yàn)前數(shù)據(jù)缺失(Yi對(duì)應(yīng)的Xi不存在)

新用戶或太久沒回歸的用戶策菜,可能沒有舊的記錄【票幔可以對(duì)缺失的數(shù)據(jù)又憨,補(bǔ)為適當(dāng)?shù)闹怠?/p>

結(jié)語

本文簡(jiǎn)單介紹了CUPED這種強(qiáng)大的方法,合理的使用可以大大增加實(shí)驗(yàn)的敏感度锭吨。
僅做簡(jiǎn)單介紹蠢莺、總結(jié),實(shí)踐細(xì)節(jié)可參閱相關(guān)資料零如。

思考:CUPED與線性回歸

CUPED方法的本質(zhì)是對(duì)X躏将、Y進(jìn)行二維線性回歸。

默認(rèn)情況算法:
Z = \hat{Y} = Y

CUPED算法:
Z = \hat{Y} = Y - \theta * X + \theta * E(X)

舉例:CUPED算法(藍(lán)色)在z軸上的波動(dòng)相對(duì)默認(rèn)算法(黃色)明顯變?nèi)?/p>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末考蕾,一起剝皮案震驚了整個(gè)濱河市祸憋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌肖卧,老刑警劉巖蚯窥,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異塞帐,居然都是意外死亡拦赠,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門葵姥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荷鼠,“玉大人,你說我怎么就攤上這事榔幸≡世郑” “怎么了?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵削咆,是天一觀的道長(zhǎng)喳篇。 經(jīng)常有香客問我,道長(zhǎng)态辛,這世上最難降的妖魔是什么麸澜? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮奏黑,結(jié)果婚禮上炊邦,老公的妹妹穿的比我還像新娘编矾。我一直安慰自己,他們只是感情好馁害,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布窄俏。 她就那樣靜靜地躺著,像睡著了一般碘菜。 火紅的嫁衣襯著肌膚如雪凹蜈。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天忍啸,我揣著相機(jī)與錄音仰坦,去河邊找鬼。 笑死计雌,一個(gè)胖子當(dāng)著我的面吹牛悄晃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凿滤,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼妈橄,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了翁脆?” 一聲冷哼從身側(cè)響起眷蚓,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎反番,沒想到半個(gè)月后沙热,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恬口,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年校读,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沼侣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祖能。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蛾洛,靈堂內(nèi)的尸體忽然破棺而出养铸,到底是詐尸還是另有隱情,我是刑警寧澤轧膘,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布钞螟,位于F島的核電站,受9級(jí)特大地震影響谎碍,放射性物質(zhì)發(fā)生泄漏鳞滨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一蟆淀、第九天 我趴在偏房一處隱蔽的房頂上張望拯啦。 院中可真熱鬧澡匪,春花似錦、人聲如沸褒链。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽甫匹。三九已至甸鸟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間兵迅,已是汗流浹背抢韭。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喷兼,地道東北人篮绰。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像季惯,于是被迫代替她去往敵國和親吠各。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359