背景
為了加速實(shí)驗(yàn)迭代搀军,需要兼顧:速度膨俐、質(zhì)量、風(fēng)險(xiǎn)罩句,Linkin提出了SQR框架:SQR: Balancing Speed, Qality and Risk in Online Experiments焚刺。
1. SQR FRAMEWORK
1.1. 關(guān)于實(shí)驗(yàn)放量的三個(gè)誤區(qū)
誤區(qū)#1:讓實(shí)驗(yàn)一直跑直到顯著
- 多重檢驗(yàn)導(dǎo)致的假陽(yáng)性問(wèn)題;
-
樣本量隨時(shí)間增加速度越來(lái)越慢的止。
誤區(qū)#2: 小流量實(shí)驗(yàn)的消耗很低
長(zhǎng)期的小流量實(shí)驗(yàn)消耗很大:
- 機(jī)會(huì)消耗
讓創(chuàng)新變少變慢 - 平臺(tái)消耗
運(yùn)行實(shí)驗(yàn)數(shù)更多 - 商業(yè)消耗
命中用戶長(zhǎng)期處于較差體驗(yàn)導(dǎo)致流失
誤區(qū)#3:10%流量就夠了
許多實(shí)驗(yàn)都是面向用戶子集檩坚,而且付費(fèi)相關(guān)的指標(biāo)需要更大量的用戶
2.2. SQR原則
做實(shí)驗(yàn)的原因:定量測(cè)量、減少風(fēng)險(xiǎn)诅福、學(xué)習(xí)用戶
Maximun Power Ramp(MPR):最大power的放量
原則#1:風(fēng)險(xiǎn)可接受匾委,盡快放量到MPR
風(fēng)險(xiǎn)影響因素:
- 先驗(yàn)信念
- 采樣數(shù)據(jù)結(jié)果
- 轉(zhuǎn)換率:實(shí)驗(yàn)影響的用戶比率
原則#2:MPR階段等待足夠的時(shí)間
至少一周,存在burn-in效果時(shí)更久
原則#3:post-MPR階段盡快結(jié)束
原則#4:僅在研究目標(biāo)明確下才進(jìn)行長(zhǎng)期觀察實(shí)驗(yàn)
2.放量推薦器
負(fù)責(zé)兩項(xiàng)任務(wù):1.指引ramps進(jìn)入MPR階段氓润;2.發(fā)出加速M(fèi)PR的信號(hào)赂乐。
2.1. MPR前放量
在風(fēng)險(xiǎn)可承受之內(nèi),盡快放量到MPR階段咖气。
2.1.1. 風(fēng)險(xiǎn)和可承受風(fēng)險(xiǎn)
將流量放至q的風(fēng)險(xiǎn)為(其實(shí)就是treatment對(duì)大盤影響的估計(jì)):
其中:
是影響效果挨措,
是左截?cái)嗟挠|發(fā)率,
是左截?cái)嗟姆帕勘取?/p>
如果滿足:
就認(rèn)為風(fēng)險(xiǎn)是可承受的崩溪。
關(guān)于的選擇浅役,不同指標(biāo)選擇不同(todo)
2.1.2. 假設(shè)檢驗(yàn)
為可能的放量比,在linkedIn一般{1%, 5%, 10%, 25%, 50%}伶唯。
假設(shè)模板:
2.1.3. 貫序檢驗(yàn)
使用Generalized Sequential Probability Ratio Test (GSPRT)觉既,任意時(shí)刻t的檢驗(yàn)統(tǒng)計(jì)量:
其中是似然函數(shù),
是t時(shí)刻用戶級(jí)別的指標(biāo)值乳幸,
是
的先驗(yàn)概率瞪讼。
在GSPRT下,被接受的條件為:
由于后驗(yàn)概率粹断,所以要選擇
以保證最多有一個(gè)假設(shè)被接受符欠。
基于大數(shù)定理和終極極限定理,組間均值差的分布近似正態(tài)瓶埋,方程轉(zhuǎn)化為(此處方法用的是貝葉斯):
其中是
的方差希柿,
來(lái)自假設(shè)模板。
對(duì)應(yīng)的
越高悬赏,越容易接受原假設(shè)狡汉,產(chǎn)生二類錯(cuò)誤;
對(duì)應(yīng)的
越高闽颇,越容易拒絕原假設(shè)盾戴,產(chǎn)生一類錯(cuò)誤。
linkedIn的選擇:兵多。
最終流程:
1). 如果任意環(huán)節(jié)q尖啡,橄仆,拒絕原假設(shè),不能繼續(xù)放量衅斩;
2). 如果某些環(huán)節(jié)盆顾,,接受原假設(shè)畏梆,放量到其中最大q階段您宪;
3). 其他情況,繼續(xù)觀察到t+1奠涌,根據(jù)進(jìn)行決策宪巨;
4). 如果直到都沒(méi)滿足條件,建議放量溜畅。
2.1.4. 多個(gè)指標(biāo)情況
通過(guò)控制FDR來(lái)矯正多重檢驗(yàn)問(wèn)題捏卓,通過(guò)類似Benjamini-Hochberg方差來(lái)處理:
1). 將M個(gè)指標(biāo)結(jié)果進(jìn)行降序排列;
2). 按順序進(jìn)行比較:
至少一個(gè)指標(biāo)滿足條件時(shí)慈格,接受怠晴。
所以放量條件為:
1). 未被接受;
2). 主要指標(biāo)都接受浴捆。
2.2. MPR階段的放量
MPR之前主要關(guān)注規(guī)避風(fēng)險(xiǎn)蒜田,MPR階段關(guān)注速度和決策質(zhì)量。
2.2.1. MPR時(shí)長(zhǎng)
至少一周的時(shí)間
2.2.2. 指標(biāo)的影響
重要的指標(biāo):任意指標(biāo)p小于0.05选泻,就需要仔細(xì)研究物邑;
其他指標(biāo):顯著性為0.1,并控制錯(cuò)誤發(fā)現(xiàn)率滔金,如果負(fù)向顯著就不建議放量到100%。
2.2.3. 其他發(fā)現(xiàn)的警告
如果有其他發(fā)現(xiàn)茂嗓,比如burn-in效應(yīng)餐茵、inconsistent results、heterogeneous treatment效應(yīng)等述吸。這些應(yīng)該被自動(dòng)計(jì)算忿族,并給出更好、更全面的推薦方案蝌矛。
2.3. 評(píng)估
分兩方面評(píng)估:
- 一致性
理想情況下道批,t階段放量結(jié)論,在t+1階段依然符合入撒; - 速度
理想情況下隆豹,用更少的階段、合計(jì)更短的時(shí)間茅逮,到達(dá)MPR璃赡。
LinkedIn收集了484個(gè)去年在MPR階段滿一周的實(shí)驗(yàn)判哥。由于他們的放量各異,采用了50%流量階段進(jìn)行模擬碉考,pre-MPR前取塌计。
全階段的模擬: