1 什么是AB實(shí)驗(yàn)任柜?
假如你是一名推薦算法工程師谅摄,需要上線(xiàn)一個(gè)提升公司商品成交金額(GMV)的算法模型法精。你覺(jué)得税灌,你的模型是有效的,比原有模型提升了100%的成交金額亿虽。但是老板說(shuō),我要我覺(jué)得苞也,不要你覺(jué)得 -- 你得給出證明洛勉。
你想了想,不妨設(shè)計(jì)一個(gè)對(duì)照實(shí)驗(yàn):
將用戶(hù)分成人數(shù)如迟、GMV一致的兩組收毫,分別采用不同的模型,對(duì)照組采用原模型A殷勘,實(shí)驗(yàn)組采用新模型B
這就是一個(gè)AB實(shí)驗(yàn):
提出問(wèn)題--新模型真的比原來(lái)的模型效果好么此再?
建立假設(shè)--兩者一致,無(wú)顯著差別
設(shè)計(jì)實(shí)驗(yàn)--均勻分組玲销,賦予不同的模型输拇,計(jì)算差值
得出結(jié)論
2 均勻分組與AA實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)計(jì)好了,這時(shí)又來(lái)了一個(gè)新的難題贤斜。如何保證兩組一定是均勻的呢策吠,平臺(tái)每天有千百萬(wàn)用戶(hù)逛裤,要一個(gè)個(gè)數(shù)過(guò)去么?
答案是當(dāng)然不用猴抹。
這里的思路就是隨機(jī)將用戶(hù)分入實(shí)驗(yàn)組带族、對(duì)照組,并用兩組歷史數(shù)據(jù)蟀给,檢驗(yàn)分組結(jié)果的相似性蝙砌。
那么問(wèn)題又來(lái)了,如何檢驗(yàn)相似性跋理?
引入T檢驗(yàn)择克,T檢驗(yàn)認(rèn)為對(duì)兩組統(tǒng)計(jì)量求t值,t值服從t分布薪介,從而得出顯著水平(p-value)祠饺。
,即自由度汁政;
為伽馬函數(shù)道偷。
這時(shí)候,可能有同學(xué)又要問(wèn)了记劈,T檢驗(yàn)的前提條件是數(shù)據(jù)符合正態(tài)分布勺鸦,如果數(shù)據(jù)不夠"正態(tài)"那該怎么辦呢?
需要明確目木,通過(guò)中心極限定理换途,在用戶(hù)基數(shù)足夠大的情況下,我們知道用戶(hù)側(cè)常見(jiàn)的指標(biāo)應(yīng)該服從正態(tài)分布刽射。如果不符合军拟,一定有某種“問(wèn)題”。比如誓禁,刷單作弊懈息、幸存者偏差、樣本量小等摹恰。每個(gè)問(wèn)題會(huì)有對(duì)應(yīng)的“消偏”方式辫继,來(lái)找出其背后真實(shí)存在的正態(tài)分布。
所以這里的流程就是:分組--歷史數(shù)據(jù)計(jì)算--正態(tài)性檢驗(yàn)(不正態(tài)的消偏恢復(fù)成正態(tài)分布)--兩組用戶(hù)組間t檢驗(yàn)
這里的提取歷史數(shù)據(jù)俗慈,并檢驗(yàn)的過(guò)程姑宽,就是一個(gè)在開(kāi)展AB實(shí)驗(yàn)前,進(jìn)行前置AA實(shí)驗(yàn)的過(guò)程闺阱。
此外炮车,這里可以發(fā)現(xiàn)剛才設(shè)計(jì)的AB實(shí)驗(yàn)漏洞。那么這里打個(gè)補(bǔ)丁,AB間的差異比較也應(yīng)該使用“正態(tài)性檢驗(yàn)-->t檢驗(yàn)”這一流程示血。就定量實(shí)驗(yàn)而言棋傍,波動(dòng)越大的組,所需樣本量越大难审。
其中瘫拣,樣本量 = 流量 x 流量轉(zhuǎn)化漏斗 x 時(shí)間
波動(dòng)程度則可以通過(guò)標(biāo)準(zhǔn)差來(lái)衡量。
3 辛普森悖論與BB實(shí)驗(yàn)
在經(jīng)歷了從AA到AB之后告喊,經(jīng)過(guò)一系列調(diào)整麸拄,你得到了B比A增加了100%GMV的結(jié)論。本來(lái)兩組指標(biāo)收攏就可以驗(yàn)收完成黔姜。然而當(dāng)把模型B擴(kuò)充到對(duì)照組進(jìn)行使用時(shí)拢切,你發(fā)現(xiàn)對(duì)照組在模型B下和實(shí)驗(yàn)組的差距并沒(méi)有完全收攏。
這就讓人想到了辛普森悖論秆吵,優(yōu)勢(shì)分組合并為總體后淮椰,反而變成劣勢(shì)組了。
當(dāng)人們嘗試探究?jī)煞N變量(比如新生錄取率與性別)是否具有相關(guān)性的時(shí)候纳寂,會(huì)分別對(duì)之進(jìn)行分組研究主穗。然而,在分組比較中都占優(yōu)勢(shì)的一方毙芜,在總評(píng)中有時(shí)反而是失勢(shì)的一方忽媒。via wikipedia
悖論產(chǎn)生原因,往往是分組中存在人群比例失衡腋粥,且模型對(duì)不同人群的指標(biāo)提升存在分層現(xiàn)象晦雨。
循著這一思路,我們發(fā)現(xiàn)了上文設(shè)計(jì)的AB分組存在的漏洞隘冲,對(duì)照組與實(shí)驗(yàn)組的男女比例不一致闹瞧,分析數(shù)據(jù)之后,發(fā)現(xiàn)模型B對(duì)男女的提升效果不一致–女性群體漲幅大于男性群體展辞。實(shí)驗(yàn)組效果提升由女性用戶(hù)提供的多于男性夹抗。所以在對(duì)照組也應(yīng)用模型B時(shí),對(duì)照組和實(shí)驗(yàn)組未能完全收攏纵竖。
這時(shí)重新把分組中男女劃分均勻,重新AA AB BB杏愤,模型B上線(xiàn)評(píng)估完成靡砌。順帶發(fā)現(xiàn)了用戶(hù)分層。
新發(fā)現(xiàn)的分層特征放入下一輪模型迭代中珊楼。
4 總結(jié)
完整流程為:AA--AB--BB
AA 負(fù)責(zé)分組通殃,驗(yàn)證均勻性。順帶修復(fù)特征數(shù)據(jù)。
AB 負(fù)責(zé)比較AB模型效果差異
BB 負(fù)責(zé)驗(yàn)收AB比對(duì)的合理性画舌。順帶發(fā)現(xiàn)了用戶(hù)分層堕担。
一個(gè)思考題:如何證明一個(gè)策略長(zhǎng)時(shí)間是穩(wěn)定的,和時(shí)間推移無(wú)關(guān)