如何理解AB系統(tǒng)

1 什么是AB實(shí)驗(yàn)任柜?

假如你是一名推薦算法工程師谅摄,需要上線(xiàn)一個(gè)提升公司商品成交金額(GMV)的算法模型法精。你覺(jué)得税灌,你的模型是有效的,比原有模型提升了100%的成交金額亿虽。但是老板說(shuō),我要我覺(jué)得苞也,不要你覺(jué)得 -- 你得給出證明洛勉。

你想了想,不妨設(shè)計(jì)一個(gè)對(duì)照實(shí)驗(yàn):

將用戶(hù)分成人數(shù)如迟、GMV一致的兩組收毫,分別采用不同的模型,對(duì)照組采用原模型A殷勘,實(shí)驗(yàn)組采用新模型B

image.png

這就是一個(gè)AB實(shí)驗(yàn):

  • 提出問(wèn)題--新模型真的比原來(lái)的模型效果好么此再?

  • 建立假設(shè)--兩者一致,無(wú)顯著差別

  • 設(shè)計(jì)實(shí)驗(yàn)--均勻分組玲销,賦予不同的模型输拇,計(jì)算差值

  • 得出結(jié)論

2 均勻分組與AA實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)計(jì)好了,這時(shí)又來(lái)了一個(gè)新的難題贤斜。如何保證兩組一定是均勻的呢策吠,平臺(tái)每天有千百萬(wàn)用戶(hù)逛裤,要一個(gè)個(gè)數(shù)過(guò)去么?

答案是當(dāng)然不用猴抹。

這里的思路就是隨機(jī)將用戶(hù)分入實(shí)驗(yàn)組带族、對(duì)照組,并用兩組歷史數(shù)據(jù)蟀给,檢驗(yàn)分組結(jié)果的相似性蝙砌。

那么問(wèn)題又來(lái)了,如何檢驗(yàn)相似性跋理?

引入T檢驗(yàn)择克,T檢驗(yàn)認(rèn)為對(duì)兩組統(tǒng)計(jì)量求t值,t值服從t分布薪介,從而得出顯著水平(p-value)祠饺。

image.png

其中
image.png

,即自由度汁政;
image.png

為伽馬函數(shù)道偷。

這時(shí)候,可能有同學(xué)又要問(wèn)了记劈,T檢驗(yàn)的前提條件是數(shù)據(jù)符合正態(tài)分布勺鸦,如果數(shù)據(jù)不夠"正態(tài)"那該怎么辦呢?

需要明確目木,通過(guò)中心極限定理换途,在用戶(hù)基數(shù)足夠大的情況下,我們知道用戶(hù)側(cè)常見(jiàn)的指標(biāo)應(yīng)該服從正態(tài)分布刽射。如果不符合军拟,一定有某種“問(wèn)題”。比如誓禁,刷單作弊懈息、幸存者偏差、樣本量小等摹恰。每個(gè)問(wèn)題會(huì)有對(duì)應(yīng)的“消偏”方式辫继,來(lái)找出其背后真實(shí)存在的正態(tài)分布。

所以這里的流程就是:分組--歷史數(shù)據(jù)計(jì)算--正態(tài)性檢驗(yàn)(不正態(tài)的消偏恢復(fù)成正態(tài)分布)--兩組用戶(hù)組間t檢驗(yàn)

這里的提取歷史數(shù)據(jù)俗慈,并檢驗(yàn)的過(guò)程姑宽,就是一個(gè)在開(kāi)展AB實(shí)驗(yàn)前,進(jìn)行前置AA實(shí)驗(yàn)的過(guò)程闺阱。

此外炮车,這里可以發(fā)現(xiàn)剛才設(shè)計(jì)的AB實(shí)驗(yàn)漏洞。那么這里打個(gè)補(bǔ)丁,AB間的差異比較也應(yīng)該使用“正態(tài)性檢驗(yàn)-->t檢驗(yàn)”這一流程示血。就定量實(shí)驗(yàn)而言棋傍,波動(dòng)越大的組,所需樣本量越大难审。

其中瘫拣,樣本量 = 流量 x 流量轉(zhuǎn)化漏斗 x 時(shí)間

波動(dòng)程度則可以通過(guò)標(biāo)準(zhǔn)差來(lái)衡量。

3 辛普森悖論與BB實(shí)驗(yàn)

在經(jīng)歷了從AA到AB之后告喊,經(jīng)過(guò)一系列調(diào)整麸拄,你得到了B比A增加了100%GMV的結(jié)論。本來(lái)兩組指標(biāo)收攏就可以驗(yàn)收完成黔姜。然而當(dāng)把模型B擴(kuò)充到對(duì)照組進(jìn)行使用時(shí)拢切,你發(fā)現(xiàn)對(duì)照組在模型B下和實(shí)驗(yàn)組的差距并沒(méi)有完全收攏。

這就讓人想到了辛普森悖論秆吵,優(yōu)勢(shì)分組合并為總體后淮椰,反而變成劣勢(shì)組了。

當(dāng)人們嘗試探究?jī)煞N變量(比如新生錄取率與性別)是否具有相關(guān)性的時(shí)候纳寂,會(huì)分別對(duì)之進(jìn)行分組研究主穗。然而,在分組比較中都占優(yōu)勢(shì)的一方毙芜,在總評(píng)中有時(shí)反而是失勢(shì)的一方忽媒。via wikipedia

悖論產(chǎn)生原因,往往是分組中存在人群比例失衡腋粥,且模型對(duì)不同人群的指標(biāo)提升存在分層現(xiàn)象晦雨。

循著這一思路,我們發(fā)現(xiàn)了上文設(shè)計(jì)的AB分組存在的漏洞隘冲,對(duì)照組與實(shí)驗(yàn)組的男女比例不一致闹瞧,分析數(shù)據(jù)之后,發(fā)現(xiàn)模型B對(duì)男女的提升效果不一致–女性群體漲幅大于男性群體展辞。實(shí)驗(yàn)組效果提升由女性用戶(hù)提供的多于男性夹抗。所以在對(duì)照組也應(yīng)用模型B時(shí),對(duì)照組和實(shí)驗(yàn)組未能完全收攏纵竖。

image.png

這時(shí)重新把分組中男女劃分均勻,重新AA AB BB杏愤,模型B上線(xiàn)評(píng)估完成靡砌。順帶發(fā)現(xiàn)了用戶(hù)分層。

新發(fā)現(xiàn)的分層特征放入下一輪模型迭代中珊楼。

4 總結(jié)

完整流程為:AA--AB--BB

AA 負(fù)責(zé)分組通殃,驗(yàn)證均勻性。順帶修復(fù)特征數(shù)據(jù)。

AB 負(fù)責(zé)比較AB模型效果差異

BB 負(fù)責(zé)驗(yàn)收AB比對(duì)的合理性画舌。順帶發(fā)現(xiàn)了用戶(hù)分層堕担。

一個(gè)思考題:如何證明一個(gè)策略長(zhǎng)時(shí)間是穩(wěn)定的,和時(shí)間推移無(wú)關(guān)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末曲聂,一起剝皮案震驚了整個(gè)濱河市霹购,隨后出現(xiàn)的幾起案子玄柠,更是在濱河造成了極大的恐慌橱鹏,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件形真,死亡現(xiàn)場(chǎng)離奇詭異旭咽,居然都是意外死亡贞奋,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)穷绵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)轿塔,“玉大人,你說(shuō)我怎么就攤上這事仲墨」寸裕” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵宗收,是天一觀(guān)的道長(zhǎng)漫拭。 經(jīng)常有香客問(wèn)我,道長(zhǎng)混稽,這世上最難降的妖魔是什么采驻? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮匈勋,結(jié)果婚禮上礼旅,老公的妹妹穿的比我還像新娘。我一直安慰自己洽洁,他們只是感情好痘系,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著饿自,像睡著了一般汰翠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昭雌,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天复唤,我揣著相機(jī)與錄音,去河邊找鬼烛卧。 笑死佛纫,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播呈宇,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼好爬,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了甥啄?” 一聲冷哼從身側(cè)響起存炮,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎型豁,沒(méi)想到半個(gè)月后僵蛛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迎变,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年充尉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衣形。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡驼侠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谆吴,到底是詐尸還是另有隱情倒源,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布句狼,位于F島的核電站笋熬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏腻菇。R本人自食惡果不足惜胳螟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望筹吐。 院中可真熱鬧糖耸,春花似錦、人聲如沸丘薛。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)洋侨。三九已至舍扰,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間希坚,已是汗流浹背边苹。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吏够,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像锅知,于是被迫代替她去往敵國(guó)和親播急。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容