背景
互聯(lián)網(wǎng)實(shí)驗(yàn)一般使用基于正態(tài)分布模型的檢驗(yàn)方法浑槽,但是在ab實(shí)驗(yàn)中我們可能遇到這樣的情況:
1.實(shí)驗(yàn)結(jié)果分析,實(shí)驗(yàn)組均值比對(duì)照組均值提升了10%返帕,相對(duì)提升的置信區(qū)間是多少呢桐玻?
2.實(shí)驗(yàn)組用戶合計(jì)點(diǎn)擊率為26%,對(duì)照組未25%荆萤,置信度與置信區(qū)間如何計(jì)算镊靴?
在場(chǎng)景1中,實(shí)驗(yàn)組均值链韭、對(duì)照組均值是分別服從正態(tài)分布的偏竟,但是它們的比值會(huì)服從正態(tài)分布么?標(biāo)準(zhǔn)差怎么計(jì)算敞峭?
而場(chǎng)景2中踊谋,平均瀏覽數(shù)、平均點(diǎn)擊數(shù)是服從正態(tài)分布的旋讹,但平均點(diǎn)擊率等于平均點(diǎn)擊除以平均瀏覽殖蚕。我們又陷入了正態(tài)分布隨機(jī)變量除以正態(tài)分布隨機(jī)變量的問題!
Delta method可以幫助我們解決這類問題沉迹。
Delta method是什么
Delta method說的是當(dāng)一個(gè)隨機(jī)變量服從正態(tài)分布時(shí)睦疫,經(jīng)過可導(dǎo)的函數(shù)變化后仍然概率趨向正態(tài)分布,并且提供了期望鞭呕、方差的計(jì)算公式笼痛。
單變量下:
如,且函數(shù)g(x)可導(dǎo)琅拌,
則
多變量下:
如,且函數(shù)g(x)可導(dǎo)摘刑,
則进宝。
其中是多元正態(tài)分布的協(xié)方差矩陣,
為
函數(shù)的梯度向量枷恕。
Delta method的個(gè)人理解
以下為單變量下的個(gè)人理解党晋,不等于嚴(yán)格證明。
泰勒公式:
根據(jù)泰勒公式:
則:
由于服從正態(tài)分布,左邊也近似服從相同的正態(tài)分布未玻,且有接近的均值與方差灾而。
為什么可以解決AB的問題
場(chǎng)景1與場(chǎng)景2都是兩個(gè)正態(tài)分布隨機(jī)變量做除法運(yùn)算的問題,設(shè)一個(gè)為Xn扳剿,一個(gè)為Yn旁趟,則(Xn, Yn)服從二元正態(tài)分布:
我們對(duì)Xn,Yn的操作等于函數(shù) 庇绽,根據(jù)Delta方法:
其中锡搜,
聯(lián)系背景問題
于是我們可以對(duì)兩個(gè)問題的解決方案:
場(chǎng)景1:對(duì)照組均值,
為實(shí)驗(yàn)組均值瞧掺,使用樣本均值耕餐、樣本方差做期望、方差的點(diǎn)估計(jì)辟狈;
場(chǎng)景2:為平均用戶頁面瀏覽次數(shù)肠缔,
為平均用戶頁面點(diǎn)擊次數(shù),同樣使用樣本均值哼转、樣本方差做期望明未、方差的點(diǎn)估計(jì)弟胀。
總結(jié)
Delta方法對(duì)實(shí)驗(yàn)分析至關(guān)重要杉适,已經(jīng)幾乎成為所有AB實(shí)驗(yàn)平臺(tái)的一部分,主要用來解決隨機(jī)化單位與分析單位不同的問題倍奢。Delta方法還可以擴(kuò)展到更高維度庶溶,如微軟的CUPED論文中通過四元正態(tài)分布的Delta方法解決比例型指標(biāo)的CUPED計(jì)算難點(diǎn)煮纵。