1、由于高斯分布方差的最大似然估計為有偏估計谒获,導(dǎo)致方差估計值在樣本量較小時有較大的低估。[1]
假設(shè)單一變量X分布(這里用高斯分布,實際也不是必要)约谈,虛線為負樣本(數(shù)據(jù)量較大),實線為正樣本,他們中間有較小部分的overlap。
結(jié)論是,模型對實線虛線的預(yù)估卖毁,會一定程度上比真實值偏右(方差比真實實線方差更幸驹)。從直覺也很好理解亥啦,因為副樣本的數(shù)量較多炭剪,所以在overlap的區(qū)域,預(yù)估錯負樣本(將負樣本預(yù)估成證樣本)的代價更大翔脱,所以模型預(yù)估的時候奴拦,得到的實線比真實偏右(方差值被低估,P(y=1)的概率值届吁,也被低估)
在LR中,針對這周情況對ctr值的修正可以通過一系列推斷得出[5]:
pi為原預(yù)估概率疚沐。Beta為參數(shù)暂氯。V(Beta)為參數(shù)的協(xié)方差矩陣。這個公式直覺上來理解的話亮蛔,V(Beta)代表了參數(shù)的不確定性痴施,如果Beta本身是確定的,那么其協(xié)方差矩陣為全0矩陣,則C項為0辣吃。換句話說动遭,參數(shù)的不確定性越高,調(diào)整的系數(shù)越大神得。另外厘惦,0.5-pi項決定了系數(shù)的正負,對于概率低于0.5的(即發(fā)生概率更小循头,樣本數(shù)更少的類別)绵估,概率是低估的,系數(shù)項為正卡骂。
2国裳、在實際的應(yīng)用中,預(yù)估值同樣會受到數(shù)據(jù)采樣的影響[2]
常用的方法有通過prior對其進行修正全跨,以及通過樣本loss權(quán)重進行修正缝左。[3]
以及針對采樣率的參數(shù),直接對預(yù)估ctr做修正浓若。采樣得到的后驗概率與真實后驗概率的關(guān)系[4]:
refer:
[1] 《計算廣告》15.3
[2] https://zhuanlan.zhihu.com/p/35580375
[3] http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/15/model-calibration-for-logistic-regression-in-rare-events-data
[4]When is undersampling effective in unbalanced classification tasks?(http://www.oliviercaelen.be/doc/ECML_under_v4.pdf)
[5]Logistic Regression in Rare Events Data