有偏估計在CTR預(yù)估中引入的問題

1、由于高斯分布方差的最大似然估計為有偏估計谒获,導(dǎo)致方差估計值在樣本量較小時有較大的低估。[1]
假設(shè)單一變量X分布(這里用高斯分布,實際也不是必要)约谈,虛線為負樣本(數(shù)據(jù)量較大),實線為正樣本,他們中間有較小部分的overlap。
結(jié)論是,模型對實線虛線的預(yù)估卖毁,會一定程度上比真實值偏右(方差比真實實線方差更幸驹)。從直覺也很好理解亥啦,因為副樣本的數(shù)量較多炭剪,所以在overlap的區(qū)域,預(yù)估錯負樣本(將負樣本預(yù)估成證樣本)的代價更大翔脱,所以模型預(yù)估的時候奴拦,得到的實線比真實偏右(方差值被低估,P(y=1)的概率值届吁,也被低估)

虛線為負樣本错妖,實線為正樣本

在LR中,針對這周情況對ctr值的修正可以通過一系列推斷得出[5]:


image.png

pi為原預(yù)估概率疚沐。Beta為參數(shù)暂氯。V(Beta)為參數(shù)的協(xié)方差矩陣。這個公式直覺上來理解的話亮蛔,V(Beta)代表了參數(shù)的不確定性痴施,如果Beta本身是確定的,那么其協(xié)方差矩陣為全0矩陣,則C項為0辣吃。換句話說动遭,參數(shù)的不確定性越高,調(diào)整的系數(shù)越大神得。另外厘惦,0.5-pi項決定了系數(shù)的正負,對于概率低于0.5的(即發(fā)生概率更小循头,樣本數(shù)更少的類別)绵估,概率是低估的,系數(shù)項為正卡骂。

2国裳、在實際的應(yīng)用中,預(yù)估值同樣會受到數(shù)據(jù)采樣的影響[2]
常用的方法有通過prior對其進行修正全跨,以及通過樣本loss權(quán)重進行修正缝左。[3]

以及針對采樣率的參數(shù),直接對預(yù)估ctr做修正浓若。采樣得到的后驗概率與真實后驗概率的關(guān)系[4]:


image.png

refer:
[1] 《計算廣告》15.3
[2] https://zhuanlan.zhihu.com/p/35580375
[3] http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/15/model-calibration-for-logistic-regression-in-rare-events-data
[4]When is undersampling effective in unbalanced classification tasks?(http://www.oliviercaelen.be/doc/ECML_under_v4.pdf)
[5]Logistic Regression in Rare Events Data

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末渺杉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子挪钓,更是在濱河造成了極大的恐慌是越,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碌上,死亡現(xiàn)場離奇詭異倚评,居然都是意外死亡,警方通過查閱死者的電腦和手機馏予,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門天梧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人霞丧,你說我怎么就攤上這事呢岗。” “怎么了蛹尝?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵后豫,是天一觀的道長。 經(jīng)常有香客問我突那,道長硬贯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任陨收,我火速辦了婚禮饭豹,結(jié)果婚禮上鸵赖,老公的妹妹穿的比我還像新娘。我一直安慰自己拄衰,他們只是感情好它褪,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著翘悉,像睡著了一般茫打。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上妖混,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天老赤,我揣著相機與錄音,去河邊找鬼制市。 笑死抬旺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的祥楣。 我是一名探鬼主播开财,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼误褪!你這毒婦竟也來了责鳍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤兽间,失蹤者是張志新(化名)和其女友劉穎历葛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嘀略,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡恤溶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了屎鳍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡问裕,死狀恐怖逮壁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情粮宛,我是刑警寧澤窥淆,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站巍杈,受9級特大地震影響忧饭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜筷畦,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一词裤、第九天 我趴在偏房一處隱蔽的房頂上張望刺洒。 院中可真熱鬧,春花似錦吼砂、人聲如沸逆航。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽因俐。三九已至,卻和暖如春周偎,著一層夾襖步出監(jiān)牢的瞬間抹剩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工蓉坎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留澳眷,地道東北人。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓袍嬉,卻偏偏與公主長得像境蔼,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子伺通,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容