因果推斷推薦系統(tǒng)工具箱 - CPBM(一)

文章名稱

【SIGIR-2019】【Cornell University】Intervention Harvesting for Context-Dependent Examination-Bias Estimation

核心要點

文章旨在解決L2R中審視偏差(examination bias)對模型性能造成的影響汇歹,作者認為審視偏差不僅僅和物品處在的返回結果的位置相關腔彰,同時和整個查詢的特征(包括語句長短出皇、上下文,意圖厚宰,甚至查詢者的性別、年齡都有關系)相關稿械。因此我抠,在原有Position-Based Model,PBM的基礎上提出了Contextual Position-Based Mode决记,CPBM模型摧冀,以查詢特征作為條件來估計審視偏差。

方法細節(jié)

問題引入

基于IPS的方法有效的緩解了基于隱式反饋的L2R中的position bias和數(shù)據(jù)缺失問題系宫。
然而索昂,現(xiàn)有方法假設position bias(examination bias,也就是觀測或者審視偏差扩借,表示用戶是否注意到或者看到某個排在后面的推薦結果是有偏的椒惨,沒有點擊某個物品,可能是因為沒有看到或被前面的結果吸引而被截斷了潮罪,并不代表這個結果和用戶的查詢意圖不相關或者用戶不喜歡這個結果)僅僅和文本的排序位置有關康谆,也就是所謂的position-based-model(PBM)领斥。 但作者認為,這個偏差和用戶查詢時候的上下文有關系沃暗。

此外月洛,現(xiàn)有方法認為所有查詢受到的偏差的影響是相同的,其實不然孽锥,不同的檢索意圖可能導致不同的審視偏差(不僅僅是檢索用到的查詢語句嚼黔,還可能涉及到用戶的特征)。例如惜辑,1)用戶輸入搜索查詢目的是尋找特定的網(wǎng)站或網(wǎng)頁唬涧,作者稱之為導航查詢(navigational queries)。此時盛撑,用戶審視結果時碎节,可能更容易被截斷甚至忽略相關性高排名靠前的其他網(wǎng)頁。因為需要目標是找到自己想要的抵卫,目的性比較強钓株;2)用戶輸入一個涵蓋范圍比較廣的話題,目的是獲取更多的信息陌僵,比如調研轴合,作者稱之為導航查詢(informational queries)。此時碗短,用戶審視結果時受葛,可能還有比較強的連續(xù)性,可能一個接一個的審視相關的結果偎谁。因為目標是獲得更多的信息总滩,會盡可能的看所有結果,所有結果的被審視覆蓋率會比較高)巡雨。為每一個場景訓練一個PBM來解決examination bias是不太現(xiàn)實的闰渔。而這些examination bias的區(qū)別可以用與用戶和查詢詞/短語相關的上下文向量表示,例如查詢語句的長度铐望、查詢結果集的大小以及用戶的年齡等(個人理解冈涧,年齡大的偏向于更多使用泛化瀏覽?)正蛙。

具體做法

不同于之前的方法利用一個被所有語句共享的審視參數(shù)來消除偏差督弓,作者提出的CPBM可利用上下文向量提供更豐富的偏差影響信息。

PBM假設乒验,用戶是否審視某個搜索的反饋結果(用隨機變量E表示)僅僅與反饋結果的排序k相關愚隧,可以表示為條件概率P(E=1|k)。用戶是否轉化(點擊锻全,評分等等狂塘,用隨機變量C表示)录煤,是用戶是否審視結果以及結果是否與查詢意圖相關共同作用的結果(用函數(shù)rel(q, d)表示),可以表示為P(C=1|q,d,k) = P(E=1|k)rel(q, d)荞胡》蓿可以看出PBM假設審視偏差(P(E=1|k)可以被理解為是一種propensity score)只與排序有關,對所有查詢語句與文檔元組q, d是一樣的硝训,也就是所有查詢結果共用一條propensity score曲線(P(E=1|k)關于k的曲線)。

然而新思,如上所述窖梁,P(E=1)的概率和整個查詢的上下文有關系,其條件概率應該被表示為P(E = 1|k, x)夹囚,其中x表示上下文向量纵刘。用戶是否轉化的概率可以被表示為,P(C=1|x,d,k) = P(E=1|k,x)rel(x, d)荸哟,也就是所謂的CPBM假哎。可以看出鞍历,相比于PBM舵抹,1)下文向量x替換了查詢語句q(由于上下文向量涵蓋更廣泛的查詢信息,所以可以省略q)劣砍;2)用戶是否審視某一個查詢反饋結果與結果的排序和上下文向量都有關系惧蛹。

P(E=1|k)可以用神經(jīng)網(wǎng)絡或者其他模型建模,并且PBM只需要估計k_{max}(表示我們關心的反饋結果的最長度刑枝,比如10或者20香嗓,一般評估的時候用DCG@k里邊的k)。然而装畅,CPBM要求建模P(E=1|x,k)靠娱,并且在每一個k,x元組,學習模型參數(shù)掠兄。除了數(shù)據(jù)是稀疏的以外像云,由于我們不知道rel(x,d)的真實值(其實是我們想要的核心值),所以很難準確估計P(E=1|x,k)蚂夕。

下一節(jié)我們繼續(xù)講解苫费,如何學習模型的參數(shù)。

心得體會

上下文相關

文章最大的亮點是通過數(shù)據(jù)分析和觀察發(fā)現(xiàn)不同query的上下文會影響審視偏差双抽,雖然這個特點被講出來的時候很直覺百框,容易理解,但并不好從數(shù)據(jù)和舉例中描述出來牍汹。同時铐维,也讓我們想到審視偏差可能還與其他特征相關柬泽,包括用戶的查詢地點,查詢時段的習慣(比如辦公時查的更偏向于目的明確)嫁蛇,單個文檔的長度(文檔越短锨并,用戶看完一個可能更容易回到查詢結果列表看下一個)等。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
禁止轉載睬棚,如需轉載請通過簡信或評論聯(lián)系作者第煮。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市抑党,隨后出現(xiàn)的幾起案子包警,更是在濱河造成了極大的恐慌,老刑警劉巖底靠,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件害晦,死亡現(xiàn)場離奇詭異,居然都是意外死亡暑中,警方通過查閱死者的電腦和手機壹瘟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鳄逾,“玉大人稻轨,你說我怎么就攤上這事〉癜迹” “怎么了澄者?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長请琳。 經(jīng)常有香客問我粱挡,道長,這世上最難降的妖魔是什么俄精? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任询筏,我火速辦了婚禮,結果婚禮上竖慧,老公的妹妹穿的比我還像新娘嫌套。我一直安慰自己,他們只是感情好圾旨,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布踱讨。 她就那樣靜靜地躺著,像睡著了一般砍的。 火紅的嫁衣襯著肌膚如雪痹筛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音帚稠,去河邊找鬼谣旁。 笑死,一個胖子當著我的面吹牛滋早,可吹牛的內容都是我干的榄审。 我是一名探鬼主播,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼杆麸,長吁一口氣:“原來是場噩夢啊……” “哼搁进!你這毒婦竟也來了?” 一聲冷哼從身側響起昔头,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤饼问,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后减细,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡赢笨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年未蝌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茧妒。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡萧吠,死狀恐怖,靈堂內的尸體忽然破棺而出桐筏,到底是詐尸還是另有隱情纸型,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布梅忌,位于F島的核電站狰腌,受9級特大地震影響,放射性物質發(fā)生泄漏牧氮。R本人自食惡果不足惜琼腔,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望踱葛。 院中可真熱鬧丹莲,春花似錦、人聲如沸尸诽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽性含。三九已至洲赵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背板鬓。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工悲敷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人俭令。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓后德,卻偏偏與公主長得像,于是被迫代替她去往敵國和親抄腔。 傳聞我的和親對象是個殘疾皇子瓢湃,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內容