文章名稱
Attribute-based Propensity for Unbiased Learning in Recommender Systems: Algorithm and Case Studies
核心要點
文章旨在解決工業(yè)中實際遇到的各種場景帶來的bias搜锰。作者推導(dǎo)出在IPS場景下,無偏的DCG評估準則悔叽。利用EM算法(和一些加速計算的方法)學(xué)習(xí)IPS的權(quán)重湾戳,并最終得到相關(guān)性模型嘹朗。
方法細節(jié)
問題引入
由于用戶隱式反饋存在各種偏差(如流行度偏差),直接利用觀測數(shù)據(jù)學(xué)習(xí)模型會對性能有損失。原有方法利用IPS等方法進行糾偏朽缴,然而這些方法只能應(yīng)用于位置偏差這種單獨UI場景的propensity score(偏差僅僅由位置引起沧侥,而實際上包含多種layout可霎,不僅僅是瀑布流)。現(xiàn)實中的推薦系統(tǒng)存在兩個特點宴杀,1)同一個網(wǎng)站在不同的設(shè)備上可能有不同的layout癣朗,比如瀑布流或者是網(wǎng)格;2)用戶通過諸如搜索旺罢,快捷工具欄等渠道(甚至是短視頻場景的up主頁面交互等)旷余,也可以與物品進行交互(可能代表了某種正反饋),這些反饋都發(fā)生在推薦流之外扁达,但確非常有用正卧,能夠幫助我們進行數(shù)據(jù)偏差的糾正。為了充分利用上述特點跪解,作者把(瀑布流中的)位置炉旷,不同的終端以及反饋的渠道都當做屬性來學(xué)習(xí)傾向性得分,進行數(shù)據(jù)糾偏叉讥。
具體做法
文章中定義propensity score表示窘行,即物品有沒有被曝光給用戶。
表示物品是否被用戶喜歡(或者吸引用戶)图仓。
表示top-n列表里的物品罐盔。
是常用的評估模型排序性能的評價指標,可以被理解為位置折扣下的top-n相關(guān)性求和(注意透绩,這里的相關(guān)性不是點擊)翘骂。由于observation bias(個人理解就是exposure bias),我們不能觀測到所有top-n的反饋帚豪,需要用如下圖所示的IPS的方法進行矯正碳竟,該方法可以證明是無偏的。
眾所周知狸臣,估計propensity score是IPS方法的核心所在莹桅,文章的重點是利用attributes來估計propensity score。定義分別表示用戶點擊與否的隨機變量,用戶是否審視(可以理解為是否被曝光)某個物品的隨機變量以及用戶-物品元組的相關(guān)性(用戶是否喜歡)某個物品的隨機變量诈泼。
表示某些attributes(其實就是偏差特征懂拾,或者說推薦系統(tǒng)的特征,例如position)铐达。我們假設(shè)用戶是否審視某個物品岖赋,只與attributes有關(guān)系(比如position和layout)。而用戶是否喜歡該物品瓮孙,只與用戶的偏好有關(guān)唐断。與之前講述的許多糾偏推薦模型一樣,可以得到如下圖所示的概率關(guān)系杭抠,并進一步簡化為參數(shù)
脸甘。
利用上述模型,我們可以利用EM方法來最大化如下圖所示的似然函數(shù)(其中表示日志中的數(shù)據(jù))偏灿,進而從日志數(shù)據(jù)中學(xué)習(xí)模型的參數(shù)
丹诀。
在E-step中,我們利用計算如下圖所示的概率(注意除了這些式子以外翁垂,其他的概率都等于0)铆遭。在初次迭代時,隨機初始化
沮峡。
在M-step中疚脐,我們利用E-step計算得到的概率亿柑,計算邢疙,計算過程如下圖所示的。
重復(fù)迭代上述步驟望薄,即可學(xué)習(xí)得到propensity score以及用戶-物品元組的relevance疟游。然而,雖然的學(xué)習(xí)可以直接利用上述過程求解(由于[a]的取值范圍一般相對較小痕支,可以利用編號進行對應(yīng)颁虐,且數(shù)據(jù)量充足可以充分學(xué)習(xí)到不同編號下的效果),但
的學(xué)習(xí)過程存在兩點問題卧须,1) 用戶-物品元組的數(shù)據(jù)太稀疏了另绩,不利于EM算法進行穩(wěn)定的迭代學(xué)習(xí);2) 由于數(shù)據(jù)收集的問題花嘶,用戶-元組的數(shù)據(jù)未必能夠在日志數(shù)據(jù)中得到(除了缺失以外笋籽,還有可能是處于數(shù)據(jù)保密的原因)。
因此作者采用模型的方式回歸椭员,也就是說從用戶-物品元組特征
(可以是其他預(yù)測物品-用戶偏好的模型學(xué)到的用戶车海、物品向量表示)來回歸
“鳎回歸的標簽侍芝,是從E-step得到的概率
中采樣得到的研铆,這樣
就變成了一個二分類問題(因為
本身也是一個概率)。
值得注意的是州叠,作者表明雖然EM方法可以得到關(guān)于用戶-物品的relevance棵红,但是最終還是需要利用propensity score來優(yōu)化無偏的IPS損失(論文公式1)來學(xué)習(xí)得到的估計用戶-物品的relevance的模型,而不是直接利用EM中的結(jié)果咧栗,理由是這樣更為高效(可能是EM的優(yōu)化不足以在有效數(shù)據(jù)上收斂到很好的relevance模型)窄赋。
心得體會
工業(yè)風(fēng)
Google的paper都是個工業(yè)風(fēng)氣息比較重,簡單直接有效楼熄,且場景貼近實際忆绰。作者在這篇文章中提到,可以直接利用原有模型的接口上線可岂,并且通過構(gòu)造的離線評估指標错敢,可以評估模型的在線效果。
點擊 vs 偏好
很多文章中明確的區(qū)分了點擊和偏好兩個概念缕粹,點擊是用戶的行為表征稚茅,并不代表一定是喜歡某一個物品。這個差別1)點擊可能因為被曝光的素材吸引(騙點擊)平斩,但實際用戶并不會喜歡(不會轉(zhuǎn)化)亚享;2)點擊僅僅是因為這個物品比較流行,用戶也不會轉(zhuǎn)化绘面。因此欺税,個人認為點擊和偏好還是應(yīng)該分開建模的。
回歸
個人感覺揭璃,這里回歸可能會引入模型的不準確偏差晚凿。另外,用來學(xué)習(xí)回歸模型的標簽的采樣比較重要瘦馍,可能會引入其他的偏差歼秽。