-
SIGIR2020
摘要
由于易收集且普遍適用懦胞,推薦研究中廣泛使用隱性反饋數(shù)據(jù)替久。然而,預(yù)測(cè)用戶(hù)對(duì)隱反饋數(shù)據(jù)(implicit feedback)的偏好是一項(xiàng)具有挑戰(zhàn)性的任務(wù)躏尉,因?yàn)槲覀冎荒苡^察到交互過(guò)的樣本和未交互的樣本(unvoted samples)蚯根。很難從未交互的樣本中區(qū)分負(fù)反饋樣本以及未知正反饋樣本。
現(xiàn)有的工作胀糜,如貝葉斯個(gè)性化排名(BPR)颅拦,從未交互的樣本中同一采樣構(gòu)成負(fù)樣本吼具,因此存在一個(gè)關(guān)鍵的標(biāo)簽噪聲問(wèn)題(noisy-label issue)。為了解決這一問(wèn)題矩距,本文設(shè)計(jì)了一種基于噪聲標(biāo)簽魯棒學(xué)習(xí)的自適應(yīng)采樣算法(an adaptive sampler based on noisy-label robust learning)拗盒。
為了解決這個(gè)問(wèn)題,首先引入貝葉斯逐點(diǎn)優(yōu)化(Bayesian Point-wise Optimization锥债, BPO)陡蝇,通過(guò)最大似然估計(jì)學(xué)習(xí)一個(gè)模型,例如矩陣分解(MF)哮肚。我們使用該模型預(yù)測(cè)用戶(hù)的偏好冶共,并通過(guò)最大化觀察到的數(shù)據(jù)標(biāo)簽的可能性來(lái)學(xué)習(xí)别惦,即用戶(hù)更喜歡她的正樣本平斩,而對(duì)她的未交互的樣本沒(méi)有興趣码倦。然而,在現(xiàn)實(shí)中潮剪,用戶(hù)可能對(duì)一些未交互樣本感興趣涣楷,但這些未交互的樣本有可能是用戶(hù)尚未交互的正樣本,被錯(cuò)誤標(biāo)記為陰性樣本抗碰。在此基礎(chǔ)上狮斗,考慮這些噪聲標(biāo)簽的風(fēng)險(xiǎn),本文提出Noisy-label Robust BPO(NBPO).
基于貝葉斯定理弧蝇,NBPO還通過(guò)標(biāo)簽翻轉(zhuǎn)(label flipping)的可能性來(lái)建立用戶(hù)偏好和觀察到的樣本間的關(guān)聯(lián)碳褒,同時(shí)最大化觀測(cè)似然函數(shù)(observation likelihood)。在NBPO中看疗,用戶(hù)更喜歡她的真正樣本沙峻,而對(duì)她的真負(fù)樣本不感興趣,因此優(yōu)化質(zhì)量顯著提高两芳。
Main Story
BPR是一種廣泛應(yīng)用于隱式反饋數(shù)據(jù)的優(yōu)化準(zhǔn)則摔寨,因?yàn)槠渥吭降男阅堋H欢辽龋幸粋€(gè)關(guān)鍵問(wèn)題祷肯,在BPR中,所有未交互的樣本都被同等地視為負(fù)疗隶。
事實(shí)上,用戶(hù)沒(méi)有交互的項(xiàng)目可能不是因?yàn)樗?她不喜歡它翼闹,而是因?yàn)樗?她還沒(méi)有看到它斑鼻。在現(xiàn)有的抽樣策略中,這些正樣本被錯(cuò)誤地標(biāo)記為負(fù)樣本猎荠,這導(dǎo)致了嚴(yán)重的噪聲標(biāo)簽問(wèn)題坚弱。為了提高采樣質(zhì)量蜀备,本文提出研究推薦任務(wù)中的噪聲標(biāo)簽魯棒學(xué)習(xí)。對(duì)于每個(gè)未觀察到的用戶(hù)-物品交互荒叶,將其標(biāo)記為負(fù)樣本碾阁,但估計(jì)被錯(cuò)誤標(biāo)記的可能性。
觀察的可能性被分解為真實(shí)標(biāo)簽的可能性和標(biāo)簽噪聲的可能性些楣。我們通過(guò)最大化觀測(cè)的可能性來(lái)聯(lián)合學(xué)習(xí)真實(shí)標(biāo)簽的可能性和標(biāo)簽噪聲的可能性脂凶。通過(guò)這種方法,我們可以從被污染的觀測(cè)標(biāo)簽中學(xué)習(xí)出真實(shí)的標(biāo)簽愁茁,并利用得到的真實(shí)標(biāo)簽進(jìn)行預(yù)測(cè)蚕钦。
Noisy-label Robust Learning
噪聲標(biāo)簽問(wèn)題是有監(jiān)督機(jī)器學(xué)習(xí)任務(wù)中的一個(gè)關(guān)鍵問(wèn)題。標(biāo)簽噪音會(huì)誤導(dǎo)模型并降低性能鹅很。越來(lái)越多的研究文獻(xiàn)旨在解決與從有噪類(lèi)別列表的樣本中學(xué)習(xí)有關(guān)的問(wèn)題
Bootkrajang和Kaban提出了一種帶噪標(biāo)簽魯棒回歸算法嘶居,該算法試圖結(jié)合估計(jì)標(biāo)簽翻轉(zhuǎn)概率來(lái)學(xué)習(xí)分類(lèi)器。真實(shí)標(biāo)簽和觀察標(biāo)簽的可能性通過(guò)翻轉(zhuǎn)概率連接促煮。最終最大化了觀測(cè)的可能性來(lái)估計(jì)所有參數(shù)邮屁。陽(yáng)性和未標(biāo)記(Positive and unlabeled, PU)數(shù)據(jù)可以被認(rèn)為是一種噪聲標(biāo)簽數(shù)據(jù)菠齿,其中我們主要考慮正樣本被錯(cuò)誤標(biāo)記為陰性的概率樱报。
Ghasemi等人提出了一種針對(duì)PU數(shù)據(jù)的主動(dòng)學(xué)習(xí)算法,該算法通過(guò)分別估計(jì)正點(diǎn)和未標(biāo)記點(diǎn)的概率密度泞当,然后計(jì)算信息量的期望值迹蛤,從而去除超參數(shù)并獲得更好的信息量度量。Plessis等人[33]提出了一種對(duì)成本敏感的分類(lèi)襟士,它利用非凸損失來(lái)防止目標(biāo)函數(shù)中出現(xiàn)多余的懲罰項(xiàng)盗飒。Sheieh等人[23]提出了一種PU數(shù)據(jù)的矩陣補(bǔ)全方法,可用于推薦任務(wù)陋桂。
相關(guān)鏈接:
- 幾種噪聲標(biāo)簽識(shí)別算法簡(jiǎn)介 - 楊旭東的文章 - 知乎
https://zhuanlan.zhihu.com/p/104961266 - 基于深度神經(jīng)網(wǎng)絡(luò)的噪聲標(biāo)簽學(xué)習(xí) - 華為云開(kāi)發(fā)者社區(qū)的文章 - 知乎
https://zhuanlan.zhihu.com/p/364708086
訓(xùn)練數(shù)據(jù)包含N個(gè)樣本逆趣,
,其中
是包含噪聲的二元的觀測(cè)標(biāo)簽嗜历。
考慮到噪聲標(biāo)簽的存在,需要設(shè)計(jì)方法來(lái)減緩噪聲的影響梨州,引入新的變量來(lái)表示第n個(gè)樣本的真實(shí)標(biāo)簽痕囱,最終的觀測(cè)指標(biāo)概率分布如下所示:
在本文中,我們認(rèn)為隱式反饋的未標(biāo)記正樣本可以被錯(cuò)誤標(biāo)記為陰性樣本帮掉,從而探索推薦任務(wù)中的噪聲標(biāo)簽魯棒回歸弦悉,以提高采樣質(zhì)量。在現(xiàn)有的帶噪標(biāo)簽魯棒學(xué)習(xí)方法中蟆炊,對(duì)于某些j和k稽莉,所有樣本共享相同的標(biāo)簽翻轉(zhuǎn)概率
Method
1. Bayesian Point-wise Optimization
傳統(tǒng)的BPR結(jié)構(gòu)無(wú)法適用于noisy-label robust learning, 因?yàn)槠鋚airwise的結(jié)構(gòu)特性污秆。 所以本文作者先提出Point-wise的方法來(lái)作為優(yōu)化方法:定義二元交互矩陣來(lái)表示觀測(cè)結(jié)果:, 矩陣元素為1即表示用戶(hù)與物品存在交互,反之為0.那么觀察到的交互記錄可以表示為
.
通過(guò)最大化以上的后驗(yàn)估計(jì)得到模型參數(shù)混狠。
2. NOISY-LABEL ROBUST SAMPLER
在BPO方法的基礎(chǔ)上,作者將noisy-label robust learning的方法加入優(yōu)化中:
首先疾层,根據(jù)上面的介紹将饺,我們需要設(shè)置噪聲標(biāo)簽概率,考慮到推薦上下文痛黎,具體的設(shè)置策略為:
-
即實(shí)際為負(fù)樣本予弧,但用戶(hù)給了正反饋/交互的情況,作者假設(shè)該情況的概率為0湖饱,即這種用戶(hù)誤觸之類(lèi)的噪聲行為發(fā)生概率為0
-
即實(shí)際為負(fù)樣本掖蛤,用戶(hù)也沒(méi)有交互的情況,作者假設(shè)該情況的概率為1
這就是假負(fù)樣本的情況
即真正樣本的情況
在推薦場(chǎng)景中井厌,項(xiàng)目被忽略的概率p(R)=0 | R=1)對(duì)用戶(hù)和物品敏感的蚓庭,即p(R)=0 | R=1)隨不同物品和不同用戶(hù)而變化。例如仅仆,熱門(mén)物品不太可能被錯(cuò)過(guò)器赞,用戶(hù)花更多的時(shí)間瀏覽物品,錯(cuò)過(guò)他們喜歡的項(xiàng)目的可能性就更小墓拜。
這還取決于用戶(hù)習(xí)慣和物品的搭配港柜。考慮到上述原因咳榜,文章提出學(xué)習(xí)了不同樣本的不同噪聲標(biāo)記概率夏醉,即,我們?cè)贜BPO中使用M×N概率矩陣τ亢∈ R M×N表示噪聲標(biāo)簽概率:
那么最終可以將似然函數(shù)表示為:
NBPO 優(yōu)化
- 為了學(xué)習(xí)NBPO模型,我們?nèi)匀幻媾R一個(gè)關(guān)鍵問(wèn)題:當(dāng)使用最大似然估計(jì)進(jìn)行優(yōu)化時(shí)席吴,對(duì)數(shù)代理函數(shù)不適合噪聲標(biāo)簽魯棒推薦的情況赌结。
文中提出對(duì)于sigmoid函數(shù)項(xiàng)庄涡,在求導(dǎo)時(shí)使用Ln(sigmoid(x))進(jìn)行替代量承,可以理解為是一種特殊的梯度截?cái)喾椒ǎ罱K梯度計(jì)算方式如下:
NBPO實(shí)例
- 以MF為例穴店,NBPO的具體模型可以如下所示
-
其中對(duì)于噪聲概率矩陣同樣使用低秩矩陣分解的形式來(lái)獲取
- 實(shí)際訓(xùn)練的時(shí)候同樣采取負(fù)采樣策略撕捍,選取負(fù)樣本,但采用point-wise的方式進(jìn)行訓(xùn)練
實(shí)驗(yàn)
- 在兩個(gè)數(shù)據(jù)集上與經(jīng)典的MF方法進(jìn)行了對(duì)比
-
其中的SOTA是ICML15提出的ShiftMC, 也是基于noisy-label的思路
總結(jié)
- 本文針對(duì)隱式數(shù)據(jù)上的推薦任務(wù)泣洞,提出了一套新的優(yōu)化方法忧风,主要基于noisy-label roubst learning的方法來(lái)改造現(xiàn)有的BPR框架,已實(shí)現(xiàn)對(duì)未交互樣本的有效利用球凰。
- 在論文寫(xiě)作和具體的公式推導(dǎo)細(xì)節(jié)上狮腿,本文有較多可借鑒之處。
- 對(duì)于此方向呕诉,需要進(jìn)一步了解noisy-label robust learning研究領(lǐng)域的其他實(shí)現(xiàn)策略缘厢,來(lái)進(jìn)一步提出更fancy的優(yōu)化方法
- 此外,對(duì)于該方法是否可以推廣應(yīng)用于更細(xì)分的推薦任務(wù)义钉,需要深入思考昧绣。
END
本人簡(jiǎn)書(shū)所有文章均為原創(chuàng),歡迎轉(zhuǎn)載捶闸,請(qǐng)注明文章出處 夜畴。百度和各類(lèi)采集站皆不可信,搜索請(qǐng)謹(jǐn)慎鑒別删壮。技術(shù)類(lèi)文章一般都有時(shí)效性贪绘,本人習(xí)慣不定期對(duì)自己的博文進(jìn)行修正和更新,因此請(qǐng)?jiān)L問(wèn)本人簡(jiǎn)書(shū)主頁(yè)查看最新信息http://www.reibang.com/u/40d14973d97c