前言
-
發(fā)表在ACLI2020上的一篇關(guān)于新聞推薦的論文
是來(lái)自于微軟亞研和北郵石川團(tuán)隊(duì)的合作工作,團(tuán)隊(duì)新聞推薦相關(guān)工作詳見(jiàn)如下博客鏈接:http://www.reibang.com/p/98571afbd36d
http://www.reibang.com/p/ee9beaa9efee
http://www.reibang.com/p/c490598259c8
http://www.reibang.com/p/2d7e261bc277http://www.reibang.com/p/51a01e4c3d3a本文為自己的論文閱讀筆記爆土,如有錯(cuò)誤/問(wèn)題歡迎評(píng)論區(qū)指正摊滔,轉(zhuǎn)載請(qǐng)注明鏈接及作者
摘要
現(xiàn)有的新聞推薦方法大多是從新聞內(nèi)容中學(xué)習(xí)用戶和新聞的表現(xiàn)形式來(lái)進(jìn)行推薦拘哨。然而剑按,他們很少考慮隱藏在用戶-新聞交互之下的高階關(guān)聯(lián)补憾。此外叛拷,現(xiàn)有的方法未對(duì)導(dǎo)致用戶點(diǎn)擊不同新聞的潛在偏好因素進(jìn)行分解, 本文將用戶與新聞的交互建模為二部圖浴鸿,提出了一種新的無(wú)監(jiān)督偏好分解圖神經(jīng)網(wǎng)絡(luò)新聞推薦模型(GNUD).
該模型通過(guò)信息沿圖的傳播井氢,將高階關(guān)系編碼到用戶和新聞表示中。此外岳链,通過(guò)鄰域路由算法對(duì)用戶/新聞表征進(jìn)行潛在偏好分解花竞,增強(qiáng)了模型表達(dá)性和解釋性。還設(shè)計(jì)了一個(gè)偏好正則器掸哑,使得每個(gè)分解空間能夠獨(dú)立地反映一個(gè)孤立的偏好约急,提高分解表示的質(zhì)量。
引言
當(dāng)前基于深度學(xué)習(xí)的方法往往只關(guān)注新聞內(nèi)容苗分,很少考慮到用戶與新聞交互中以高階連接的形式存在的協(xié)同信息厌蔽。
捕獲用戶和新聞之間的高階關(guān)聯(lián)可以深入挖掘結(jié)構(gòu)特征,緩解稀疏性摔癣,從而提高推薦性能奴饮。借助用戶-新聞二部圖可以發(fā)現(xiàn)一些協(xié)同關(guān)聯(lián)纬向,如上圖所示。
此外戴卜,用戶往往處于不同的喜好點(diǎn)擊不同的新聞∮馓酰現(xiàn)實(shí)世界中的用戶與新聞的交互來(lái)自于高度復(fù)雜的潛在偏好因素。例如小明可能因?yàn)樗龑?duì)娛樂(lè)新聞的感興趣所以點(diǎn)了吳亦凡的新聞投剥,而因?yàn)樗龑?duì)政治感興趣师脂,所以點(diǎn)了關(guān)于時(shí)政的新聞。
在沿圖聚合鄰域信息時(shí)江锨,應(yīng)考慮鄰居節(jié)點(diǎn)在不同潛在偏好下的不同重要性吃警。揭示和解析這些潛在偏好因素的學(xué)習(xí)表征可以帶來(lái)更強(qiáng)的表達(dá)性和可解釋性,然而這在很大程度上仍然是現(xiàn)有的新聞推薦研究沒(méi)有做過(guò)的啄育。
但通用推薦已經(jīng)出現(xiàn)了類(lèi)似的研究酌心,可以拜讀何向南SIGIR2020的DGCF,跟本文很相似
模型
主要使用的信息: 新聞標(biāo)題和新聞標(biāo)題的實(shí)體及相應(yīng)的實(shí)體類(lèi)別
新聞內(nèi)容表征
通過(guò)兩個(gè)卷積網(wǎng)絡(luò)分別處理標(biāo)題文本和相關(guān)實(shí)體信息灸撰,得到新聞表征向量:
GNUD框架
將用戶-物品的歷史交互表示二部圖,結(jié)構(gòu)比較簡(jiǎn)單拼坎,可以分為兩個(gè)關(guān)鍵組件:進(jìn)行偏好分解的圖卷積和偏好正則化浮毯,如上圖所示
1. Graph Convolution Layer with Preference Disentanglement
我們定義對(duì)于一個(gè)用戶節(jié)點(diǎn)u經(jīng)過(guò)鄰居節(jié)點(diǎn)聚合后的表示為:
考慮到用戶的點(diǎn)擊行為可能是由不同的潛在偏好因素引起的泰鸡,文章提出了一個(gè)卷積層债蓝,使得得到的用戶/新聞?shì)敵?yu 和 yd 是分解形式的表示。每個(gè)分離的向量都反映了一個(gè)與用戶或新聞相關(guān)的偏好因素盛龄。
對(duì)于每個(gè)用戶/物品都構(gòu)建了K個(gè)偏好因素饰迹。
下面以用戶為例,分析如何進(jìn)行相關(guān)的計(jì)算余舶。給定用戶節(jié)點(diǎn)u啊鸭,和相鄰的新聞節(jié)點(diǎn) 可以使用一個(gè)投影變換將原來(lái)的節(jié)點(diǎn)特征向量轉(zhuǎn)換到某個(gè)子空間中,這個(gè)子空間可以是某個(gè)隱含偏好的空間:
Neighborhood routing algorithm.近鄰路由算法
為了多個(gè)角度建模用戶/新聞匿值,在建模的時(shí)候應(yīng)該只使用受當(dāng)前偏好因素影響的新聞赠制,而非考慮所有相關(guān)新聞。因此挟憔,文中提出了一個(gè)近鄰路由算法來(lái)找到受不同偏好影響的近鄰新聞钟些。
這個(gè)偏好是無(wú)監(jiān)督信號(hào),是模型自己要去學(xué)習(xí)的
完整的算法流程如下
2.Preference Regularizer 偏好正則化
本質(zhì)上講达传,我們希望每個(gè)分解子空間能夠互不依賴(lài)篙耗、反映相對(duì)獨(dú)立的偏好因素迫筑;作者提出使用最大化衡量?jī)蓚€(gè)變量的依賴(lài)性的互信息來(lái)對(duì)分解表征進(jìn)行約束。
具體而言鹤树,使用了下面的形式來(lái)反映空間的概率分布相應(yīng)的正則項(xiàng)可以表示為:
在前面提到的何向南DGCF中使用的是距離系數(shù)铣焊,目的都是一樣:讓不同的空間盡可能的分開(kāi)/分解
最后所用的目標(biāo)函數(shù)表示如下值得注意的是,對(duì)于新物品而言罕伯,可以視為圖中的孤立點(diǎn)曲伊,其表示可以通過(guò)單純的內(nèi)容特征表示,也可以通過(guò)前面提到的分解方式跟不同的隱含偏好做計(jì)算追他。
實(shí)驗(yàn)
總結(jié)
這篇工作是主流研究方向的體現(xiàn):圖模型+偏好分解邑狸,設(shè)計(jì)的路由算法也比較合理懈糯;從模型結(jié)構(gòu)上與DGCF有異曲同工之妙。同時(shí)在可解釋性方面還有進(jìn)一步挖掘的空間单雾,在特征建模方面還可以嘗試其他方式赚哗。
END
本人簡(jiǎn)書(shū)所有文章均為原創(chuàng),歡迎轉(zhuǎn)載硅堆,請(qǐng)注明文章出處 屿储。百度和CSDN等站皆不可信,搜索請(qǐng)謹(jǐn)慎鑒別渐逃。技術(shù)類(lèi)文章一般都有時(shí)效性够掠,本人習(xí)慣不定期對(duì)自己的筆記/博文進(jìn)行更新,因此請(qǐng)?jiān)L問(wèn)本人簡(jiǎn)書(shū)主頁(yè)查看最新信息http://www.reibang.com/u/40d14973d97c