推薦系統(tǒng)遇上深度學(xué)習(xí)(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》

之前學(xué)習(xí)了強(qiáng)化學(xué)習(xí)的一些內(nèi)容以及推薦系統(tǒng)的一些內(nèi)容寂汇,二者能否聯(lián)系起來(lái)呢!今天閱讀了一篇論文停巷,題目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》榕栏。該論文便是深度強(qiáng)化學(xué)習(xí)和推薦系統(tǒng)的一個(gè)結(jié)合,也算是提供了一個(gè)利用強(qiáng)化學(xué)習(xí)來(lái)做推薦的完整的思路和方法吧庆揪。本文便是對(duì)文章中的內(nèi)容的一個(gè)簡(jiǎn)單的介紹妨托,希望對(duì)大家有所啟發(fā)兰伤。

1、引言

新聞?lì)I(lǐng)域的個(gè)性化推薦十分重要均澳,傳統(tǒng)的方法如基于內(nèi)容的方法符衔、協(xié)同過(guò)濾判族、深度學(xué)習(xí)方法在建模user-item交互關(guān)系時(shí),經(jīng)常面臨以下三個(gè)問(wèn)題:
1)難以處理新聞推薦的動(dòng)態(tài)變化颗品。這種動(dòng)態(tài)變化體現(xiàn)在兩個(gè)方面,首先新聞具有很強(qiáng)的時(shí)效性则吟,其次是用戶(hù)對(duì)于新聞閱讀的興趣是不斷變化的锄蹂,如下圖所示:

因此得糜,在建模過(guò)程中,不僅要考慮用戶(hù)對(duì)當(dāng)前推薦的反饋啥箭,還要考慮長(zhǎng)期的影響治宣。就好比買(mǎi)股票侮邀,不能只考慮眼前的收益,而是要考慮未來(lái)的預(yù)期收益铝宵。
2)當(dāng)前的推薦算法通常只考慮用戶(hù)的點(diǎn)擊/未點(diǎn)擊 或者 用戶(hù)的評(píng)分作為反饋华畏,然而唯绍,用戶(hù)隔多久會(huì)再次使用服務(wù)也能在一定程度上反映用戶(hù)對(duì)推薦結(jié)果的滿(mǎn)意度枝誊。
3)目前的推薦系統(tǒng)傾向于推薦用戶(hù)重復(fù)或相似內(nèi)容的東西,這也許會(huì)降低用戶(hù)在同一個(gè)主題上的興趣度绝骚。因此需要進(jìn)行exploration压汪。傳統(tǒng)方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都會(huì)在短期對(duì)推薦系統(tǒng)的效果造成一定的影響古瓤,需要更有效的exploration策略腺阳。

因此亭引,本文提出了基于強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)框架來(lái)解決上述提到的三個(gè)問(wèn)題:
1)首先皮获,使用DQN網(wǎng)絡(luò)來(lái)有效建模新聞推薦的動(dòng)態(tài)變化屬性洒宝,DQN可以將短期回報(bào)和長(zhǎng)期回報(bào)進(jìn)行有效的模擬。
2)將用戶(hù)活躍度(activeness score)作為一種新的反饋信息宏浩,用戶(hù)活躍度在后面會(huì)詳細(xì)介紹靠瞎。
3)使用Dueling Bandit Gradient Descent方法來(lái)進(jìn)行有效的探索较坛。

算法的框架如下圖所示:

本文的貢獻(xiàn)主要有:
1)提出了一種強(qiáng)化學(xué)習(xí)的框架用于在線(xiàn)新聞的個(gè)性化推薦
2)使用用戶(hù)活躍度作為一種新的反饋丑勤,來(lái)提高推薦的準(zhǔn)確性
3)使用了一種更加高效的探索算法:Dueling Bandit Gra- dient Descent
4)模型可以進(jìn)行在線(xiàn)學(xué)習(xí)和更新,在離線(xiàn)和在線(xiàn)實(shí)驗(yàn)上的表現(xiàn)都超過(guò)了傳統(tǒng)的算法耙厚。

2岔霸、問(wèn)題定義

下面是本文中的一些符號(hào)約定:

3呆细、模型詳解

3.1 模型整體框架

模型整體框架如下圖所示:

有幾個(gè)關(guān)鍵的環(huán)節(jié):
PUSH:在每一個(gè)時(shí)刻絮爷,用戶(hù)發(fā)送請(qǐng)求時(shí),agent根據(jù)當(dāng)前的state產(chǎn)生k篇新聞推薦給用戶(hù)岖寞,這個(gè)推薦結(jié)果是exploitation和exploration的結(jié)合

FEEDBACK:通過(guò)用戶(hù)對(duì)推薦新聞的點(diǎn)擊行為得到反饋結(jié)果仗谆。

MINOR UPDATE:在每個(gè)時(shí)間點(diǎn)過(guò)后,根據(jù)用戶(hù)的信息(state)和推薦的新聞(action)及得到的反饋(reward)厌处,agent會(huì)評(píng)估exploitation network Q 和 exploration network Q ? 的表現(xiàn)岁疼,如果exploitation network Q效果更好捷绒,則模型保持不動(dòng),如果 exploration network Q ? 的表現(xiàn)更好椭住,exploitation network Q的參數(shù)將會(huì)向exploration network Q ?變化字逗。

MAJOR UPDATE:在一段時(shí)間過(guò)后葫掉,根據(jù)DQN的經(jīng)驗(yàn)池中存放的歷史經(jīng)驗(yàn),對(duì)exploitation network Q 模型參數(shù)進(jìn)行更新户魏。

3.2 特征設(shè)計(jì)

DQN每次的輸入有下面四部分的特征:

新聞的特征:包括題目挪挤,作者扛门,排名,類(lèi)別等等星立,共417維
用戶(hù)的特征:包括用戶(hù)在1小時(shí)贞铣,6小時(shí)沮明,24小時(shí)窍奋,1周,1年內(nèi)點(diǎn)擊過(guò)的新聞的特征表示江场,共413*5=2065維址否。
新聞和用戶(hù)的交互特征:25維。
上下文特征:32維的上下文信息樊诺,如時(shí)間词爬,周幾权均,新聞的新鮮程度等叽赊。

在這四組特征中,用戶(hù)特征和上下文特征用于表示當(dāng)前的state芽唇,新聞特征和交互特征用語(yǔ)表示當(dāng)前的一個(gè)action取劫。

3.3 深度強(qiáng)化學(xué)習(xí)作推薦

這里深度強(qiáng)化學(xué)習(xí)用的是Dueling-Double-DQN谱邪。之前我們介紹過(guò)DQN的三大改進(jìn),包括Double-DQN咆课,Dueling-DQN和優(yōu)先經(jīng)驗(yàn)回放扯俱,這里用到了兩個(gè)迅栅。將用戶(hù)特征和上下文特征用于表示當(dāng)前的state,新聞特征和交互特征用語(yǔ)表示當(dāng)前的一個(gè)action为流,經(jīng)過(guò)模型可以輸出當(dāng)前狀態(tài)state采取這個(gè)action的預(yù)測(cè)Q值敬察。

Q現(xiàn)實(shí)值包含兩個(gè)部分:立即獲得的獎(jiǎng)勵(lì)和未來(lái)獲得獎(jiǎng)勵(lì)的折現(xiàn):

立即的獎(jiǎng)勵(lì)可能包含兩部分莲祸,即用戶(hù)的點(diǎn)擊獎(jiǎng)勵(lì)和用戶(hù)活躍度獎(jiǎng)勵(lì)。由于采取了Double-DQN 的結(jié)構(gòu)田盈,Q現(xiàn)實(shí)值的計(jì)算變?yōu)椋?/p>

再加上Dueling的考慮抹估,模型的網(wǎng)絡(luò)結(jié)構(gòu)如下:

文章中關(guān)于DQN的理論部分沒(méi)有詳細(xì)介紹药蜻,可以參考我之前寫(xiě)過(guò)的強(qiáng)化學(xué)習(xí)系列的文章進(jìn)行理解语泽。

3.4 用戶(hù)活躍度

用戶(hù)活躍度(User Activeness) 是本文提出的新的可以用作推薦結(jié)果反饋的指標(biāo)。用戶(hù)活躍度可以理解為使用app的頻率廊驼,好的推薦結(jié)果可以增加用戶(hù)使用該app的頻率惋砂,因此可以作為一個(gè)反饋指標(biāo)西饵。

用戶(hù)活躍度的圖示如下:

如果用戶(hù)在一定時(shí)間內(nèi)沒(méi)有點(diǎn)擊行為眷柔,活躍度會(huì)下降,但一旦有了點(diǎn)擊行為镶苞,活躍度會(huì)上升鞠评。

在考慮了點(diǎn)擊和活躍度之后,之前提到過(guò)的立即獎(jiǎng)勵(lì)變?yōu)椋?/p>

3.5探索

本文的探索采取的是Dueling Bandit Gradient Descent 算法御板,算法的結(jié)構(gòu)如下:

在DQN網(wǎng)絡(luò)的基礎(chǔ)上又多出來(lái)一個(gè)exploration network Q ? ,這個(gè)網(wǎng)絡(luò)的參數(shù)是由當(dāng)前的Q網(wǎng)絡(luò)參數(shù)基礎(chǔ)上加入一定的噪聲產(chǎn)生的淹朋,具體來(lái)說(shuō):

當(dāng)一個(gè)用戶(hù)請(qǐng)求到來(lái)時(shí)础芍,由兩個(gè)網(wǎng)絡(luò)同時(shí)產(chǎn)生top-K的新聞列表数尿,然后將二者產(chǎn)生的新聞進(jìn)行一定程度的混合右蹦,然后得到用戶(hù)的反饋。如果exploration network Q ?的效果好的話(huà)晨汹,那么當(dāng)前Q網(wǎng)絡(luò)的參數(shù)向著exploration network Q ?的參數(shù)方向進(jìn)行更新贷盲,具體公式如下:

否則的話(huà)巩剖,當(dāng)前Q網(wǎng)絡(luò)的參數(shù)不變佳魔。

總的來(lái)說(shuō),使用深度強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行推薦筹陵,同時(shí)考慮了用戶(hù)活躍度和對(duì)多樣性推薦的探索镊尺,可以說(shuō)是一個(gè)很完備的推薦框架了庐氮!

4、實(shí)驗(yàn)比較

4.1 數(shù)據(jù)集

使用的數(shù)據(jù)集是新聞app得到的數(shù)據(jù):

數(shù)據(jù)中存在明顯的長(zhǎng)尾特點(diǎn):

4.2 評(píng)估指標(biāo):

主要用的評(píng)估指標(biāo)有CTR输涕、top-K準(zhǔn)確率慨畸,nDCG寸士,三者的計(jì)算公式如下:

在nDCG中弱卡,r是新聞的排序婶博,n是推薦新聞列表的長(zhǎng)度。

4.3 實(shí)驗(yàn)設(shè)定

4.4 對(duì)比模型

本文選取了五個(gè)基準(zhǔn)模型:LR名党,F(xiàn)M兑巾,Wide&Deep忠荞,LinUCB委煤,HLinUCB。同時(shí)根據(jù)組件的不同(U代表用戶(hù)活躍度府框,EG代表e-greedy讥邻,DBGD代表Dueling Bandit Gradient De- scent )強(qiáng)化學(xué)習(xí)模型又分為以下幾種:

DN:沒(méi)有考慮未來(lái)收益的Double-DQN
DDQN:考慮未來(lái)收益的Double-DQN
DDON+U:考慮未來(lái)收益兴使,同時(shí)考慮用戶(hù)活躍度的Double-DQN
DDQN+U+EG:采用e-greedy作為探索策略的Double-DQN
DDQN+U+DBGD:采用DBGD作為探索模型的Double-DQN

4.5 離線(xiàn)實(shí)驗(yàn)

離線(xiàn)實(shí)驗(yàn)的結(jié)果如下所示:

本文提出的模型效果明顯好于基準(zhǔn)模型发魄。

4.6 在線(xiàn)實(shí)驗(yàn)

在線(xiàn)實(shí)驗(yàn)的效果分兩部分俩垃,準(zhǔn)確率和Diversity口柳。

準(zhǔn)確率

準(zhǔn)確率用CTR來(lái)表征有滑,如果CTR高俺孙,我們認(rèn)為模型準(zhǔn)確率較好掷贾,實(shí)驗(yàn)結(jié)果如下:

多樣性

多樣性這里采用的指標(biāo)是ILS想帅,用來(lái)表示推薦列表中item的相似性,如果這個(gè)相似性較低旨剥,可以認(rèn)為推薦結(jié)果的多樣性較好轨帜,計(jì)算公式如下:

實(shí)驗(yàn)結(jié)果如下:

可以看到DDQN+U+DBGD的多樣性明顯好于其他模型蚌父。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末苟弛,一起剝皮案震驚了整個(gè)濱河市阁将,隨后出現(xiàn)的幾起案子做盅,更是在濱河造成了極大的恐慌,老刑警劉巖亭敢,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吨拗,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡哨鸭,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)原押,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)只估,“玉大人蛔钙,你說(shuō)我怎么就攤上這事荠医”蛳颍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵遍希,是天一觀的道長(zhǎng)凿蒜。 經(jīng)常有香客問(wèn)我招驴,道長(zhǎng)别厘,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任氮发,我火速辦了婚禮爽冕,結(jié)果婚禮上披蕉,老公的妹妹穿的比我還像新娘。我一直安慰自己眯娱,他們只是感情好徙缴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布于样。 她就那樣靜靜地躺著,像睡著了一般蚤蔓。 火紅的嫁衣襯著肌膚如雪携御。 梳的紋絲不亂的頭發(fā)上啄刹,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天誓军,我揣著相機(jī)與錄音疲扎,去河邊找鬼椒丧。 笑死,一個(gè)胖子當(dāng)著我的面吹牛句柠,可吹牛的內(nèi)容都是我干的棒假。 我是一名探鬼主播帽哑,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼妻枕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼粘驰!你這毒婦竟也來(lái)了晴氨?” 一聲冷哼從身側(cè)響起碉输,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤敷钾,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后挠锥,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蓖租,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蓖宦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年稠茂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了情妖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毡证。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖丐箩,靈堂內(nèi)的尸體忽然破棺而出秦效,到底是詐尸還是另有隱情雏蛮,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布阱州,位于F島的核電站挑秉,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏苔货。R本人自食惡果不足惜犀概,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一立哑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姻灶,春花似錦、人聲如沸产喉。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)曾沈。三九已至这嚣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間塞俱,已是汗流浹背姐帚。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留障涯,地道東北人罐旗。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像唯蝶,于是被迫代替她去往敵國(guó)和親九秀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容