推薦系統(tǒng)遇上深度學(xué)習(xí)(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》

之前學(xué)習(xí)了強(qiáng)化學(xué)習(xí)的一些內(nèi)容以及推薦系統(tǒng)的一些內(nèi)容寂汇，二者能否聯(lián)系起來(lái)呢！今天閱讀了一篇論文停巷，題目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》榕栏。該論文便是深度強(qiáng)化學(xué)習(xí)和推薦系統(tǒng)的一個(gè)結(jié)合，也算是提供了一個(gè)利用強(qiáng)化學(xué)習(xí)來(lái)做推薦的完整的思路和方法吧庆揪。本文便是對(duì)文章中的內(nèi)容的一個(gè)簡(jiǎn)單的介紹妨托，希望對(duì)大家有所啟發(fā)兰伤。

1、引言

新聞?lì)I(lǐng)域的個(gè)性化推薦十分重要均澳，傳統(tǒng)的方法如基于內(nèi)容的方法符衔、協(xié)同過(guò)濾判族、深度學(xué)習(xí)方法在建模user-item交互關(guān)系時(shí)，經(jīng)常面臨以下三個(gè)問(wèn)題：
1）難以處理新聞推薦的動(dòng)態(tài)變化颗品。這種動(dòng)態(tài)變化體現(xiàn)在兩個(gè)方面，首先新聞具有很強(qiáng)的時(shí)效性则吟，其次是用戶(hù)對(duì)于新聞閱讀的興趣是不斷變化的锄蹂，如下圖所示：

因此得糜，在建模過(guò)程中，不僅要考慮用戶(hù)對(duì)當(dāng)前推薦的反饋啥箭，還要考慮長(zhǎng)期的影響治宣。就好比買(mǎi)股票侮邀，不能只考慮眼前的收益，而是要考慮未來(lái)的預(yù)期收益铝宵。
2）當(dāng)前的推薦算法通常只考慮用戶(hù)的點(diǎn)擊／未點(diǎn)擊或者用戶(hù)的評(píng)分作為反饋华畏，然而唯绍，用戶(hù)隔多久會(huì)再次使用服務(wù)也能在一定程度上反映用戶(hù)對(duì)推薦結(jié)果的滿(mǎn)意度枝誊。
3）目前的推薦系統(tǒng)傾向于推薦用戶(hù)重復(fù)或相似內(nèi)容的東西，這也許會(huì)降低用戶(hù)在同一個(gè)主題上的興趣度绝骚。因此需要進(jìn)行exploration压汪。傳統(tǒng)方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都會(huì)在短期對(duì)推薦系統(tǒng)的效果造成一定的影響古瓤，需要更有效的exploration策略腺阳。

因此亭引，本文提出了基于強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)框架來(lái)解決上述提到的三個(gè)問(wèn)題：
1）首先皮获，使用DQN網(wǎng)絡(luò)來(lái)有效建模新聞推薦的動(dòng)態(tài)變化屬性洒宝，DQN可以將短期回報(bào)和長(zhǎng)期回報(bào)進(jìn)行有效的模擬。
2）將用戶(hù)活躍度（activeness score）作為一種新的反饋信息宏浩，用戶(hù)活躍度在后面會(huì)詳細(xì)介紹靠瞎。
3）使用Dueling Bandit Gradient Descent方法來(lái)進(jìn)行有效的探索较坛。

算法的框架如下圖所示：

本文的貢獻(xiàn)主要有：
1）提出了一種強(qiáng)化學(xué)習(xí)的框架用于在線(xiàn)新聞的個(gè)性化推薦
2）使用用戶(hù)活躍度作為一種新的反饋丑勤，來(lái)提高推薦的準(zhǔn)確性
3）使用了一種更加高效的探索算法：Dueling Bandit Gra- dient Descent
4）模型可以進(jìn)行在線(xiàn)學(xué)習(xí)和更新，在離線(xiàn)和在線(xiàn)實(shí)驗(yàn)上的表現(xiàn)都超過(guò)了傳統(tǒng)的算法耙厚。

2岔霸、問(wèn)題定義

下面是本文中的一些符號(hào)約定：

3呆细、模型詳解

3.1 模型整體框架

模型整體框架如下圖所示：

有幾個(gè)關(guān)鍵的環(huán)節(jié)：
PUSH：在每一個(gè)時(shí)刻絮爷，用戶(hù)發(fā)送請(qǐng)求時(shí)，agent根據(jù)當(dāng)前的state產(chǎn)生k篇新聞推薦給用戶(hù)岖寞，這個(gè)推薦結(jié)果是exploitation和exploration的結(jié)合

FEEDBACK：通過(guò)用戶(hù)對(duì)推薦新聞的點(diǎn)擊行為得到反饋結(jié)果仗谆。

MINOR UPDATE：在每個(gè)時(shí)間點(diǎn)過(guò)后，根據(jù)用戶(hù)的信息（state）和推薦的新聞（action）及得到的反饋（reward）厌处，agent會(huì)評(píng)估exploitation network Q 和 exploration network Q ? 的表現(xiàn)岁疼，如果exploitation network Q效果更好捷绒，則模型保持不動(dòng)，如果 exploration network Q ? 的表現(xiàn)更好椭住，exploitation network Q的參數(shù)將會(huì)向exploration network Q ?變化字逗。

MAJOR UPDATE：在一段時(shí)間過(guò)后葫掉，根據(jù)DQN的經(jīng)驗(yàn)池中存放的歷史經(jīng)驗(yàn)，對(duì)exploitation network Q 模型參數(shù)進(jìn)行更新户魏。

3.2 特征設(shè)計(jì)

DQN每次的輸入有下面四部分的特征：

新聞的特征：包括題目挪挤，作者扛门，排名，類(lèi)別等等星立，共417維
用戶(hù)的特征：包括用戶(hù)在1小時(shí)贞铣，6小時(shí)沮明，24小時(shí)窍奋，1周，1年內(nèi)點(diǎn)擊過(guò)的新聞的特征表示江场，共413*5=2065維址否。
新聞和用戶(hù)的交互特征：25維。
上下文特征：32維的上下文信息樊诺，如時(shí)間词爬，周幾权均，新聞的新鮮程度等叽赊。

在這四組特征中，用戶(hù)特征和上下文特征用于表示當(dāng)前的state芽唇，新聞特征和交互特征用語(yǔ)表示當(dāng)前的一個(gè)action取劫。

3.3 深度強(qiáng)化學(xué)習(xí)作推薦

這里深度強(qiáng)化學(xué)習(xí)用的是Dueling-Double-DQN谱邪。之前我們介紹過(guò)DQN的三大改進(jìn)，包括Double-DQN咆课，Dueling-DQN和優(yōu)先經(jīng)驗(yàn)回放扯俱，這里用到了兩個(gè)迅栅。將用戶(hù)特征和上下文特征用于表示當(dāng)前的state，新聞特征和交互特征用語(yǔ)表示當(dāng)前的一個(gè)action为流，經(jīng)過(guò)模型可以輸出當(dāng)前狀態(tài)state采取這個(gè)action的預(yù)測(cè)Q值敬察。

Q現(xiàn)實(shí)值包含兩個(gè)部分：立即獲得的獎(jiǎng)勵(lì)和未來(lái)獲得獎(jiǎng)勵(lì)的折現(xiàn)：

立即的獎(jiǎng)勵(lì)可能包含兩部分莲祸，即用戶(hù)的點(diǎn)擊獎(jiǎng)勵(lì)和用戶(hù)活躍度獎(jiǎng)勵(lì)。由于采取了Double-DQN 的結(jié)構(gòu)田盈，Q現(xiàn)實(shí)值的計(jì)算變?yōu)椋?/p>

再加上Dueling的考慮抹估，模型的網(wǎng)絡(luò)結(jié)構(gòu)如下：

文章中關(guān)于DQN的理論部分沒(méi)有詳細(xì)介紹药蜻，可以參考我之前寫(xiě)過(guò)的強(qiáng)化學(xué)習(xí)系列的文章進(jìn)行理解语泽。

3.4 用戶(hù)活躍度

用戶(hù)活躍度（User Activeness）是本文提出的新的可以用作推薦結(jié)果反饋的指標(biāo)。用戶(hù)活躍度可以理解為使用app的頻率廊驼，好的推薦結(jié)果可以增加用戶(hù)使用該app的頻率惋砂，因此可以作為一個(gè)反饋指標(biāo)西饵。

用戶(hù)活躍度的圖示如下：

如果用戶(hù)在一定時(shí)間內(nèi)沒(méi)有點(diǎn)擊行為眷柔，活躍度會(huì)下降，但一旦有了點(diǎn)擊行為镶苞，活躍度會(huì)上升鞠评。

在考慮了點(diǎn)擊和活躍度之后，之前提到過(guò)的立即獎(jiǎng)勵(lì)變?yōu)椋?/p>

3.5探索

本文的探索采取的是Dueling Bandit Gradient Descent 算法御板，算法的結(jié)構(gòu)如下：

在DQN網(wǎng)絡(luò)的基礎(chǔ)上又多出來(lái)一個(gè)exploration network Q ? ，這個(gè)網(wǎng)絡(luò)的參數(shù)是由當(dāng)前的Q網(wǎng)絡(luò)參數(shù)基礎(chǔ)上加入一定的噪聲產(chǎn)生的淹朋，具體來(lái)說(shuō)：

當(dāng)一個(gè)用戶(hù)請(qǐng)求到來(lái)時(shí)础芍，由兩個(gè)網(wǎng)絡(luò)同時(shí)產(chǎn)生top-K的新聞列表数尿，然后將二者產(chǎn)生的新聞進(jìn)行一定程度的混合右蹦，然后得到用戶(hù)的反饋。如果exploration network Q ?的效果好的話(huà)晨汹，那么當(dāng)前Q網(wǎng)絡(luò)的參數(shù)向著exploration network Q ?的參數(shù)方向進(jìn)行更新贷盲，具體公式如下：

否則的話(huà)巩剖，當(dāng)前Q網(wǎng)絡(luò)的參數(shù)不變佳魔。

總的來(lái)說(shuō)，使用深度強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行推薦筹陵，同時(shí)考慮了用戶(hù)活躍度和對(duì)多樣性推薦的探索镊尺，可以說(shuō)是一個(gè)很完備的推薦框架了庐氮！

4、實(shí)驗(yàn)比較

4.1 數(shù)據(jù)集

使用的數(shù)據(jù)集是新聞app得到的數(shù)據(jù)：

數(shù)據(jù)中存在明顯的長(zhǎng)尾特點(diǎn)：

4.2 評(píng)估指標(biāo)：

主要用的評(píng)估指標(biāo)有CTR输涕、top-K準(zhǔn)確率慨畸，nDCG寸士，三者的計(jì)算公式如下：

在nDCG中弱卡，r是新聞的排序婶博，n是推薦新聞列表的長(zhǎng)度。

4.3 實(shí)驗(yàn)設(shè)定

4.4 對(duì)比模型

本文選取了五個(gè)基準(zhǔn)模型：LR名党，F(xiàn)M兑巾，Wide&Deep忠荞，LinUCB委煤，HLinUCB。同時(shí)根據(jù)組件的不同(U代表用戶(hù)活躍度府框，EG代表e-greedy讥邻，DBGD代表Dueling Bandit Gradient De- scent ）強(qiáng)化學(xué)習(xí)模型又分為以下幾種：

DN：沒(méi)有考慮未來(lái)收益的Double-DQN
DDQN：考慮未來(lái)收益的Double-DQN
DDON+U：考慮未來(lái)收益兴使，同時(shí)考慮用戶(hù)活躍度的Double-DQN
DDQN+U+EG：采用e-greedy作為探索策略的Double-DQN
DDQN+U+DBGD：采用DBGD作為探索模型的Double-DQN

4.5 離線(xiàn)實(shí)驗(yàn)

離線(xiàn)實(shí)驗(yàn)的結(jié)果如下所示：

本文提出的模型效果明顯好于基準(zhǔn)模型发魄。

4.6 在線(xiàn)實(shí)驗(yàn)

在線(xiàn)實(shí)驗(yàn)的效果分兩部分俩垃，準(zhǔn)確率和Diversity口柳。

準(zhǔn)確率

準(zhǔn)確率用CTR來(lái)表征有滑，如果CTR高俺孙，我們認(rèn)為模型準(zhǔn)確率較好掷贾，實(shí)驗(yàn)結(jié)果如下：

多樣性

多樣性這里采用的指標(biāo)是ILS想帅，用來(lái)表示推薦列表中item的相似性，如果這個(gè)相似性較低旨剥，可以認(rèn)為推薦結(jié)果的多樣性較好轨帜，計(jì)算公式如下：

實(shí)驗(yàn)結(jié)果如下：

可以看到DDQN+U+DBGD的多樣性明顯好于其他模型蚌父。

最后編輯于：2018.06.13 00:40:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末苟弛，一起剝皮案震驚了整個(gè)濱河市阁将，隨后出現(xiàn)的幾起案子做盅，更是在濱河造成了極大的恐慌，老刑警劉巖亭敢，帶你破解...
沈念sama閱讀 218,755評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件吨拗，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡哨鸭，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)原押，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)只估，“玉大人蛔钙，你說(shuō)我怎么就攤上這事荠医”蛳颍” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0贊 355
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵遍希，是天一觀的道長(zhǎng)凿蒜。經(jīng)常有香客問(wèn)我招驴，道長(zhǎng)别厘，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任氮发，我火速辦了婚禮爽冕，結(jié)果婚禮上披蕉，老公的妹妹穿的比我還像新娘。我一直安慰自己眯娱，他們只是感情好徙缴，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布于样。她就那樣靜靜地躺著，像睡著了一般蚤蔓。火紅的嫁衣襯著肌膚如雪携御。梳的紋絲不亂的頭發(fā)上啄刹，一...
開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1贊 305
城市分裂傳說(shuō)
那天誓军，我揣著相機(jī)與錄音疲扎，去河邊找鬼椒丧。笑死，一個(gè)胖子當(dāng)著我的面吹牛句柠，可吹牛的內(nèi)容都是我干的棒假。我是一名探鬼主播帽哑，決...
沈念sama閱讀 40,362評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼妻枕，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼粘驰！你這毒婦竟也來(lái)了晴氨？” 一聲冷哼從身側(cè)響起碉输，我...
開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤敷钾，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后挠锥，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蓖租，經(jīng)...
沈念sama閱讀 45,724評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蓖宦，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年稠茂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了情妖。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毡证。...
茶點(diǎn)故事閱讀 40,040評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖丐箩，靈堂內(nèi)的尸體忽然破棺而出秦效，到底是詐尸還是另有隱情雏蛮，我是刑警寧澤，帶...
沈念sama閱讀 35,742評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布阱州，位于F島的核電站挑秉，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏苔货。R本人自食惡果不足惜犀概，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一立哑、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧姻灶，春花似錦、人聲如沸产喉。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)曾沈。三九已至这嚣，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間塞俱，已是汗流浹背姐帚。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留障涯，地道東北人罐旗。一個(gè)月前我還...
沈念sama閱讀 48,247評(píng)論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像唯蝶，于是被迫代替她去往敵國(guó)和親九秀。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評(píng)論 2贊 355