《DRN: A Deep Reinforcement Learning Framework for News Recommendation》
論文地址:http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf
1.問題提出
1.在新聞推薦領(lǐng)域,新聞的時(shí)效性非常強(qiáng),總是實(shí)時(shí)變化的儿倒,而且用戶的喜好也會(huì)隨著時(shí)間的推移而發(fā)生變化,目前的推薦系統(tǒng)只能得到當(dāng)前的reward,無法解決這種動(dòng)態(tài)性的問題崔列。如圖1.
2.過去我們往往以用戶點(diǎn)擊/不點(diǎn)擊作為用戶的反饋让禀,而事實(shí)上用戶的停留時(shí)長,活躍程度等也代表了用戶的滿意程度庙洼。
3.推薦系統(tǒng)總是嘗試給用戶推薦重復(fù)的東西顿痪,這會(huì)讓用戶覺得非常無聊镊辕。
2.本文貢獻(xiàn)
1.本文提出一種深度強(qiáng)化學(xué)習(xí)框架(DQN,如圖2)來學(xué)習(xí)推薦的動(dòng)態(tài)性蚁袭,綜合考慮當(dāng)前的reward和未來的rewrad征懈。
2.本文加入用戶活躍度作為用戶點(diǎn)擊行為的補(bǔ)充,提高推薦的準(zhǔn)確度揩悄。
3.提出一種更有效的探索方法DBGD使推薦更加多樣性。
3.參數(shù)定義
3.推薦過程
1.PUSH:在每個(gè)時(shí)間內(nèi)(t1, t2, t3,...)當(dāng)用戶像系統(tǒng)發(fā)起一個(gè)新聞?wù)埱笊拘裕扑]代理G將當(dāng)前用戶和新聞的候選集的特征表示作為輸入,產(chǎn)生一個(gè)top-k的推薦列表給用戶镇匀。
2.FEEDBACK:用戶u接受到系統(tǒng)推薦的新聞列表L后,將會(huì)對(duì)此作出反饋B汗侵,比如是否點(diǎn)擊幸缕。
3.MINOR UPDATE:在每一時(shí)刻,代理G根據(jù)先前的用戶u晰韵,新聞列表L发乔,以及用戶反饋B來更新模型,具體操作是當(dāng)當(dāng)前的exploitation 網(wǎng)絡(luò)Q比exploration網(wǎng)絡(luò)更好的時(shí)候保持當(dāng)前的網(wǎng)絡(luò)不變雪猪,否則就將網(wǎng)絡(luò)向進(jìn)行轉(zhuǎn)變栏尚。
4.MAJOR UPDATE:經(jīng)過一定的時(shí)間后(比如t3),代理G將會(huì)根據(jù)存儲(chǔ)在memory中的用戶反饋以及用戶活躍度來更新整個(gè)網(wǎng)絡(luò)只恨。
4.特征表示
本文一共選取了四類特征译仗,如下:
1.新聞特征:包含417維one hot特征,描述新聞中包含的各種屬性官觅,包括標(biāo)題纵菌、提供者、排序休涤、實(shí)體名稱咱圆、種類、以及一小時(shí)點(diǎn)擊量功氨、六小時(shí)點(diǎn)擊量等等序苏。
2.用戶特征:主要描述用戶在一小時(shí)內(nèi)、六小時(shí)內(nèi)捷凄、24小時(shí)內(nèi)忱详、一周內(nèi)、一年內(nèi)點(diǎn)擊各種屬性新聞的次數(shù)跺涤。一共413*5維匈睁。
3.用戶新聞特征:這25維特征描述的是用戶與某一新聞之間的交互管钳,當(dāng)前新聞的實(shí)體(包含種類,題目種類等)歷史上出現(xiàn)在用戶閱讀中的次數(shù)软舌。
4.上下文特征:一共包含32維特征,描述新聞的請(qǐng)求時(shí)間(hour牛曹、weekday)佛点、新聞的新鮮程度(請(qǐng)求時(shí)間距離發(fā)布時(shí)間的間隔)。
5.模型描述
我們用Q值來模擬reward黎比,定義為:
其中γ代表的是未來獎(jiǎng)勵(lì)(reward)的折扣系數(shù)超营。
然后采用DDQN預(yù)測(cè)t時(shí)刻動(dòng)作a的整體reward:
其中 ra,t+1是因?yàn)橥扑]有延時(shí),當(dāng)前t的推薦需要在在一個(gè)時(shí)間t+1才能得到反饋阅虫。而t+1時(shí)刻的候選集的a'的產(chǎn)生是基于t時(shí)刻推薦動(dòng)作為a的假設(shè)。
基于第四章提到的特征表示米碰,我們將用戶特征和上下文特征定義為status特征(可以理解為動(dòng)態(tài)的吕座,基于請(qǐng)求時(shí)的狀態(tài))吴趴,而新聞特征和用戶新聞特征定義為action特征侮攀。于是我們將Q值拆為兩部分來表示兰英,如圖3箭昵。
6.用戶活躍度
作者認(rèn)為好的推薦會(huì)在很大程度上激活用戶行為家制,使用戶的生命周期更長颤殴,本文采用生存分析作為用戶活躍度的表示。用戶兩次打開app的間隔時(shí)間如圖4所示:
我們可以看到用戶的活躍時(shí)間符合指數(shù)分布帖蔓,所以根據(jù)用戶的生存分析瞳脓,用戶在t時(shí)刻之后返回app的概率為:
所用用戶的生命周期定義為:
其中我們令t λ(t) = λ0埋酬,每次當(dāng)用戶在t時(shí)刻打開app的時(shí)候写妥,我們都更新S(t)=S(t)+Sa,如圖5所示:
但是用戶活躍度不會(huì)超過1珍特,所以即使用戶在t4-t9的時(shí)候非常的活躍魔吐,用戶活躍度也不會(huì)超過1画畅。
7.探索網(wǎng)絡(luò)
行業(yè)內(nèi)使用??-greedy 和 UCB兩種算法來進(jìn)行探索轴踱,但是這兩種算法都有缺點(diǎn),第一種思想是隨機(jī)搜素一些新的項(xiàng)目推薦給用戶诱篷,但是這樣就有可能會(huì)給用戶推薦毫不相關(guān)的推薦棕所,實(shí)驗(yàn)證明這種方法并不能是ctr提高悯辙。第二種是給用戶推薦一些歷史上推薦頻率較低的item,這種方法會(huì)使推薦準(zhǔn)確度drop针贬。本文使用Dueling Bandit Gradient Descent算法進(jìn)行探索桦他,這種算法的思想在于給用戶推薦距離已推薦列表較近的一些item快压。框架圖如圖6所示坪郭。
8.實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)集如圖7所示截粗。
離線效果相比較于各個(gè)模型如下,DDQN(深度強(qiáng)化學(xué)習(xí)框架)+U(用戶活躍度)+DBGD(探索網(wǎng)絡(luò))是本文使用的模型豆瘫。如圖9所示外驱。
線上效果如圖10所示:
另外本文用ILS公式來評(píng)估模型的多樣性:
其中S(bi,bj)代表兩個(gè)推薦時(shí)間的相似性,很容易理解儿子,當(dāng)ILS越小的時(shí)候模型的推薦效果越好柔逼。多個(gè)模型多樣性比較如圖11所示愉适。
9. 結(jié)論
1.本文提出一種基于DQN深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)框架來實(shí)現(xiàn)新聞的在線個(gè)性化推薦维咸。
2.本文將用戶的活躍度作為用戶點(diǎn)擊/不點(diǎn)擊的反饋補(bǔ)充。
3.提出一種有效的探索策略提高系統(tǒng)推薦的多樣性瞬哼。
4.證明線上線下的效果都要好與其他的推薦系統(tǒng)倒槐。