推薦領(lǐng)域-深度強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)的運(yùn)用

《DRN: A Deep Reinforcement Learning Framework for News Recommendation》

論文地址:http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf

1.問題提出

1.在新聞推薦領(lǐng)域,新聞的時(shí)效性非常強(qiáng),總是實(shí)時(shí)變化的儿倒,而且用戶的喜好也會(huì)隨著時(shí)間的推移而發(fā)生變化,目前的推薦系統(tǒng)只能得到當(dāng)前的reward,無法解決這種動(dòng)態(tài)性的問題崔列。如圖1.

2.過去我們往往以用戶點(diǎn)擊/不點(diǎn)擊作為用戶的反饋让禀,而事實(shí)上用戶的停留時(shí)長,活躍程度等也代表了用戶的滿意程度庙洼。

3.推薦系統(tǒng)總是嘗試給用戶推薦重復(fù)的東西顿痪,這會(huì)讓用戶覺得非常無聊镊辕。


圖1. 用戶喜歡隨時(shí)間的變化

2.本文貢獻(xiàn)

1.本文提出一種深度強(qiáng)化學(xué)習(xí)框架(DQN,如圖2)來學(xué)習(xí)推薦的動(dòng)態(tài)性蚁袭,綜合考慮當(dāng)前的reward和未來的rewrad征懈。

2.本文加入用戶活躍度作為用戶點(diǎn)擊行為的補(bǔ)充,提高推薦的準(zhǔn)確度揩悄。

3.提出一種更有效的探索方法DBGD使推薦更加多樣性。


圖2. DQN的系統(tǒng)框架圖

3.參數(shù)定義


圖3. 參數(shù)的定義

3.推薦過程

1.PUSH:在每個(gè)時(shí)間內(nèi)(t1, t2, t3,...)當(dāng)用戶像系統(tǒng)發(fā)起一個(gè)新聞?wù)埱笊拘裕扑]代理G將當(dāng)前用戶和新聞的候選集的特征表示作為輸入,產(chǎn)生一個(gè)top-k的推薦列表給用戶镇匀。

2.FEEDBACK:用戶u接受到系統(tǒng)推薦的新聞列表L后,將會(huì)對(duì)此作出反饋B汗侵,比如是否點(diǎn)擊幸缕。

3.MINOR UPDATE:在每一時(shí)刻,代理G根據(jù)先前的用戶u晰韵,新聞列表L发乔,以及用戶反饋B來更新模型,具體操作是當(dāng)當(dāng)前的exploitation 網(wǎng)絡(luò)Q比exploration網(wǎng)絡(luò)\tilde{Q} 更好的時(shí)候保持當(dāng)前的網(wǎng)絡(luò)不變雪猪,否則就將網(wǎng)絡(luò)向\tilde{Q} 進(jìn)行轉(zhuǎn)變栏尚。

4.MAJOR UPDATE:經(jīng)過一定的時(shí)間后(比如t3),代理G將會(huì)根據(jù)存儲(chǔ)在memory中的用戶反饋以及用戶活躍度來更新整個(gè)網(wǎng)絡(luò)只恨。

4.特征表示

本文一共選取了四類特征译仗,如下:

1.新聞特征:包含417維one hot特征,描述新聞中包含的各種屬性官觅,包括標(biāo)題纵菌、提供者、排序休涤、實(shí)體名稱咱圆、種類、以及一小時(shí)點(diǎn)擊量功氨、六小時(shí)點(diǎn)擊量等等序苏。

2.用戶特征:主要描述用戶在一小時(shí)內(nèi)、六小時(shí)內(nèi)捷凄、24小時(shí)內(nèi)忱详、一周內(nèi)、一年內(nèi)點(diǎn)擊各種屬性新聞的次數(shù)跺涤。一共413*5維匈睁。

3.用戶新聞特征:這25維特征描述的是用戶與某一新聞之間的交互管钳,當(dāng)前新聞的實(shí)體(包含種類,題目種類等)歷史上出現(xiàn)在用戶閱讀中的次數(shù)软舌。

4.上下文特征:一共包含32維特征,描述新聞的請(qǐng)求時(shí)間(hour牛曹、weekday)佛点、新聞的新鮮程度(請(qǐng)求時(shí)間距離發(fā)布時(shí)間的間隔)。

5.模型描述

我們用Q值來模擬reward黎比,定義為:

ys,a = Q(s, a) = rimmed iate +γ rf utur e

其中γ代表的是未來獎(jiǎng)勵(lì)(reward)的折扣系數(shù)超营。

然后采用DDQN預(yù)測(cè)t時(shí)刻動(dòng)作a的整體reward:

ys,a,t = ra,t+1 +γQ(sa,t+1, arg maxa′Q(sa,t+1, a′; Wt ); W′t)

其中 ra,t+1是因?yàn)橥扑]有延時(shí),當(dāng)前t的推薦需要在在一個(gè)時(shí)間t+1才能得到反饋阅虫。而t+1時(shí)刻的候選集的a'的產(chǎn)生是基于t時(shí)刻推薦動(dòng)作為a的假設(shè)。

基于第四章提到的特征表示米碰,我們將用戶特征和上下文特征定義為status特征(可以理解為動(dòng)態(tài)的吕座,基于請(qǐng)求時(shí)的狀態(tài))吴趴,而新聞特征和用戶新聞特征定義為action特征侮攀。于是我們將Q值拆為兩部分來表示兰英,如圖3箭昵。


圖3. Q network

6.用戶活躍度

作者認(rèn)為好的推薦會(huì)在很大程度上激活用戶行為家制,使用戶的生命周期更長颤殴,本文采用生存分析作為用戶活躍度的表示。用戶兩次打開app的間隔時(shí)間如圖4所示:


圖4. 用戶兩次打開app的時(shí)間間隔

我們可以看到用戶的活躍時(shí)間符合指數(shù)分布帖蔓,所以根據(jù)用戶的生存分析瞳脓,用戶在t時(shí)刻之后返回app的概率為:


所用用戶的生命周期定義為:


其中我們令t λ(t) = λ0埋酬,每次當(dāng)用戶在t時(shí)刻打開app的時(shí)候写妥,我們都更新S(t)=S(t)+Sa,如圖5所示:


圖5. 用戶活躍度

但是用戶活躍度不會(huì)超過1珍特,所以即使用戶在t4-t9的時(shí)候非常的活躍魔吐,用戶活躍度也不會(huì)超過1画畅。

7.探索網(wǎng)絡(luò)

行業(yè)內(nèi)使用??-greedy 和 UCB兩種算法來進(jìn)行探索轴踱,但是這兩種算法都有缺點(diǎn),第一種思想是隨機(jī)搜素一些新的項(xiàng)目推薦給用戶诱篷,但是這樣就有可能會(huì)給用戶推薦毫不相關(guān)的推薦棕所,實(shí)驗(yàn)證明這種方法并不能是ctr提高悯辙。第二種是給用戶推薦一些歷史上推薦頻率較低的item,這種方法會(huì)使推薦準(zhǔn)確度drop针贬。本文使用Dueling Bandit Gradient Descent算法進(jìn)行探索桦他,這種算法的思想在于給用戶推薦距離已推薦列表較近的一些item快压。框架圖如圖6所示坪郭。


圖6. DDNQ+DBGD框架圖

8.實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)集如圖7所示截粗。


圖7. 實(shí)驗(yàn)數(shù)據(jù)
圖8. 用戶請(qǐng)求次數(shù)分布以及新聞推薦分布

離線效果相比較于各個(gè)模型如下,DDQN(深度強(qiáng)化學(xué)習(xí)框架)+U(用戶活躍度)+DBGD(探索網(wǎng)絡(luò))是本文使用的模型豆瘫。如圖9所示外驱。

圖9. 模型效果

線上效果如圖10所示:

圖10. 線上效果

另外本文用ILS公式來評(píng)估模型的多樣性:


多樣性公式

其中S(bi,bj)代表兩個(gè)推薦時(shí)間的相似性,很容易理解儿子,當(dāng)ILS越小的時(shí)候模型的推薦效果越好柔逼。多個(gè)模型多樣性比較如圖11所示愉适。

圖11. 模型ILS值

9. 結(jié)論

1.本文提出一種基于DQN深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)框架來實(shí)現(xiàn)新聞的在線個(gè)性化推薦维咸。

2.本文將用戶的活躍度作為用戶點(diǎn)擊/不點(diǎn)擊的反饋補(bǔ)充。

3.提出一種有效的探索策略提高系統(tǒng)推薦的多樣性瞬哼。

4.證明線上線下的效果都要好與其他的推薦系統(tǒng)倒槐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末讨越,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子人弓,更是在濱河造成了極大的恐慌着逐,老刑警劉巖耸别,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秀姐,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡痒留,警方通過查閱死者的電腦和手機(jī)伸头,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門恤磷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碗殷,“玉大人速缨,你說我怎么就攤上這事》麓猓” “怎么了吭历?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵晌区,是天一觀的道長恼五。 經(jīng)常有香客問我哭懈,道長遣总,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮董饰,結(jié)果婚禮上圆米,老公的妹妹穿的比我還像新娘娄帖。我一直安慰自己近速,他們只是感情好削葱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布淳梦。 她就那樣靜靜地躺著爆袍,像睡著了一般陨囊。 火紅的嫁衣襯著肌膚如雪蜘醋。 梳的紋絲不亂的頭發(fā)上啸罢,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天伺糠,我揣著相機(jī)與錄音,去河邊找鬼累驮。 笑死舵揭,一個(gè)胖子當(dāng)著我的面吹牛午绳,可吹牛的內(nèi)容都是我干的拦焚。 我是一名探鬼主播赎败,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼僵刮!你這毒婦竟也來了据忘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤搞糕,失蹤者是張志新(化名)和其女友劉穎勇吊,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窍仰,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汉规,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驹吮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鲫忍。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖钥屈,靈堂內(nèi)的尸體忽然破棺而出近忙,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏泰涂。R本人自食惡果不足惜秘蛇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一艘策、第九天 我趴在偏房一處隱蔽的房頂上張望却汉。 院中可真熱鬧青扔,春花似錦凛剥、人聲如沸逻炊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間隘道,已是汗流浹背激捏。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來泰國打工表谊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓步势,卻偏偏與公主長得像漠魏,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容