Unified Conversational Recommendation Policy Learning via Graph-based Reinforcement Learning

以下內(nèi)容純屬個(gè)人見解码泛,歡迎大家交流。
發(fā)布于2021 SIGIR

1 motivation

1.1 問題

CRS中三個(gè)決策問題:詢問哪些屬性翅帜、推薦哪些項(xiàng)目以及何時(shí)詢問或推薦×常現(xiàn)有的方法主要針對(duì)分離會(huì)話和推薦組件的CRS中這三個(gè)決策問題中的一個(gè)或兩個(gè),這限制了CRS的可擴(kuò)展性和通用性爽醋,缺乏一個(gè)穩(wěn)定的訓(xùn)練過程蚁署。

在MCR場(chǎng)景中,CRS通常被定義為一個(gè)多步驟的決策過程蚂四,并通過政策學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(RL)方法來解決光戈。如圖1(a)所示,基于rl的IRS只需要學(xué)習(xí)策略來決定推薦哪些項(xiàng)目遂赠。然而久妆,在CRS中情況更加復(fù)雜,因?yàn)橛袃蓚€(gè)組件需要被一致地考慮跷睦,即會(huì)話和推薦組件】晗遥現(xiàn)有方法CRM和EAR采用策略梯度來改進(jìn)何時(shí)詢問和詢問哪些屬性的策略,而推薦決策是由外部推薦模型做出的抑诸。為了減少策略學(xué)習(xí)中的行動(dòng)空間奸笤,另一種最先進(jìn)的方法SCPR只考慮學(xué)習(xí)何時(shí)詢問或推薦的策略,而兩個(gè)孤立的組件負(fù)責(zé)決定詢問什么和推薦什么哼鬓。這兩種CRS的策略學(xué)習(xí)框架如圖1(b)和1(c)所示:


圖1

盡管這些方法很有效监右,但在實(shí)際應(yīng)用中仍有一些問題需要解決:(i)現(xiàn)有的CRS方法訓(xùn)練的模型缺乏對(duì)不同領(lǐng)域或應(yīng)用的普遍性,因?yàn)镃RS需要考慮三種不同的決策過程异希,包括詢問哪些屬性健盒,推薦哪些項(xiàng)目,以及何時(shí)詢問或推薦称簿。訓(xùn)練離線推薦模型或使用綜合對(duì)話歷史對(duì)政策網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練需要額外的努力扣癣。(ii)政策學(xué)習(xí)難以集中,因?yàn)閷?duì)話和推薦組成部分是孤立的憨降,在培訓(xùn)過程中缺乏相互影響父虑。

1.2 解決方法

為了解決這些問題,在本研究中授药,我們將上述三個(gè)獨(dú)立的CRS決策過程作為一個(gè)統(tǒng)一的策略學(xué)習(xí)問題來利用CRS的最終目標(biāo)士嚎,并在訓(xùn)練過程中填補(bǔ)推薦和會(huì)話組件之間的空白。這種統(tǒng)一會(huì)話推薦策略學(xué)習(xí)(UCRPL)旨在學(xué)習(xí)統(tǒng)一策略來決定行動(dòng)悔叽,在每個(gè)會(huì)話回合詢問屬性或推薦項(xiàng)目莱衩,以最大化整個(gè)MCR過程的累積效用。本文提出的CRS統(tǒng)一策略學(xué)習(xí)概述如圖2所示娇澎。


圖2

然而笨蚁,UCRPL問題帶來了兩個(gè)挑戰(zhàn):(i)如何系統(tǒng)地結(jié)合會(huì)話和推薦組件來實(shí)現(xiàn)統(tǒng)一的策略學(xué)習(xí)?(ii)如何處理樣本效率問題?隨著UCRPL中的行動(dòng)空間變得非常大,包括所有可用的屬性和項(xiàng)目,它需要大量的交互數(shù)據(jù)來學(xué)習(xí)最優(yōu)策略括细。幸運(yùn)的是伪很,圖結(jié)構(gòu)捕獲了不同類型節(jié)點(diǎn)(即用戶、項(xiàng)目和屬性)之間豐富的相關(guān)信息奋单,使我們能夠發(fā)現(xiàn)用戶對(duì)屬性和項(xiàng)目的協(xié)作偏好锉试。因此,我們可以利用圖結(jié)構(gòu)將推薦和會(huì)話組件集成為一個(gè)有機(jī)整體辱匿,其中會(huì)話會(huì)話可以被視為圖中維護(hù)的節(jié)點(diǎn)序列键痛,以動(dòng)態(tài)地利用會(huì)話歷史來預(yù)測(cè)下一個(gè)回合的行動(dòng)。另一方面匾七,雖然圖的連通性也可以通過路徑推理來消除無效動(dòng)作絮短,但仍有大量候選動(dòng)作有待搜索。由于用戶可能不會(huì)對(duì)所有項(xiàng)和屬性都感興趣昨忆,所以我們可以關(guān)注潛在的重要內(nèi)容提高UCRPL的樣本效率丁频。

為此,我們提出了一個(gè)新的自適應(yīng)的基于圖的強(qiáng)化學(xué)習(xí)框架邑贴,即統(tǒng)一會(huì)話推薦(UNICORN)席里。具體來說,由于CRS的進(jìn)化特性,我們利用動(dòng)態(tài)加權(quán)圖模型用戶之間不斷變化的相互關(guān)系,在交談中項(xiàng)目和屬性,考慮基于馬爾可夫決策過程(MDP)同時(shí)處理環(huán)境決策的推薦和談話。然后拢驾,我們集成了圖增強(qiáng)表示學(xué)習(xí)和序列對(duì)話建模來捕獲用戶對(duì)物品和屬性的動(dòng)態(tài)偏好奖磁。此外,還設(shè)計(jì)了兩種簡(jiǎn)單而有效的動(dòng)作選擇策略來處理樣本效率問題繁疤。我們采用基于偏好的項(xiàng)目選擇和基于加權(quán)熵的屬性選擇策略來只考慮潛在的重要行為咖为,而不是枚舉整個(gè)候選項(xiàng)目和屬性集。

2 模型

2.1 graph-based MDP environment

MDP環(huán)境負(fù)責(zé)通知代理當(dāng)前狀態(tài)和可能采取的操作稠腊,然后根據(jù)當(dāng)前策略與觀察到的用戶交互的匹配程度獎(jiǎng)勵(lì)代理躁染。形式上,MDP環(huán)境可以用元組



分別表示state space, action space, state transition function, reward function

2.1.1 state

對(duì)于用戶??架忌,我們考慮兩個(gè)主要因素:



分別是t時(shí)刻都對(duì)話歷史和動(dòng)態(tài)的子圖吞彤,其中:



分別表示用戶u喜歡的屬性,拒絕的屬性和物品

2.1.2 action

根據(jù)當(dāng)前的狀態(tài)s_t叹放,agent會(huì)采取一個(gè)行為a_t饰恕,推薦候選物品中的 一個(gè),或者是詢問候選屬性中的一個(gè)

2.1.3 Transition

根據(jù)s_t狀態(tài)采用的行動(dòng)a_t许昨,根據(jù)用戶的反饋懂盐,獲取到下一時(shí)刻的狀態(tài)s_{t+1}.

2.1.4 reward

(1)??_{rec\_suc},當(dāng)用戶接受推薦項(xiàng)目時(shí)糕档,會(huì)得到強(qiáng)烈的積極獎(jiǎng)勵(lì);
(2)??_{rec\_fail},當(dāng)用戶拒絕被推薦的物品時(shí),給予消極獎(jiǎng)勵(lì);
(3)??_{ask\_suc}速那,當(dāng)用戶接受詢問屬性時(shí)的輕微正面獎(jiǎng)勵(lì)俐银,
(4)??_{ask\_fail},當(dāng)用戶拒絕詢問的屬性時(shí)端仰,一個(gè)消極的獎(jiǎng)勵(lì)
(5)??_{quit}捶惜,當(dāng)玩家到達(dá)最大回合數(shù)時(shí)將獲得強(qiáng)烈的負(fù)獎(jiǎng)勵(lì)。

2.2 Graph-enhanced State Representation

2.2.1 Dynamic Weighted Graph Construction


2.2.2 Graph-based Representation Learning


2.2.3 Sequential Representation Learning

除了所涉及的用戶荔烧、項(xiàng)目和屬性之間的相互關(guān)系外吱七,還期望CRS在當(dāng)前狀態(tài)下建模會(huì)話歷史記錄。與以往采用啟發(fā)式特征進(jìn)行會(huì)話歷史建模的研究[12,14]不同鹤竭,我們采用Transformer編碼器[29]捕獲會(huì)話歷史的順序信息踊餐,并關(guān)注決定下一步行動(dòng)的重要信息。如[29]所述臀稚,每一層變壓器由三個(gè)組件組成:(i)層的規(guī)格化定義為L(zhǎng)ayerNorm(·)吝岭。(ii)多頭關(guān)注被定義為MultiHead(??,??吧寺,??)窜管,其中??,??稚机,??分別是查詢幕帆,鍵,值赖条。(iii)定義ReLU激活的前饋網(wǎng)絡(luò)為FFN(·)失乾。以??-th層為例


在我們的例子中,輸入序列??_{(0)}是在學(xué)習(xí)到的基于圖的表示的當(dāng)前會(huì)話歷史中接受的屬性谋币。
最終仗扬,經(jīng)過L_s個(gè)transformer層后,s_t的表示為:

2.3 Action Selection Strategy

一個(gè)較大的動(dòng)作搜索空間會(huì)在很大程度上損害策略學(xué)習(xí)的性能蕾额。為此早芭,我們提出了兩種簡(jiǎn)單的策略來提高候選動(dòng)作選擇的樣本效率。

2.3.1 Preference-based Item Selection

一般來說诅蝶,對(duì)于要推薦的候選項(xiàng)退个,我們可以只考慮從最適合用戶首選項(xiàng)的少數(shù)候選項(xiàng)中做出推薦,因?yàn)橛脩艨赡懿粫?huì)對(duì)所有項(xiàng)都感興趣调炬。為了實(shí)現(xiàn)這一點(diǎn)语盈,我們根據(jù)w_v^{(t)}選擇top-????候選項(xiàng)目。

2.3.2 Weighted Entropy-based Attribute Selection.

而對(duì)于要詢問的候選屬性缰泡,期望的屬性應(yīng)該不僅能夠更好地消除候選項(xiàng)的不確定性刀荒,而且能夠編碼用戶偏好。我們采用加權(quán)熵作為對(duì)候選屬性進(jìn)行裁剪的準(zhǔn)則:



我們也選擇了top-????候選屬性

2.4 Deep Q-Learning Network

在獲得圖增強(qiáng)狀態(tài)表示和候選動(dòng)作空間后,我們引入深度q -學(xué)習(xí)網(wǎng)絡(luò)(DQN)[21]進(jìn)行統(tǒng)一會(huì)話推薦策略學(xué)習(xí)缠借。我們進(jìn)一步實(shí)施了一些技術(shù)來增強(qiáng)和穩(wěn)定DQN的訓(xùn)練干毅。算法1給出了統(tǒng)一會(huì)話推薦器的訓(xùn)練過程


算法1

2.4.1 Dueling Q-Network

按照標(biāo)準(zhǔn)假設(shè),延遲獎(jiǎng)勵(lì)被每個(gè)時(shí)間步??的一個(gè)因子貼現(xiàn)泼返,我們將q值??(??_??硝逢,??_??)定義為基于狀態(tài)??_??和行為??_??的預(yù)期獎(jiǎng)勵(lì)。如圖3最右部分所示绅喉,dueling Q-network使用兩個(gè)深度神經(jīng)網(wǎng)絡(luò)分別計(jì)算值函數(shù)??????(·)和優(yōu)勢(shì)函數(shù)??????(·)渠鸽。那么q函數(shù)的計(jì)算方法為:



具有最優(yōu)策略???預(yù)期reward的最優(yōu)q函數(shù)???(????,????)遵循Bellman方程如下

2.4.2 Double Q-Learning with Prioritized Experience Replay

在MCR過程的每個(gè)片段中柴罐,在每個(gè)時(shí)間步??徽缚,CRS agent通過描述的圖增強(qiáng)狀態(tài)表征學(xué)習(xí)獲得當(dāng)前狀態(tài)表示??????(????)。然后agent從候選行動(dòng)空間A??中選擇一個(gè)行動(dòng)????丽蝎,該行動(dòng)空間是通過描述的行動(dòng)選擇策略獲得的猎拨。這里我們結(jié)合??-greedy方法來平衡動(dòng)作采樣中的探索和開發(fā)(即根據(jù)最大q值(概率1???)選擇一個(gè)貪婪動(dòng)作,隨機(jī)動(dòng)作(概率??))屠阻。
然后红省,代理將從用戶的反饋中獲得獎(jiǎng)勵(lì)????。根據(jù)反饋国觉,當(dāng)前狀態(tài)????轉(zhuǎn)換為下一個(gè)狀態(tài)????+1吧恃,并相應(yīng)地更新候選動(dòng)作空間A??+1。然后將體驗(yàn)(????麻诀,????痕寓,????,????+1,A??+1)存儲(chǔ)到重放緩沖區(qū)D中蝇闭。為了訓(xùn)練DQN呻率,我們從D中采樣小批量的體驗(yàn),并將以下?lián)p失函數(shù)最小化:



為了解決傳統(tǒng)DQN中的高估偏差問題呻引,我們采用了double q-learning方法礼仗,該方法將目標(biāo)網(wǎng)絡(luò)??’作為在線網(wǎng)絡(luò)的周期副本。將在線網(wǎng)絡(luò)的目標(biāo)值修改為:



其中????’為目標(biāo)網(wǎng)絡(luò)的參數(shù)逻悠,通過軟分配更新為

此外元践,傳統(tǒng)的DQN從重放緩沖區(qū)均勻采樣。為了更頻繁地對(duì)那些有很多東西需要學(xué)習(xí)的重要轉(zhuǎn)換進(jìn)行采樣童谒,我們采用了學(xué)習(xí)潛力的優(yōu)先重放代理单旁,它以相對(duì)于絕對(duì)TD錯(cuò)誤的??的概率對(duì)轉(zhuǎn)換進(jìn)行采樣

2.4.3 Model Inference

在學(xué)習(xí)到的UNICORN模型中,給定一個(gè)用戶和他/她的會(huì)話歷史饥伊,按照同樣的過程得到候選行動(dòng)空間和當(dāng)前狀態(tài)表示象浑,然后根據(jù)最大q值決定下一步行動(dòng)蔫饰。如果所選操作指向某個(gè)屬性,系統(tǒng)將詢問用戶對(duì)該屬性的偏好融柬。否則死嗦,系統(tǒng)將向用戶推薦q值最高的top-??項(xiàng)

3 實(shí)驗(yàn)


其中趋距,hDCG(T,K)定義為:



其中??和??表示每個(gè)回合的會(huì)話回合數(shù)和推薦項(xiàng)目粒氧,??(??,??)表示結(jié)果在回合??的相關(guān)性和位置??节腐。然后可以從hDCG@(??外盯,??)中提取hNDCG@(??,??)翼雀,方法與原始NDCG@??相同饱苟。由于MCR中每個(gè)會(huì)話只有一個(gè)目標(biāo)項(xiàng)目,所以我們只需使用hDCG@(??狼渊,??)進(jìn)行評(píng)估箱熬。hNDCG@(??,??)背后的直覺是狈邑,成功回合的回合數(shù)越少城须,對(duì)CRS越有利,而目標(biāo)物品在成功回合的推薦列表中排名越高米苹。



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末糕伐,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蘸嘶,更是在濱河造成了極大的恐慌良瞧,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件训唱,死亡現(xiàn)場(chǎng)離奇詭異褥蚯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)况增,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門赞庶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人巡通,你說我怎么就攤上這事尘执。” “怎么了宴凉?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵誊锭,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我弥锄,道長(zhǎng)丧靡,這世上最難降的妖魔是什么蟆沫? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮温治,結(jié)果婚禮上饭庞,老公的妹妹穿的比我還像新娘。我一直安慰自己熬荆,他們只是感情好舟山,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著卤恳,像睡著了一般累盗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上突琳,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天若债,我揣著相機(jī)與錄音,去河邊找鬼拆融。 笑死蠢琳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的镜豹。 我是一名探鬼主播傲须,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼逛艰!你這毒婦竟也來了躏碳?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤散怖,失蹤者是張志新(化名)和其女友劉穎菇绵,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體镇眷,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咬最,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了欠动。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片永乌。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖具伍,靈堂內(nèi)的尸體忽然破棺而出翅雏,到底是詐尸還是另有隱情,我是刑警寧澤人芽,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布望几,位于F島的核電站,受9級(jí)特大地震影響萤厅,放射性物質(zhì)發(fā)生泄漏橄抹。R本人自食惡果不足惜靴迫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望楼誓。 院中可真熱鬧玉锌,春花似錦、人聲如沸疟羹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽阁猜。三九已至丸逸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間剃袍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工捎谨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留民效,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓涛救,卻偏偏與公主長(zhǎng)得像畏邢,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子检吆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容