- 最新被WWW2022接收的CRS研究工作筒狠。
-
該工作在基本的CRS框架上,提出多項選擇的形式代替常見的二元(Yes/No)交互躺屁,并考慮用戶潛在興趣的多樣性冤今。
- 相關(guān)資料:http://www.reibang.com/p/d0151d43e709
Main Story
本文主要針對多輪對話推薦(Multi-round CRS)進行研究:多次詢問屬性,進行多次推薦
已有的工作中往往假設(shè):用戶對所有的屬性和項目都保持著明確的偏好桥状,這可能經(jīng)常會偏離真實情況帽揪。
-
對于求助于CRS的用戶來說,他可能沒有一個明確的想法 關(guān)于他真正喜歡什么辅斟。
- 具體來說转晰,用戶可能對某些屬性類型(如顏色)的物品有明確的單一偏好;
- 而對其他屬性類型(如品牌)士飒,用戶可能有多種偏好查邢,甚至沒有明確的偏好。
- 在CRS的引導(dǎo)下酵幕,他可以接受一個屬性類型的多個屬性實例(例如侠坎,紅色和 黑)。此外裙盾,這些屬性實例的不同組合通常與不同的物品相關(guān)。
-
因此他嫡,用戶可以在多個屬性實例的組合下顯示他對物品的偏好番官,而不是一個具有所有屬性實例的獨特組合的單一物品。
將MCR擴展到一個更現(xiàn)實的場景徘熔,即多興趣多輪對話推薦(MIMCR),其中用戶可能對屬性實例組合有多種興趣淆党,并接受多個屬性實例組合部分重疊的物品酷师。
如上圖,用戶想要一件黑色的T恤衫染乌。對于諸如 "風格 "或 "品牌 "等屬性類型山孔,他可以接受一個或多個實例。他對 "Nike-brand "和 "sports "的組合以及 "solid "和 "polo "的組合分別表現(xiàn)出興趣荷憋。用戶可以接受一件 "黑色純色polo "T恤或一件 "黑色Nike-品牌運動 "T恤衫台颠。由于CRS成功地推薦了其中一個,任務(wù)就會完成勒庄。
- 在MIMCR方案下串前,現(xiàn)有的工作可能會遇到三個重要的限制 MIMCR的情況下瘫里,現(xiàn)有的工作可能會遇到三個重要的限制。
- 首先荡碾,目前的CRS框架通常采用二元提問("你是否喜歡XXX"谨读, A: Yes/No),這很簡單坛吁,但不能有效地激發(fā)用戶的興趣劳殖。 如圖1中的對話(a)所示,盡管用戶接受了CRS提出的所有屬性實例阶冈,但它們的組合并不能引起用戶的興趣闷尿。CRS提出的所有屬性實例,但這些實例的組合并沒有指向用戶喜歡的任何目標物品女坑。
- 其次填具,如圖1中的對話(b)所示,CRS可以通過使用多選題有效地獲得用戶的偏好匆骗。然而劳景,
現(xiàn)有的方法利用交集策略來選擇與所有被接受的屬性實例相關(guān)的物品,這很容易導(dǎo)致在對話過程中過度過濾用戶偏好的候選物品碉就。 - 最后盟广,現(xiàn)有的方法只是簡單地對用戶的意圖進行統(tǒng)一建模,而忽略了用戶興趣的多樣性瓮钥,這往往會導(dǎo)致無法通過屬性實例的組合來識別用戶的多種興趣筋量。
- 主要貢獻:
- 將現(xiàn)有的CRS擴展到一個更現(xiàn)實的場景設(shè)置,即MIMCR碉熄,它全面考慮到了用戶興趣的不完整性和多樣性桨武。
- 對于MIMCR場景,提出了MCMIPL框架锈津,用更合適的策略來生成問題和選擇候選物品呀酸。此外,方法基于當前狀態(tài)和歷史全局信息琼梆,反復(fù)提取用戶的多種興趣性誉,通過策略學(xué)習決定下一步行動。
Methods
總體框架
- 與之前的CRS框架基本一致茎杂,總體目標是學(xué)習策略網(wǎng)絡(luò)错览,以期有最大化期望累積收益。
- 具體包含3個步驟
User Modeling
-
構(gòu)建用戶狀態(tài)表征
- 以前的方法中只從當前狀態(tài)中提取用戶偏好煌往,而忽略了歷史交互對用戶偏好的影響蝗砾。
- 因此,本文構(gòu)建了兩個圖 Current Graph 和 Global Graph來對用戶歷史交互進行充分利用,以學(xué)習用戶表征
Consultation
- 決定對用戶進行推薦還是屬性詢問悼粮,主要基于DQN進行學(xué)習闲勺。
- 如果agent決定去詢問問題,本文的方法會從行動空間中選取同一屬性類型下的K個屬性實例進行提問扣猫。用戶可以選擇0到多個屬性菜循。這是本方法不同于其他框架的關(guān)鍵點。
Transition
- 在得到用戶的反饋后申尤,本步驟進行狀態(tài)轉(zhuǎn)化癌幕,調(diào)整候選集合等。
-
其中對于候選物品的更新昧穿,本方法區(qū)別以往方法中的交集策略勺远,考慮到用戶興趣的多樣性,使用并集策略更新候選物品时鸵。
-
最后RL的reward設(shè)計如下:
與之前的方法一致胶逢。
Multi-Interest Policy Learning
- 在以上框架的基礎(chǔ)上,作者提出了多興趣學(xué)習策略
-
主要點在于對用戶多興趣的建模饰潜,詳細的模型設(shè)計請閱讀原文初坠。
Exps
小結(jié)
- 本文針對多輪對話式推薦中對用戶興趣假設(shè)上的缺陷,對已有的MCR框架進行改進彭雾,提出了更符合實際使用場景的多選MCR碟刺。
- 并在該框架上提出對用戶多興趣進行建模的方法。實驗效果上取得了顯著提升薯酝。
- 總體來說半沽,本文提出的框架很有借鑒價值,后續(xù)案件可以將其作為通用框架吴菠,進行更深入的用戶建模以及策略學(xué)習設(shè)計抄囚。
END
本人簡書所有文章均為原創(chuàng),歡迎轉(zhuǎn)載橄务,請注明文章出處 。百度和各類采集站皆不可信穴亏,搜索請謹慎鑒別蜂挪。技術(shù)類文章一般都有時效性,本人習慣不定期對自己的博文進行修正和更新嗓化,因此請訪問本人簡書主頁查看最新信息http://www.reibang.com/u/40d14973d97c