前言
- 本文簡(jiǎn)要記錄閱讀何向南老師關(guān)于CRS的綜述文章:Advances and Challenges in Conversational Recommender Systems: A Survey
- SIGIR2020-CRS-turorial
背景
推薦系統(tǒng)利用交互歷史來建模用戶的興趣骇塘,已被廣泛應(yīng)用。但由于靜態(tài)模型建模用戶偏好沒有明確的指令和用戶的正向反饋,因此靜態(tài)推薦模型(static)很難很好地回答兩個(gè)重要問題:
(a)用戶到底喜歡什么题涨?
- 靜態(tài)模型的學(xué)習(xí)過程通常是在歷史數(shù)據(jù)上進(jìn)行的蜗元,可能是稀疏且嘈雜的恨旱。
- 靜態(tài)模型的基本假設(shè)是所有歷史交互都代表用戶偏好。 首先尚揣,用戶可能不喜歡他們選擇的項(xiàng)目抑堡,因?yàn)樗麄兛赡茏龀鲥e(cuò)誤的決定摆出。 其次,用戶的偏好可能會(huì)隨著時(shí)間而變化首妖,這意味著用戶對(duì)商品的態(tài)度可能會(huì)發(fā)生變化懊蒸,并且從過去的數(shù)據(jù)中捕獲漂移的偏好會(huì)變得更加困難。
- 對(duì)于冷用戶悯搔,很難根據(jù)數(shù)據(jù)對(duì)他們的偏好進(jìn)行建模骑丸。 簡(jiǎn)而言之,靜態(tài)模型幾乎無法捕獲用戶的精確偏好妒貌。
(b)用戶為什么喜歡某個(gè)物品通危?- 許多因素會(huì)影響用戶在現(xiàn)實(shí)生活中的決定。 例如灌曙,用戶可能由于好奇心或其他人的影響而購(gòu)買產(chǎn)品, 也可能是自由考慮的結(jié)果菊碟。
- 不同的用戶購(gòu)買相同的產(chǎn)品锭部,但出于不同的動(dòng)機(jī)飞盆。 因此,同等對(duì)待不同用戶或同等對(duì)待同一個(gè)用戶的不同交互不適用于推薦模型惠猿。 實(shí)際上蚣驼,靜態(tài)模型很難解釋用戶消費(fèi)行為背后的各種原因魄幕。
作者認(rèn)為關(guān)鍵的困難來自于內(nèi)在的機(jī)制:交互建模的靜態(tài)模式從根本上限制了表達(dá)用戶意圖的方式,從而導(dǎo)致用戶與系統(tǒng)之間的信息不對(duì)稱 (asymmetric information)颖杏。
對(duì)話式推薦系統(tǒng)(CRS)的近期興起從根本上改變了這種情況纯陨。在CRS中,用戶和系統(tǒng)可以通過自然語(yǔ)言交互實(shí)現(xiàn)動(dòng)態(tài)交互留储,這提供了前所未有的機(jī)會(huì)來獲得用戶的準(zhǔn)確偏好翼抠。
CRS定義
A recommendation system that can elicit the dynamic preferences of users and take actions based on their current needs through real-time multi-turn interactions using natural language.
可以利用自然語(yǔ)言進(jìn)行實(shí)時(shí)多輪交互,從而激發(fā)用戶的動(dòng)態(tài)偏好并根據(jù)其當(dāng)前需求采取行動(dòng)获讳。
CRS示例如下:一種替代解決方案是利用商品的屬性信息阴颖,這對(duì)于理解用戶的意圖是不言而喻的,并且可以迅速縮小候選商品的范圍丐膝。 基于批判的推薦系統(tǒng)(critiquing-based)是一種解決方案量愧,旨在引起用戶對(duì)某些屬性(而非物品)的反饋钾菊,是CRS的早期的一種形式。
批評(píng)就像推銷員一樣侠畔,通過主動(dòng)詢問商品屬性來收集用戶偏好结缚。例如损晤,當(dāng)尋找手機(jī)時(shí)软棺,用戶可以遵循系統(tǒng)的提示并提供諸如“更便宜”或“更長(zhǎng)的電池壽命”之類的反饋。根據(jù)這些反饋尤勋,系統(tǒng)將建議更合適的項(xiàng)目喘落; 該過程重復(fù)幾次,直到用戶找到滿意的物品或放棄為止最冰。該機(jī)制使系統(tǒng)具有更好的推斷用戶偏好的能力瘦棋,并有助于快速縮小(narrow down)推薦候選者的范圍。
現(xiàn)有的交互式和批注方法盡管有效暖哨,但受其表示能力的限制赌朋,用戶只能通過一些預(yù)定義的選項(xiàng)與系統(tǒng)進(jìn)行交互。 對(duì)話模塊在CRS中的集成可以進(jìn)行更靈活的交互篇裁,例如以標(biāo)簽沛慢,模板話語(yǔ)等自然語(yǔ)言的形式。 毫無疑問达布,通過對(duì)話形式可以更自然地表達(dá)和理解用戶的意圖团甲。
相關(guān)研究工作情況:近年來比較多,目前共有148篇相關(guān)論文
現(xiàn)在的一些研究關(guān)注CRS的對(duì)話能力,嘗試基于端對(duì)端對(duì)話系統(tǒng)或深度語(yǔ)言模型來構(gòu)建模型脐区。 但是集乔,這些模型旨在學(xué)習(xí)人類會(huì)話語(yǔ)料庫(kù)中的模式,并且通常是不透明的且難以解釋坡椒。端到端方法在推薦和響應(yīng)方面的人工評(píng)估效果不佳扰路。 因此,一個(gè)明確的對(duì)話策略是必要的倔叼,并且需要大量的研究工作汗唱。
CRS框架
- user Interface 用戶界面充當(dāng)用戶與機(jī)器之間的翻譯器际插; 通常碘耳,它從用戶的原始話語(yǔ)中提取信息,并將信息轉(zhuǎn)換為機(jī)器可理解的表示框弛,并根據(jù)會(huì)話策略為用戶生成有意義的響應(yīng)辛辨。
- Conversation Strategy 對(duì)話策略模塊是核心,負(fù)責(zé)協(xié)調(diào)其他兩個(gè)組件瑟枫,決定了CRS的核心邏輯斗搞,例如引起用戶興趣,保持多輪對(duì)話和引導(dǎo)新主題慷妙。
- Recommendation Engine 推薦引擎負(fù)責(zé)對(duì)實(shí)體之間的關(guān)系進(jìn)行建模(例如僻焚,用戶-物品交互或物品-物品鏈接),學(xué)習(xí)和記錄用戶對(duì)物品和物品屬性的偏好膝擂,并檢索所需的信息虑啤。
具體的研究問題包括4個(gè)方面:
- Question-based User Preference Elicitation. 問題導(dǎo)向的用戶偏好啟發(fā)
CRS提供了通過詢問屬性問題的方面來顯式地引出用戶偏好。具體存在有兩個(gè)重要的問題:
(1)要問什么架馋?
(2)如何根據(jù)用戶反應(yīng)調(diào)整建議狞山?
前者著重于構(gòu)建問題以引出盡可能多的信息。
后者利用用戶反饋的信息來提出更適當(dāng)?shù)耐扑]绩蜻。
- Multi-turn Conversational Recommendation Strategies 多輪對(duì)話策略
CRS需要與用戶反復(fù)互動(dòng)铣墨,并多次動(dòng)態(tài)地適應(yīng)用戶的響應(yīng)。 一個(gè)有效的策略涉及何時(shí)提出問題以及何時(shí)推薦办绝,
即讓模型在(1)繼續(xù)提出問題以進(jìn)一步減少偏好不確定性和(2)根據(jù)當(dāng)前對(duì)用戶偏好的建模生成推薦之間進(jìn)行選擇伊约。
通常應(yīng)以最少的對(duì)話次數(shù)為目標(biāo),以成功推薦為目標(biāo)孕蝉,因?yàn)橛脩粼谵D(zhuǎn)數(shù)過多后將失去耐心屡律。
- Natural Language Understanding and Generation 自然語(yǔ)言理解與生成
像人類一樣進(jìn)行交流仍然是CRS中最艱巨的挑戰(zhàn)之一。 為了理解用戶的興趣和意圖降淮,一些CRS方法將模型輸入定義為捕獲語(yǔ)義信息和用戶偏好的預(yù)定義標(biāo)簽超埋。 一些方法通過slot填充技術(shù)從用戶的原始話語(yǔ)中提取語(yǔ)義信息。 為了產(chǎn)生人類可理解的響應(yīng)佳鳖,CRS使用許多策略霍殴,例如直接提供推薦列表,將推薦物品納入基于規(guī)則的自然語(yǔ)言模板系吩。 此外来庭,一些研究人員提出了端到端框架,以使CRS能夠從原始自然語(yǔ)言中準(zhǔn)確理解用戶的情感和意圖穿挨,并生成可讀月弛,流暢肴盏,一致且有意義的自然語(yǔ)言響應(yīng)。(readable, fluent, consistent, and meaningful )
- Trade-offs between Exploration and Exploitation (E&E) 探索和利用問題
Exploitation:根據(jù)當(dāng)前信息帽衙,由訓(xùn)練的模型做出最佳的決策菜皂。
Exploration:探索未知的領(lǐng)域,比如在某個(gè)state執(zhí)行之前在這個(gè)state沒有執(zhí)行的action厉萝。
所以做exploitation和exploration的目的就是獲得一種長(zhǎng)期收益最高的策略恍飘,這個(gè)過程可能對(duì)short-term reward有損失。如果exploitation太多冀泻,那么模型比較容易陷入局部最優(yōu)常侣,但是exploration太多蜡饵,模型收斂速度太慢弹渔。這就是exploitation-exploration困境。
推薦系統(tǒng)的一個(gè)問題是溯祸,每個(gè)用戶只能與整個(gè)數(shù)據(jù)集中的一些項(xiàng)目進(jìn)行交互肢专。用戶可能會(huì)看不見用戶可能感興趣的大量物品。對(duì)于冷啟動(dòng)用戶(剛加入系統(tǒng)并且交互次數(shù)為零或很少)焦辅,問題特別嚴(yán)重博杖。由于具有交互性,CRS可以積極探索看不見的項(xiàng)目筷登,以更好地捕獲用戶的偏好剃根。這樣,用戶可以受益于有機(jī)會(huì)表達(dá)自己的意圖并獲得個(gè)性化的推薦前方。
但是狈醉,探索的過程是有代價(jià)的。由于用戶只有有限的時(shí)間和精力與系統(tǒng)進(jìn)行交互惠险,因此失敗的探索將浪費(fèi)時(shí)間苗傅,并且失去進(jìn)行準(zhǔn)確推薦的機(jī)會(huì)。因此班巩,尋求E&E權(quán)衡是CRS中的關(guān)鍵問題渣慕。
- Evaluation and User Simulation
與針對(duì)離線數(shù)據(jù)進(jìn)行優(yōu)化的靜態(tài)推薦器模型不同,CRS強(qiáng)調(diào)動(dòng)態(tài)交互過程中的用戶體驗(yàn)抱慌。因此逊桦,我們不僅應(yīng)考慮對(duì)推薦和響應(yīng)生成進(jìn)行輪次級(jí)別的評(píng)估,還應(yīng)注意對(duì)話級(jí)別評(píng)估抑进。
評(píng)估CRS還需要大量的在線用戶交互强经,而這種交互獲得昂貴的資源。 因此单匣,必須使用模擬用戶夕凝。 開發(fā)可靠的用戶模擬器具有挑戰(zhàn)性宝穗,并且仍然是一個(gè)懸而未決的問題。
小結(jié)
本篇記錄了CRS的關(guān)鍵定義和主要任務(wù)码秉,下一篇將介紹CRS的任務(wù)細(xì)節(jié)逮矛。
END
本人簡(jiǎn)書所有文章均為原創(chuàng),歡迎轉(zhuǎn)載转砖,請(qǐng)注明文章出處 须鼎。百度和各類采集站皆不可信,搜索請(qǐng)謹(jǐn)慎鑒別府蔗。技術(shù)類文章一般都有時(shí)效性晋控,本人習(xí)慣不定期對(duì)自己的博文進(jìn)行修正和更新,因此請(qǐng)?jiān)L問本人簡(jiǎn)書主頁(yè)查看最新信息http://www.reibang.com/u/40d14973d97c