文章名稱(chēng)
【SIGIR-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods】Counterfactual Data-Augmented Sequential Recommendation
核心要點(diǎn)
文章旨在利用反事實(shí)數(shù)據(jù)生成的方法岳颇,解決Session-Based推薦場(chǎng)景下數(shù)據(jù)稀疏限制模型性能的問(wèn)題。作者提出CASR框架,包含3種增廣序列生成的sampler model,以及傳統(tǒng)的序列推薦模型anchor model用于生成最終的推薦列表。Sampler model是整個(gè)框架的關(guān)鍵容为,其中一種是簡(jiǎn)單的隨機(jī)替換模型,另外兩種是面向數(shù)據(jù)和面向模型的序列生成模型。面向數(shù)據(jù)的模型會(huì)生成處在決策邊界附近的反事實(shí)序列原献,而面向模型的方法則會(huì)以最大化提供給anchor model的信息為目標(biāo)生成反事實(shí)序列。
方法細(xì)節(jié)
問(wèn)題引入
基于用戶(hù)行為序列推薦模型在各種推薦場(chǎng)景都取得了一定的成功埂淮,此類(lèi)模型的本質(zhì)是學(xué)習(xí)到兩個(gè)或者多個(gè)物品在用戶(hù)行為序列中共同出現(xiàn)的聯(lián)合分布姑隅,并以此作為推斷依據(jù),為用戶(hù)推薦下一個(gè)物品倔撞。因此讲仰,高質(zhì)量的行為序列(訓(xùn)練數(shù)據(jù))對(duì)基于序列的推薦模型尤為重要。然而痪蝇,行為序列往往是稀疏的鄙陡。如下圖所示,用戶(hù)按順序購(gòu)買(mǎi)了相機(jī)躏啰,電池和充電器趁矾,這條行為被記錄了下來(lái),但存在許多其他(可能的)合理的行為序列并沒(méi)有被記錄下來(lái)(只是沒(méi)有被觀測(cè)到给僵,但其實(shí)是可能發(fā)生的)毫捣。例如,用戶(hù)可能按順序購(gòu)買(mǎi)相機(jī)帝际、支架蔓同、交卷和相冊(cè)等。這些沒(méi)有被觀測(cè)到的蹲诀、有用的行為序列被作者稱(chēng)為反事實(shí)行為序列斑粱,利用這些行為序列,想要回答的問(wèn)題是:如果用戶(hù)行為發(fā)生變化脯爪,那么他/她會(huì)買(mǎi)什么珊佣?這是典型的模擬人的推理方式的方法,通過(guò)折后在那個(gè)模擬可以幫助模型學(xué)習(xí)更多有用信息披粟,提升性能咒锻。
具體做法
首先,形式化序列推薦的問(wèn)題守屉,
- 用戶(hù)集合為
惑艇,物品集合為
;
- 對(duì)用戶(hù)
的推薦結(jié)果為
,其反事實(shí)推薦結(jié)果為
滨巴,表示修改用戶(hù)行為后思灌,可以被替換的物品;
- 用戶(hù)
的歷史行為集合記作
恭取,其中
表示用戶(hù)在
時(shí)刻交互的物品泰偿;
- 序列推薦模型的目標(biāo)是基于
(所有訓(xùn)練數(shù)據(jù)),準(zhǔn)確預(yù)測(cè)每一個(gè)用戶(hù)的下一個(gè)物品
(以及用戶(hù)未來(lái)的偏好)蜈垮;
- 序列推薦模型可以用
表示耗跛。通常通過(guò)優(yōu)化如下目標(biāo),來(lái)得到模型參數(shù)攒发。在大規(guī)模物品集合的場(chǎng)景下调塌,一般采用負(fù)采樣或sample softmax的方法減少計(jì)算復(fù)雜度,其中惠猿,
為負(fù)采樣的行為序列羔砾,若
出現(xiàn)在用戶(hù)歷史行為中,則
為1偶妖,否則為0姜凄。
crossentropy loss
從上圖也可以看出,CASR框架分為2個(gè)重要部分趾访,
- Sampler model态秧。用于生成反事實(shí)序列。
- Anchor model腹缩。用于產(chǎn)生出推薦結(jié)果。
如上所述空扎,其中核心是sampler model藏鹊。作者提出了3種sampler model。
Heuristic Sampler
作者提出基于啟發(fā)的sampler model作為基線转锈,其基本步驟是盘寡,
- 隨機(jī)采樣物品
,替換用戶(hù)行為序列中的某個(gè)物品撮慨,目標(biāo)物品
(這里
和
分別表示替換的物品和行為序列物品(的標(biāo)號(hào))竿痰,稍微有點(diǎn)歧義的是,
不是個(gè)標(biāo)號(hào)砌溺,而
是原始序列的標(biāo)號(hào))影涉;
- 利用sampler model尋找物品使得似然最大,即選擇滿(mǎn)足如下圖所示條件的最優(yōu)物品
规伐。
Heuristic Sampler Loss
這樣的方法顯然太簡(jiǎn)單的蟹倾,隨機(jī)采樣給了太多的自由度,帶來(lái)了太多的隨機(jī)性。并且[6, 7, 29]的研究表示鲜棠,不同的樣本對(duì)模型優(yōu)化而言肌厨,應(yīng)該具有不同的重要性。因此豁陆,需要更合理的sampler model柑爸。
本節(jié)介紹了,文章需要解決的額問(wèn)題背景盒音,方法框架以及簡(jiǎn)單的sampler model表鳍。下節(jié)繼續(xù)介紹更合理的sampler model以及anchor model。
心得體會(huì)
Heuristic Sampler
個(gè)人感覺(jué)里逆,Heuristic Sampler有點(diǎn)悖論进胯,既然sampler model可以做到最大似然,那么anchor模型和sampler model的本質(zhì)區(qū)別就比較小原押。并且胁镐,作者提到兩個(gè)模型都是利用原始的dataset進(jìn)行預(yù)訓(xùn)練的,區(qū)別就更小了诸衔。
文章引用
[1] Tsu-Jui Fu, Xin Eric Wang, Matthew F Peterson, Scott T Grafton, Miguel P Eckstein, and William Yang Wang. 2020. Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler. In European Conference on Computer Vision. Springer, 71–86.
[2] Hongchang Gao and Heng Huang. 2018. Self-paced network embedding. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1406–1415.
[29] JunWang,LantaoYu,WeinanZhang,YuGong,YinghuiXu,BenyouWang,Peng Zhang, and Dell Zhang. 2017. Irgan: A minimax game for unifying generative and discriminative information retrieval models. In Proceedings of the 40th In- ternational ACM SIGIR conference on Research and Development in Information Retrieval. 515–524.