文章名稱
【SIGIR-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods】Counterfactual Data-Augmented Sequential Recommendation
核心要點
文章旨在利用反事實數(shù)據(jù)生成的方法崩侠,解決Session-Based推薦場景下數(shù)據(jù)稀疏限制模型性能的問題。作者提出CASR框架,包含3種增廣序列生成的sampler model培己,以及傳統(tǒng)的序列推薦模型anchor model用于生成最終的推薦列表淘讥。Sampler model是整個框架的關(guān)鍵您没,其中一種是簡單的隨機替換模型,另外兩種是面向數(shù)據(jù)和面向模型的序列生成模型怜校。面向數(shù)據(jù)的模型會生成處在決策邊界附近的反事實序列,而面向模型的方法則會以最大化提供給anchor model的信息為目標(biāo)生成反事實序列米者。
上一節(jié)介紹了韭畸,文章需要解決的額問題背景,方法框架以及簡單的sampler model蔓搞。本節(jié)繼續(xù)介紹更合理的sampler model以及anchor model胰丁。
方法細節(jié)
問題引入
上一節(jié)提到,基于啟發(fā)式的反事實序列生成方法(優(yōu)化目標(biāo)如下圖所示)太簡單了喂分,并且引入過多隨機性锦庸,造成效果不理想。
回顧一下蒲祈,序列化推薦的形式化定義甘萧,
- 用戶集合為
,物品集合為
梆掸;
- 對用戶
的推薦結(jié)果為
扬卷,其反事實推薦結(jié)果為
,表示修改用戶行為后酸钦,可以被替換的物品怪得;
- 用戶
的歷史行為集合記作
,其中
表示用戶在
時刻交互的物品;
- 序列推薦模型的目標(biāo)是基于
(所有訓(xùn)練數(shù)據(jù))徒恋,準(zhǔn)確預(yù)測每一個用戶的下一個物品
(以及用戶未來的偏好)蚕断;
- 序列推薦模型可以用
表示。通常通過優(yōu)化如下目標(biāo)入挣,來得到模型參數(shù)亿乳。在大規(guī)模物品集合的場景下,一般采用負采樣或sample softmax的方法減少計算復(fù)雜度径筏,其中葛假,
為負采樣的行為序列,若
出現(xiàn)在用戶歷史行為中匠璧,則
為1桐款,否則為0。
crossentropy loss
我們期望夷恍,能夠生成信息豐富魔眨,但更具有指向性的反事實是序列,來訓(xùn)練推薦模型酿雪。
具體做法
為了解決上述問題遏暴,作者提出兩種可學(xué)習(xí)的序列生成方法,面向數(shù)據(jù)的和面向模型的方法指黎,兩種方法的流程架構(gòu)如下圖所示朋凉。
Data-oriented counterfactual sequence learning
在具有標(biāo)簽的數(shù)據(jù)集上,可以利用標(biāo)簽把訓(xùn)練數(shù)據(jù)劃分為多個部分醋安,各部分(間)的邊界稱之為decision boundaries杂彭。[1, 2]的研究表明,decision boundaries附近的樣本通常在揭示底層數(shù)據(jù)模式方面具有辨別力吓揪,基于它們訓(xùn)練能夠提高模型性能亲怠。
基于這個思路,作者通過最小改動生成反事實行為序列來恰好改變模型的預(yù)測結(jié)果(看過之前反事實解釋文章的同學(xué)應(yīng)該知道柠辞,這就是所謂的counterfactual explanation团秽,詳情可以參見因果可解釋推薦系統(tǒng)工具箱 - CountER(一)和因果可解釋推薦系統(tǒng)工具箱 - ACCENT(一)),并利用這些反事實序列訓(xùn)練模型叭首。
不同于前面講過的反事實解釋方法习勤,作者是通過在隱向量空間,對特定目標(biāo)進行優(yōu)化焙格,來生成反事實序列的图毕,具體優(yōu)化目標(biāo)如下圖所示。其中是物品
在向量空間中的表示(這里作者沒有明確說明眷唉,我沒理解錯的話吴旋,是Sampler Model空間中的表示损肛,當(dāng)然也可以讓Sampler Model和Anchor Model共享底層表示空間,只是作者沒有詳細區(qū)分)荣瑟。
同上一節(jié)Heuristic Sampler方法一樣,該方法的目標(biāo)仍然是尋找一個物品代替用戶歷史行為序列中摩泪,特定序號
的物品
笆焰。只是,此時的選擇方法并非完全隨機见坑,而是通過優(yōu)化上述目標(biāo)得到的嚷掠。同時,需要滿足改動后荞驴,目標(biāo)物品與現(xiàn)在(真實序列中)的目標(biāo)物品不同的約束不皆。實際上可以理解為,作者對用戶的真實行為序列做了兩個地方的改動熊楼,1)改變
成為
霹娄,2)由于
,導(dǎo)致
改變鲫骗。而犬耻,這個新的
被記作
,是通過優(yōu)化約束中的
得到的(也就是問題引入中提到的公式2)执泰。
優(yōu)化目標(biāo)枕磁,保證了替換物品與原始物品
足夠相似,你一定懂了术吝,這也保證這種改動是最小改動计济。
作者提到,的候選物品
可以是利用先驗知識選擇的物品自己排苍,也可以就是物品的全集
(當(dāng)然也取決于物品集合的大新偌拧)。此外纪岁,如果
和
的差距太小凑队,不能夠改變
,那說明生成的反事實序列在決策邊界上幔翰。
到這里還沒完漩氨。上述的優(yōu)化目標(biāo)是不可導(dǎo)的。
因此遗增,作者重寫了優(yōu)化目標(biāo)叫惊,在隱空間中先尋找到近似的向量,再投影到具體物品的向量上做修。具體地說霍狰,作者提出了虛擬的的概念抡草,其隱向量表示
。
是連續(xù)可變的可學(xué)習(xí)參數(shù)蔗坯,通過優(yōu)化如下目標(biāo)康震,可以利用可導(dǎo)的方法,學(xué)習(xí)到
宾濒,然后再投影到真實物品上腿短。
上述優(yōu)化目標(biāo)的
- 第一項,保證
與原始物品
足夠相似绘梦。
- 第二項橘忱,告訴模型,當(dāng)前真實的
物品不是我們期望的(通過給模型增加
出現(xiàn)概率的懲罰項實現(xiàn))卸奉,類似于原始優(yōu)化問題的約束項钝诚。
是超參數(shù)。
得到可以利用如下優(yōu)化方法榄棵,把
投影到真實的物品上凝颇。
Model-oriented counterfactual sequence learning
除了從數(shù)據(jù)決策邊界的角度生成反事實序列,作者還借鑒了[3,4]的思想秉继,提出了面向模型的反事實行為序列生成方法祈噪。基本思想史尚辑,尋找能夠為模型提供較大損失的樣本辑鲤,因為此類樣本意味著模型沒有學(xué)習(xí)好(想想Boosting的做法),能夠提供更多信息杠茬,提升模型性能月褥。
因此,作者通過最大化anchor model的損失來生成反事實序列瓢喉。同樣用替換
宁赤,只不過優(yōu)化的目標(biāo)如下圖所示∷ㄆ保可以看到决左,這個優(yōu)化目標(biāo)中引入了anchor model
。第一個約束走贪,保證生成的樣本是由sampler model給出的佛猛,第二個約束,保證在sampler model的向量表示空間中
和
的表示足夠接近坠狡,接近程度通過
控制继找。
同樣上述優(yōu)化目標(biāo)不可導(dǎo),仍然利用虛擬的逃沿,來尋找適合的替換物品婴渡。作者定義
表示用戶(在sampler和anchor模型兩個空間幻锁,如果
就是anchor模型空間)的真實序列或者是替換后的行為序列。因此边臼,可以通過優(yōu)化如下圖所示的目標(biāo)來生成反事實序列哄尔。
作者利用softmax來產(chǎn)生候選的。其中
用來控制是soft的選擇還是hard(在softmax中常用的溫度函數(shù)硼瓣,
趨于0究飞,平均選擇各個物品,
趨于無窮堂鲤,類似于
)。
上述優(yōu)化目標(biāo)的
- 第一項媒峡,是在估計sampler model的各種
選擇下瘟栖,anchor模型的平均損失(因為一種行為序列修改修改,sampler模型可能給出不同的
谅阿,按概率平均加權(quán)求和就得到了anchor模型損失的期望)半哟。
- 第二項,保證
與原始物品
足夠相似签餐。
是超參數(shù)寓涨。
值得注意的是,作者表示
- Data-oriente是自底向上的氯檐,模型無關(guān)的戒良;
- Model-oriented是自頂向下的,和業(yè)務(wù)結(jié)合的冠摄,依賴于模型糯崎。
兩者有不同的角色,可以在不同場景中應(yīng)用河泳。
本節(jié)介紹了兩種learning-based的sampler model沃呢,anchor model其實就是普通的序列推薦模型。下節(jié)介紹如何學(xué)習(xí)模型參數(shù)以及作者進行的理論分析拆挥。
心得體會
反事實解釋
從文章的內(nèi)容可以看出薄霜,反事實解釋除了可以用來對模型的預(yù)測結(jié)果進行解釋,幫助客戶理解模型推薦的理由纸兔,增加對推薦系統(tǒng)的信賴度惰瓜。同時,可以幫助開發(fā)人員進行debug食拜。此外鸵熟,還可以作為數(shù)據(jù)增廣的途徑和方式。
腦洞更大一點负甸,反事實解釋可以在決策邊界內(nèi)外游走流强,如果具有較好的可控制性痹届,我們可以進行對抗,增加魯邦打月。同時队腐,控制我們的模型和策略。
大損失樣本
個人感覺奏篙,在利用大損失樣本之前柴淘,首先需要進行數(shù)據(jù)去噪。一般噪聲樣本會有較大的損失秘通,不能夠有效指導(dǎo)模型訓(xùn)練为严。
替換數(shù)量
從全文看,作者只在真實行為序列中替換了一個物品肺稀,即便替換兩個物品的平均改動可能更小第股,也仍然尋找一個。這是方法決定的话原,與其他可以替換多個物品(物品集合)的counterfactual explanation的方法不同夕吻。
文章引用
[1] EhsanAbbasnejad,DamienTeney,AminParvaneh,JavenShi,andAntonvanden Hengel. 2020. Counterfactual vision and language learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10044–10054.
[2] YashGoyal,ZiyanWu,JanErnst,DhruvBatra,DeviParikh,andStefanLee.2019.Counterfactual visual explanations. arXiv preprint arXiv:1904.07451 (2019).
[3] Tsu-Jui Fu, Xin Eric Wang, Matthew F Peterson, Scott T Grafton, Miguel P Eckstein, and William Yang Wang. 2020. Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler. In European Conference on Computer Vision. Springer, 71–86.
[4] Hongchang Gao and Heng Huang. 2018. Self-paced network embedding. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1406–1415.