因果推斷推薦系統(tǒng)工具箱 - CASR(一)

文章名稱(chēng)

【SIGIR-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods】Counterfactual Data-Augmented Sequential Recommendation

核心要點(diǎn)

文章旨在利用反事實(shí)數(shù)據(jù)生成的方法岳颇,解決Session-Based推薦場(chǎng)景下數(shù)據(jù)稀疏限制模型性能的問(wèn)題。作者提出CASR框架,包含3種增廣序列生成的sampler model,以及傳統(tǒng)的序列推薦模型anchor model用于生成最終的推薦列表。Sampler model是整個(gè)框架的關(guān)鍵容为,其中一種是簡(jiǎn)單的隨機(jī)替換模型,另外兩種是面向數(shù)據(jù)和面向模型的序列生成模型。面向數(shù)據(jù)的模型會(huì)生成處在決策邊界附近的反事實(shí)序列原献,而面向模型的方法則會(huì)以最大化提供給anchor model的信息為目標(biāo)生成反事實(shí)序列。

方法細(xì)節(jié)

問(wèn)題引入

基于用戶(hù)行為序列推薦模型在各種推薦場(chǎng)景都取得了一定的成功埂淮,此類(lèi)模型的本質(zhì)是學(xué)習(xí)到兩個(gè)或者多個(gè)物品在用戶(hù)行為序列中共同出現(xiàn)的聯(lián)合分布姑隅,并以此作為推斷依據(jù),為用戶(hù)推薦下一個(gè)物品倔撞。因此讲仰,高質(zhì)量的行為序列(訓(xùn)練數(shù)據(jù))對(duì)基于序列的推薦模型尤為重要。然而痪蝇,行為序列往往是稀疏的鄙陡。如下圖所示,用戶(hù)按順序購(gòu)買(mǎi)了相機(jī)躏啰,電池和充電器趁矾,這條行為被記錄了下來(lái),但存在許多其他(可能的)合理的行為序列并沒(méi)有被記錄下來(lái)(只是沒(méi)有被觀測(cè)到给僵,但其實(shí)是可能發(fā)生的)毫捣。例如,用戶(hù)可能按順序購(gòu)買(mǎi)相機(jī)帝际、支架蔓同、交卷和相冊(cè)等。這些沒(méi)有被觀測(cè)到的蹲诀、有用的行為序列被作者稱(chēng)為反事實(shí)行為序列斑粱,利用這些行為序列,想要回答的問(wèn)題是:如果用戶(hù)行為發(fā)生變化脯爪,那么他/她會(huì)買(mǎi)什么珊佣?這是典型的模擬人的推理方式的方法,通過(guò)折后在那個(gè)模擬可以幫助模型學(xué)習(xí)更多有用信息披粟,提升性能咒锻。

An illustration of framework for CASR

具體做法

首先,形式化序列推薦的問(wèn)題守屉,

  • 用戶(hù)集合為\mathcal{U} = \{ u_1, u_2, ..., u_{N} \}惑艇,物品集合為\mathcal{I} = \{t_1, t_2, ..., t_{M}\}
  • 對(duì)用戶(hù)u的推薦結(jié)果為rec,其反事實(shí)推薦結(jié)果為rec^*滨巴,表示修改用戶(hù)行為后思灌,可以被替換的物品;
  • 用戶(hù)u_i的歷史行為集合記作\mathcal{T} = \{ (\{ u_i, t_i^1, ..., t_i^{l_i} \}, t_i^{l_i+1}) \}_{i=1}^{N} = \{ \textbf{T}_i, t_i^{l_i+1}\}_{i=1}^{N}恭取,其中t_i^k表示用戶(hù)在k時(shí)刻交互的物品泰偿;
  • 序列推薦模型的目標(biāo)是基于\{ \mathcal{ U }, \mathcal{I}, \mathcal{T} \}(所有訓(xùn)練數(shù)據(jù)),準(zhǔn)確預(yù)測(cè)每一個(gè)用戶(hù)的下一個(gè)物品\{ t_i^{l_i+1}\}_{i=1}^{N}(以及用戶(hù)未來(lái)的偏好)蜈垮;
  • 序列推薦模型可以用\mathcal{ A}表示耗跛。通常通過(guò)優(yōu)化如下目標(biāo),來(lái)得到模型參數(shù)攒发。在大規(guī)模物品集合的場(chǎng)景下调塌,一般采用負(fù)采樣或sample softmax的方法減少計(jì)算復(fù)雜度,其中惠猿,\mathcal{T}^- = \{ (\{ u_i, t_i^1, ..., t_i^{l_i} \}, t_i^{l_i+1}) \}_{i=1}^{N}為負(fù)采樣的行為序列羔砾,若t_i^{l_i+1}出現(xiàn)在用戶(hù)歷史行為中,則y_i為1偶妖,否則為0姜凄。
    crossentropy loss

從上圖也可以看出,CASR框架分為2個(gè)重要部分趾访,

  • Sampler model态秧。用于生成反事實(shí)序列。
  • Anchor model腹缩。用于產(chǎn)生出推薦結(jié)果。

如上所述空扎,其中核心是sampler model藏鹊。作者提出了3種sampler model。

Heuristic Sampler

作者提出基于啟發(fā)的sampler model作為基線转锈,其基本步驟是盘寡,

  • 隨機(jī)采樣物品t^a,替換用戶(hù)行為序列中的某個(gè)物品撮慨,目標(biāo)物品t^d(這里ad分別表示替換的物品和行為序列物品(的標(biāo)號(hào))竿痰,稍微有點(diǎn)歧義的是,a不是個(gè)標(biāo)號(hào)砌溺,而d是原始序列的標(biāo)號(hào))影涉;
  • 利用sampler model尋找物品使得似然最大,即選擇滿(mǎn)足如下圖所示條件的最優(yōu)物品\hat{t}^{l+1}规伐。
    Heuristic Sampler Loss

這樣的方法顯然太簡(jiǎn)單的蟹倾,隨機(jī)采樣給了太多的自由度,帶來(lái)了太多的隨機(jī)性。并且[6, 7, 29]的研究表示鲜棠,不同的樣本對(duì)模型優(yōu)化而言肌厨,應(yīng)該具有不同的重要性。因此豁陆,需要更合理的sampler model柑爸。

本節(jié)介紹了,文章需要解決的額問(wèn)題背景盒音,方法框架以及簡(jiǎn)單的sampler model表鳍。下節(jié)繼續(xù)介紹更合理的sampler model以及anchor model。

心得體會(huì)

Heuristic Sampler

個(gè)人感覺(jué)里逆,Heuristic Sampler有點(diǎn)悖論进胯,既然sampler model可以做到最大似然,那么anchor模型和sampler model的本質(zhì)區(qū)別就比較小原押。并且胁镐,作者提到兩個(gè)模型都是利用原始的dataset進(jìn)行預(yù)訓(xùn)練的,區(qū)別就更小了诸衔。

文章引用

[1] Tsu-Jui Fu, Xin Eric Wang, Matthew F Peterson, Scott T Grafton, Miguel P Eckstein, and William Yang Wang. 2020. Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler. In European Conference on Computer Vision. Springer, 71–86.

[2] Hongchang Gao and Heng Huang. 2018. Self-paced network embedding. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1406–1415.

[29] JunWang,LantaoYu,WeinanZhang,YuGong,YinghuiXu,BenyouWang,Peng Zhang, and Dell Zhang. 2017. Irgan: A minimax game for unifying generative and discriminative information retrieval models. In Proceedings of the 40th In- ternational ACM SIGIR conference on Research and Development in Information Retrieval. 515–524.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載盯漂,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末笨农,一起剝皮案震驚了整個(gè)濱河市就缆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谒亦,老刑警劉巖竭宰,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異份招,居然都是意外死亡切揭,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)锁摔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)廓旬,“玉大人,你說(shuō)我怎么就攤上這事谐腰≡斜” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵十气,是天一觀的道長(zhǎng)励背。 經(jīng)常有香客問(wèn)我,道長(zhǎng)砸西,這世上最難降的妖魔是什么椅野? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上竟闪,老公的妹妹穿的比我還像新娘离福。我一直安慰自己,他們只是感情好炼蛤,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布妖爷。 她就那樣靜靜地躺著,像睡著了一般理朋。 火紅的嫁衣襯著肌膚如雪絮识。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,268評(píng)論 1 309
  • 那天嗽上,我揣著相機(jī)與錄音次舌,去河邊找鬼。 笑死兽愤,一個(gè)胖子當(dāng)著我的面吹牛彼念,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播浅萧,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼逐沙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了洼畅?” 一聲冷哼從身側(cè)響起吩案,我...
    開(kāi)封第一講書(shū)人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎帝簇,沒(méi)想到半個(gè)月后徘郭,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡丧肴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年残揉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闪湾。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡冲甘,死狀恐怖绩卤,靈堂內(nèi)的尸體忽然破棺而出途样,到底是詐尸還是另有隱情,我是刑警寧澤濒憋,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布何暇,位于F島的核電站,受9級(jí)特大地震影響凛驮,放射性物質(zhì)發(fā)生泄漏裆站。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宏胯。 院中可真熱鬧羽嫡,春花似錦、人聲如沸肩袍。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)氛赐。三九已至魂爪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間艰管,已是汗流浹背滓侍。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留牲芋,地道東北人撩笆。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像街图,于是被迫代替她去往敵國(guó)和親浇衬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容