以下僅僅為個人對文章的閱讀記錄,如有錯誤,歡迎指正。如需轉(zhuǎn)載注明來源即可~~ (哈哈哈哈哈,點個贊再走)
Zhang K, Qian H, Cui Q, et al. Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 984-992.
原文鏈接:https://arxiv.org/pdf/2012.06968.pdf
一慨丐、模型簡介與主要貢獻
三類CTR模型:
- 經(jīng)典模型以及淺層的特征交互模型: LR咧纠,F(xiàn)M漆羔、FFM等。
- 深度學(xué)習(xí)為主的高階特征交互模型: WDL狱掂、DCN演痒、DeepFM等。
- 使用RNN以及Attention去挖掘用戶興趣序列推薦模型:DIN趋惨、DIEN等鸟顺。
本文主要研究序列推薦模型。 作者提出器虾,之前的序列推薦模型主要挖掘候選物品有歷史行為之間的聯(lián)系讯嫂,但是忽略了同樣重要的細粒度的用戶具體信息以及上下文信息(fine-grained user-specific and context information)。所以會存在以下問題: - 以往的方法大多是從用戶的歷史行為來探索用戶的興趣曾撤,但由于用戶在電子商務(wù)系統(tǒng)中往往會有與任何歷史行為無關(guān)的新需求端姚,這可能會偏離真實的偏好晕粪,導(dǎo)致對CTR的預(yù)測出現(xiàn)偏差(如圖3 (a))挤悉。
- 在真實的CTR場景中,許多用戶的點擊行為大多發(fā)生在很久以前巫湘,而缺少最近的活動(如圖3 (b))装悲。因此,僅僅依靠歷史尚氛。用戶的行為可能會導(dǎo)致過時的建議诀诊,不符合用戶當前的需求。
- 最后阅嘶,在序列行為編碼方面属瓣,沒有充分考慮不同子空間中特征交互的多樣性,即歷史行為在不同點擊背景下的表現(xiàn)應(yīng)該是不同的讯柔。例如抡蛙,“t恤”可能在“夏季”而不是“冬季”被激活作為用戶的行為表現(xiàn)。
幸運的是魂迄,在許多推薦系統(tǒng)中都存在大量特定于用戶的和上下文的信息粗截。這種細粒度的信息提供了各種線索來推斷用戶的當前狀態(tài),這可以顯著提高個性化推薦的性能捣炬,特別是在歷史行為有限或不具有代表性的情況下熊昌。例如绽榛,在圖1 (b1)中,候選項“機械鍵盤”可能與用戶當前的職業(yè)“程序員”更相關(guān)婿屹,這在歷史行為中很難表現(xiàn)出來灭美。因此,學(xué)習(xí)細粒度的特征交互有助于對用戶當前的參考狀態(tài)進行建模选泻,從而在很大程度上消除了以往序列方法在CTR預(yù)測中的上述缺點冲粤。
所以在本文中,作者提出了Multi-Interactive Attention Network(MIAN)页眯,MIAN可以聚合多種信息梯捕,并通過候選項與其他細粒度特征之間的交互獲得潛在表示。MIAN含有一個Multi-interactive layer窝撵,由三個局部交互模塊和一個全局交互模型哭成傀顾。三個局部交互模型分別是:
- Item-Behaviors Interaction Module(IBIM):它使用Pre-LN Transformer自適應(yīng)地探索不同子空間中順序行為的用戶偏好。
- Item-User Interaction Module(IUIM):旨在捕獲候選項和細粒度的用戶特定信息之間的知識
- Item-Context Interaction Module(ICIM):用于挖掘候選項和上下文感知信息之間的關(guān)系碌奉。
最后 Global Interaction Module (GIM):研究并權(quán)衡嵌入層后的低階特征與三個局部交互模塊生成的高階特征之間的影響短曾。
二、MIAN 模型結(jié)構(gòu)
如下圖所以MIAN模型主要包含以下三層:Embedding Layer赐劣,Multi-Interactive Layer, Prediction Layer.
2.1 Embedding layer
和大多數(shù)序列模型一樣嫉拐,將輸入數(shù)據(jù)分為四部分:candidate item, historical behavior魁兼, user-specific婉徘, 以及 context information。 原始數(shù)據(jù)使用稀疏向量表示:
通過以下方式轉(zhuǎn)化為稠密向量(tips:這里對于連續(xù)型變量沒有做過多的處理):
所以最后有以下表示(candidate item咐汞, historical behavior盖呼, user-specific, 以及 context information):
2.2 Multi-Interactive Layer(MIL)
MIL 以一種有效的方式為候選項和其他信息之間的關(guān)系建模化撕。具體來說几晤,IBIM 通過捕獲用戶興趣偏好的演變序列信息。此外植阴,特定于用戶的信息和上下文信息中的細粒度特性可以通過與IUIM和ICIM中的候選項交互生成更多特性蟹瘾。
2.2.1 Item-Behaviors Interaction Module (IBIM, 圖2a)
IBIM包含了一個修改過了Transformer單元和attention 機制去捕捉用戶的序列信息和候選用戶和歷史行為的交互信息掠手。 如圖2 所示憾朴,本文提出的 Pre-LN Transformer 將Layer Normalization 應(yīng)用在 Multi-head attention 和 position-wise feed-forward network之前。 結(jié)果顯示Pre-LN transformer 具有更快同時具有更穩(wěn)定惨撇。
- Layer Normalization
【特地看了一下Transformer伊脓,他在Multi-head attention之后以及FFN之后都使用了RestNet 和 Layer Norm結(jié)構(gòu)】
-
Position-wise Feed-Forward Network (FFN)
通過以上方式學(xué)習(xí)序列信息。然后引入Candidate item信息,使用attention 機制獲得新的向量报腔。結(jié)合圖來看株搔,先講item表示與每一個向量連接,然后使用attention方式:
最終獲得了最后的表示纯蛾。
2.2.2 Item-User Interaction Module (IUIM)
項目-用戶交互模塊(IUIM)纤房。在真實的CTR預(yù)測場景中,候選項可能與特定于用戶的信息相關(guān)聯(lián)翻诉。由于用戶順序行為中可能缺少用戶的偏好炮姨,因此需要通過用戶特定的信息來彌補這一信息。然而碰煌,大多數(shù)以前的順序方法只關(guān)注挖掘歷史行為舒岸,這導(dǎo)致了一個共同的限制,即芦圾,在沒有順序數(shù)據(jù)的情況下蛾派,它們不能很好地執(zhí)行。為了解決這個問題个少,作者添加了IUIM(圖2 (b))來進一步挖掘候選項和細粒度的用戶特定信息之間的交互洪乍。和上面一部分最后計算的方法相同,也是先連接夜焦,然后再求attention:
2.2.3 Item-Context Interaction Module (ICIM)
對于CTR預(yù)測任務(wù)的研究壳澳,大多對候選項與細粒度上下文信息之間的交互作用關(guān)注較少。而天氣茫经、季節(jié)等上下文信息中的細粒度特征與候選項的活躍性密切相關(guān)巷波。例如,“t恤”在“夏季”銷量激增科平,而“冬季”銷量下降褥紫。因此姜性,將候選項之間的交互和用于CTR預(yù)測的細粒度上下文信息合并起來是很有價值的瞪慧。與IUIM體系結(jié)構(gòu)類似,我們引入ICIM來量化該因素的重要性部念。
2.2.4 Global Interaction Module (GIM)
為了充分利用低階和高階特征之間的交互作用弃酌。如圖2 (d)所示,全局交互模塊被設(shè)計成明確地捕獲原始特征(即儡炼,低階)和生成的交互特征(即妓湘,高階)之間的關(guān)系。利用注意力機制提取不同交互模塊和原始嵌入的重要性乌询。計算過程如下:
2.3 預(yù)測層
通過 DNN 和softmax 來計算最后的結(jié)果榜贴。
三、實驗分析
數(shù)據(jù)集 (這里41 應(yīng)該寫錯了吧):
3.1 離線實驗分析
結(jié)果是好的妹田,不做過多分析唬党。不過這里的Baseline有點弱鹃共。
3.2 模型效率分析
沒有給出圖。指出 LR<WDL<DeepFM<xDeepFM<DIN<DIEN驶拱,而在Amazon數(shù)據(jù)集上霜浴, MIAN每個epoch時間為3700秒,DIN 3143秒蓝纲,DIEN 4073秒阴孟。主要是因為 MIAN使用了Pre-LN transformer,所以比DIN時間長税迷。而DIEN使用了更加耗時的GRU永丝。
3.3 線上A/B測試
3.4 消融分析
(1)逐步取消各個模塊
(2) 將Pre-LN Transformer 原始的Transformer進行對比。同時對比運行效率箭养。
3.5 可視化分析
對Global Interaction Module進行分析类溢。主要給出了14個樣本最后的attention參數(shù)÷独粒可以看出高階信息的權(quán)重更大闯冷。
四、個人小結(jié)
序列部分的處理還有可能優(yōu)點弱懈词。其實以前DIN蛇耀、DIEN、DSTN坎弯、DHAN等序列在處理User-psecific或者Context 信息的時候一般使用Pooling(max or average)的方式纺涤,主要挖缺歷史行為中的用戶興趣信息。MIAN則是加強了序列模型中的特征交互信息抠忘。