DIEN 是阿里媽媽在9月份公開的一個點擊率預(yù)估模型婚瓜。論文中提到的技術(shù)點十分值得去研究和嘗試一下。之前做了一個slides刑棵,今天抽時間將它整理出來~
主要從以下幾個角度介紹巴刻。
1. 研究背景
2. 相關(guān)工作及其不足
3. 解決方案
4. 實驗設(shè)置與分析
5. 總結(jié)與思考
研究背景
【目標 - CTR預(yù)估】
論文主要介紹了一種應(yīng)用于CTR預(yù)估的模型。CTR預(yù)估是廣告系統(tǒng)铐望、推薦系統(tǒng)的核心任務(wù)之一冈涧。簡單來說茂附,就是對每次廣告或商品的點擊情況進行預(yù)估正蛙,預(yù)測用戶點擊與否?
【關(guān)鍵 - 對用戶興趣及其演變建模】
- 隱式興趣(latent interest):用戶與系統(tǒng)交互的行為是表達興趣的載體营曼。
- 興趣演變(Interest evolving):受外在環(huán)境與內(nèi)在認知變化的影響乒验,用戶的興趣往往會隨時間不斷變化。以購買衣服為例蒂阱,用戶對興趣的喜好锻全,會隨季節(jié)、時尚風(fēng)潮以及個人品味的變化而變化录煤。
因此鳄厌,想要做好點擊率預(yù)估,必須在挖掘用戶興趣的同時妈踊,抓住用戶興趣的變化過程了嚎!
相關(guān)工作及其不足
準確的CTR預(yù)估需要精細化權(quán)衡用戶、廣告主、平臺三方利益歪泳。經(jīng)過多年的技術(shù)更新迭代與發(fā)展萝勤,CTR預(yù)估技術(shù)經(jīng)歷了從 LR/FM 到 融合模型(RF/GBDT/XGBoost) 到 深度CTR預(yù)估模型(FNN/PNN/WDL/DeepFM/DIN)的過程,而貫穿其中的主線是如何讓模型自動地進行組合特征的挖掘呐伞?
近幾年敌卓,由于神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域表現(xiàn)出強有力的特征表現(xiàn)及組合能力,深度CTR模型層出不窮伶氢,但大多遵從 Embedding + MLP這一基礎(chǔ)網(wǎng)絡(luò)架構(gòu)趟径。
自底向上觀測 Base Model 的工作機制。
- 第一模塊:特征表示鞍历,可將特征大致分為四類:user profile舵抹、user behavior、ad 以及 context 部分劣砍。每一類特征包含多個field惧蛹,如性別、星期幾都屬于不同的field刑枝。逐個對field進行 multi-hot 編碼腻贰。注意黑色框部分,與 one-hot 編碼不同够庙,multi-hot 編碼中嗽元,一個向量可能存在多個 1。
- 第二模塊:嵌入層掠兄,學(xué)習(xí)特征的低維向量表示像云。每一個field都有一個獨立的 embedding matrix。值得注意的是蚂夕,由于每個用戶的歷史行為數(shù)據(jù)各不相同迅诬,因此
的列數(shù)是不確定的。相應(yīng)地也就不能直接與其他field的嵌入向量首尾相接婿牍,作為MLP層的輸入侈贷。
- 第三模塊:pooling 層和鏈接層。對
進行sum pooling等脂,解決維度不定的問題俏蛮。并與其他 field 嵌入向量首尾拼接,作為 MLP 層的輸入 上遥。
- 第四模塊:MLP 層搏屑,自動學(xué)習(xí)高階的組合特征。
Base Model 存在兩點不足:
- 忽略隱式特征的挖掘和表示粉楚。行為是興趣的載體辣恋,能反映興趣,但若直接用行為表示興趣則略有不妥。因為抑党,行為是序列化產(chǎn)生的包警,如果像大部分現(xiàn)有的模型那樣直接采用行為即興趣的做法,會忽略行為之間的依賴關(guān)系底靠。此外害晦,當(dāng)前時刻的興趣往往直接導(dǎo)致了下一行為的發(fā)生。
【本文觀點:(1)在電商平臺中暑中,用戶行為是興趣的載體壹瘟,且是以時間而產(chǎn)生的序列數(shù)據(jù),其間存在的依賴鳄逾、次序隱藏著用戶喜好稻轨。(2)當(dāng)前時刻的興趣直接導(dǎo)致了下一行為的產(chǎn)生】 - 忽略興趣的變化。如之前所講雕凹,用戶的興趣是不斷變化的殴俱。例如用戶對衣服的喜好,會隨季節(jié)枚抵、時尚風(fēng)潮以及個人品味的變化而變化线欲,呈現(xiàn)一種連續(xù)的變遷趨勢。但在淘寶平臺中汽摹,用戶的興趣是豐富多樣的李丰,且每個興趣的演變基本互不影響。此外逼泣,影響最終行為的僅僅是與目標商品相關(guān)的興趣趴泌。
【本文觀點:(1)用戶的興趣呈現(xiàn)序列變遷的趨勢,即隨外在環(huán)境和內(nèi)在認知的變化而變化拉庶。(2)DIN的啟示[1]:淘寶平臺中嗜憔,用戶的興趣是豐富多樣的,但能夠影響用戶行為的僅僅是與目標商品相關(guān)的興趣(attention)砍的。(3)AGRU的啟示[2]:用帶attention機制的GRU對序列行為建模痹筛≥褐危】
解決方案
基于現(xiàn)有模型存在的兩點不足以及論文作者的發(fā)現(xiàn)廓鞠,作者提出了以上網(wǎng)絡(luò)架構(gòu)。
- 輸入層特征的表示谣旁,以及ad床佳、context、user profile這三類特征的低維嵌入向量的學(xué)習(xí)與base model的處理相同榄审。
- 網(wǎng)絡(luò)設(shè)計的亮點在于用behavior layer砌们、interest extractor layer 以及 interest evolving layer從用戶歷史行為中挖掘用戶與目標商品相關(guān)的興趣及演變。
- 優(yōu)化的目標損失函數(shù)采用的是負對數(shù)似然(negative log-likelihood loss ),公式中的
就是網(wǎng)絡(luò)的輸出浪感。
解決方案-Interest Extractor Layer
在 interest extractor layer 用 GRU 結(jié)構(gòu)的 RNN對依時間產(chǎn)生的序列行為建模昔头,捕捉行為之間的依賴,生成的 interest state(
注意:GRU 能避免 RNN 中的梯度消失,且比 LSTM 快
解決方案 - Interest Evolving Layer
興趣是不斷變化的:
- 用戶在某一段時間的喜好具有一定的集中性镶蹋。比如用戶可能在一段時間內(nèi)不斷買書成艘,在另一段時間內(nèi)不斷買衣服。
- 每種興趣都有自己的演變趨勢贺归,不同種類的興趣之間很少相互影響狰腌,例如買書和買衣服的興趣基本互不相關(guān)。
因此采用帶attention機制的GRU(AUGRU)去捕捉與目標商品相關(guān)的興趣及其演變牧氮。
黃色框中琼腔, 是 target ad 的低維嵌入表示。
衡量的是
與
的相關(guān)程度踱葛。
從數(shù)學(xué)公式中可以看出丹莲,AIGRU 激活局部興趣和捕獲興趣演變的過程是相互獨立的。僅僅是用 來影響GRU的輸入尸诽,且即便輸入為 0(無關(guān)的興趣)也還是會對hidden state產(chǎn)生影響甥材。
AGRU用 替代 GRU 的 update gate,直接控制 hidden state 的更新性含。將 attention 機制融入到了捕獲興趣演變的過程中洲赵,一定程度上彌補了 AIGRU 的不足。
但是商蕴,原先 GRU 中控制 hidden state 更新的是一個包含多個維度的向量叠萍,AGRU 用純量替代略有不妥,因此這篇文章設(shè)計了 AUGRU绪商,用 影響
苛谷,再間接影響 hidden state的更新。
實驗設(shè)置與分析
若黃色部分為目標商品格郁,則發(fā)生在它前面的行為為歷史行為(綠色部分)腹殿。而它后面一天的數(shù)據(jù)則用于測試(紅色部分)独悴。
下面實驗著重回答如下問題:
- Q1: 性能是否能超越對比模型?
- Q2: AUGRU是否有效锣尉?
- Q3: auxiliary loss 是否有效刻炒?
- Q4: 對興趣演變的定性分析?(可視化分析)
- Q5: A/B Test 效果?
紅色框中為帶attention機制的模型。
綠色框中為AIGRU自沧、AGRU以及AUGRU之間的對比落蝙。
BaseModel+GRU+AUGRU 與 DIEN 區(qū)別在于是否使用了auxiliary loss。
將屬于8個不同類( Computer Speakers, Headphones, Vehicle GPS, SD & SDHC Cards, Micro SD Cards, External Hard Drives, Headphones, Cases)的行為對應(yīng)的AUGRU的hidden state 向量提取出來暂幼,并用PCA降維將這些向量降低至兩個維度筏勒,最終得以在二維坐標系上表現(xiàn)出來。
- 黃色部分將 attention 的值設(shè)為同一值旺嬉,即忽略目標商品對各個 hidden state 的影響管行。
- 藍色部分選定的目標商品屬于 Screen Protectors 類,與歷史行為中的商品類不相關(guān)邪媳。其 attention score 變化不明顯捐顷,且變化趨勢與黃色部分大致相同。
- 紅色部分選定的目標商品屬于 Cases 類雨效,與歷史行為中的最后一個行為的交互的商品相關(guān)迅涮。因此,最后一個歷史行為的 attention score 得分激增徽龟,hidden state 也被激活叮姑。
總結(jié)與思考
【亮點】
- 關(guān)注隱藏在用戶行為背后的潛在興趣特征的挖掘和表示(GRU + auxiliary loss)
- 淘寶平臺上商品種類繁多,用戶興趣具有多樣性据悔。預(yù)測時传透,僅僅捕獲與目標商品相關(guān)的興趣及其演變(AUGRU)。
關(guān)注隱藏在用戶行為背后的潛在興趣特征的挖掘和表示(GRU + auxiliary loss)
淘寶平臺上商品種類繁多极颓,用戶興趣具有多樣性朱盐。預(yù)測時,僅僅捕獲與目標商品相關(guān)的興趣及其演變(AUGRU)菠隆。
【思考】
- 從實驗結(jié)果上來看兵琳,auxiliary loss 在工業(yè)數(shù)據(jù)集上作用不明顯。主要原因是監(jiān)督興趣學(xué)習(xí)的行為可能與目標商品不一致骇径,若在這一層也采用attention機制躯肌,是否能彌補不足?
參考文獻
[1] Zhou et al. Deep interest network for click-through rate prediction. In KDD. 2018.
[2] He and McAuley. Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering. In www. 2016.