DIEN:Deep Interest Evolution Network for Click-Through Rate Prediction論文筆記

Deep Interest Evolution Network for Click-Through Rate Prediction

論文地址:Deep Interest Evolution Network for Click-Through Rate Prediction

摘要

??點(diǎn)擊率預(yù)估的目標(biāo)是評估用戶點(diǎn)擊的可能性恩伺,這是廣告系統(tǒng)的核心之一邻储。對于CTR預(yù)估模型消返,需要捕捉用戶行為數(shù)據(jù)背后的用戶興趣。另外民泵,考慮到外部環(huán)境和內(nèi)部感知的變化,用戶興趣也會隨著時間動態(tài)變化。興趣建模的CTR模型有幾種爬凑,其中大多數(shù)是將行為的表現(xiàn)直接視為興趣级解,而缺乏對具體行為背后的潛在興趣進(jìn)行建模冒黑。此外,幾乎沒有研究考慮興趣的變化勤哗。在本文中提出一種新穎的CTR模型:Deep Interest Evolu-tion Network (DIEN)抡爹。具體來說,設(shè)計了興趣提取層(interest extractor layer )從歷史行為序列中捕捉暫時的興趣芒划。在這一層冬竟,我們引入輔助損失(auxiliary loss)來監(jiān)督每一個興趣提取。由于用戶的興趣多的多樣性腊状,尤其是電子商務(wù)中诱咏,我們提出了興趣進(jìn)化層(interest evolving layer)來捕捉在給定item下的用戶興趣進(jìn)化過程。在興趣進(jìn)化層缴挖,attention機(jī)制被新穎的嵌入到順序結(jié)構(gòu)中袋狞,使得相關(guān)興趣的作用在興趣進(jìn)化過程中得到加強(qiáng)。在公共和工業(yè)數(shù)據(jù)集的實(shí)驗(yàn)中,DIEN明顯優(yōu)于迄今為止的解決方案苟鸯。值得注意的是同蜻,DIEN已經(jīng)部署到淘寶的展示廣告體系中,CTR提高了20%早处。

簡介

??CPC(Cost per click)計費(fèi)方式是廣告系統(tǒng)中最常見的計費(fèi)方式之一湾蔓,廣告客戶為廣告的每次點(diǎn)擊進(jìn)行付費(fèi)。在CPC廣告體系中砌梆,CTR預(yù)估不僅影響整個平臺的最終收入默责,而且還影響著用戶體驗(yàn)。CTR預(yù)估模型在工業(yè)界和學(xué)術(shù)界得到越來越多的關(guān)注咸包。

??在大多非搜索的電子商務(wù)場景中桃序,用戶不會主動的表達(dá)其當(dāng)前意圖。設(shè)計模型捕捉用戶的興趣和其變化是提高CTR模型性能的關(guān)鍵烂瘫。最近媒熊,許多CTR模型已經(jīng)由傳統(tǒng)的方法論轉(zhuǎn)換到深度方法論。許多深度CTR模型關(guān)注捕捉不同領(lǐng)域特征之間的交互坟比,而較少關(guān)注用戶的興趣表示芦鳍。DIN強(qiáng)調(diào)了用戶興趣的多樣性,它使用attention機(jī)制來捕捉給定item下的相關(guān)興趣葛账,獲得興趣的自適應(yīng)性的表示柠衅。然而,包括DIN在內(nèi)的很多模型都是直接將用戶行為視為興趣注竿,而很難通用戶展示的行為來體現(xiàn)潛在的興趣茄茁。先前的方法忽略了挖掘行為背后的用戶真正的興趣。此外巩割,用戶的興趣不斷變化裙顽,捕捉用戶的興趣的動態(tài)變化是很重要的。

??基于這么觀察宣谈,本文提出DIEN模型愈犹。DIEN中有兩個關(guān)鍵模塊,一個是從用戶的顯示行為中捕捉用戶的暫時興趣闻丑,另外一個是對用戶興趣進(jìn)化進(jìn)行建模漩怎。正確的興趣表示是建模興趣變化的基礎(chǔ)。在興趣抽取層嗦嗡,DIEN采用GRU對行為之間依賴關(guān)系進(jìn)行建模勋锤。遵循的原則是興趣直接導(dǎo)致了連續(xù)的行為,提出輔助損失侥祭,即用用戶的下一個行為來監(jiān)督當(dāng)前的隱藏狀態(tài)叁执。稱這些額外監(jiān)督的隱藏狀態(tài)為興趣狀態(tài)茄厘。這些額外的監(jiān)督信息有助于捕捉更多興趣表征的語義含義和推動GRU隱藏狀態(tài)有效的表示興趣。此外谈宛,用戶的興趣是多樣性的次哈,這導(dǎo)致了興趣漂移現(xiàn)象:相鄰的訪問行為中用戶的意圖可能非常不同,一個用戶行為可能依賴于很久之前的行為吆录。每個興趣都有自己的進(jìn)化軌跡窑滞。同時,一個用戶的對不同候選item的點(diǎn)擊動作受不同興趣的部分影響恢筝。在內(nèi)部的進(jìn)化層哀卫,對特定item相關(guān)的興趣進(jìn)化軌跡進(jìn)行建模∽烫瘢基于興趣提取層的興趣序列聊训,設(shè)計了AUGRU( GRU withattentional update gate)。使用興趣狀態(tài)(就是帶監(jiān)督狀態(tài)的GUR隱藏狀態(tài))和目標(biāo)item計算相關(guān)性恢氯,AUGRU增強(qiáng)了興趣進(jìn)化層的興趣影響,弱化了由于興趣漂移而產(chǎn)生的不相關(guān)的興趣影響鼓寺。將attention機(jī)制引入到更新門之中勋拟,AUGRU可以導(dǎo)致針對不同目標(biāo)item而產(chǎn)生不同興趣的進(jìn)化過程。

DIEN的主要貢獻(xiàn)如下:

  • 本文關(guān)注電子商務(wù)中的興趣進(jìn)化現(xiàn)象妈候,并提出新的網(wǎng)絡(luò)結(jié)構(gòu)來模擬興趣進(jìn)化的過程敢靡。興趣進(jìn)化層可帶來更具有表現(xiàn)力的興趣表示和更準(zhǔn)確的CTR預(yù)估。
  • 與直接將行為做完興趣不同苦银,設(shè)計了興趣提取層啸胧。針對GRU的隱藏狀態(tài)對內(nèi)部表示較差問題,突出了輔助損失幔虏。輔助損失利用連續(xù)的行為來監(jiān)督隱藏狀態(tài)的每一步學(xué)習(xí)纺念,這使得隱藏狀態(tài)更加的表示潛在的興趣。
  • 設(shè)計了興趣進(jìn)化層想括,AUGRU更加有效的模擬與目標(biāo)item相關(guān)的興趣進(jìn)化過程陷谱。

??在公共和工業(yè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),DIEN的性能是最優(yōu)的瑟蜈。并且DIEN已經(jīng)部署在淘寶的展示廣告中烟逊,在各種指標(biāo)下獲得顯著的提升。

相關(guān)工作

?? 憑借深度學(xué)習(xí)對特征的表示和組合的強(qiáng)大能力铺根,最近傳統(tǒng)的CTR模型由傳統(tǒng)的線性或者非線性模型轉(zhuǎn)變?yōu)樯疃饶P拖芮4蠖鄶?shù)的深度模型都是Embedding+MLP的結(jié)構(gòu)∥挥兀基于這種規(guī)則访雪,越來越多的模型關(guān)注特征之間的相關(guān)關(guān)系予颤。Wide&Deep和DeepFM模型都是結(jié)合低階和高階的特征來提高表示能力;PNN (Qu et al. 2016) 提出一個product layer 來捕捉類別之間的交互方式冬阳。然而這些方式都沒有反應(yīng)數(shù)據(jù)背后的興趣蛤虐。DIN(Zhou et al. 2018c)引入了attention機(jī)制在跟定item下的去激活歷史的行為,成功的捕獲到用戶興趣的多樣性肝陪。然而DIN在捕捉用戶行為順序之間的依賴性很弱驳庭。
?? 在很多場景下,用戶和項目的交互可以隨著時間變化而記錄下來氯窍。這些信息可以建立更豐富的個人模型和發(fā)現(xiàn)更多的行為模式饲常。在推薦系統(tǒng)中, TDSSM(Song, Elkahky, and He2016)共同優(yōu)化長期和短期的用戶興趣來提高推薦質(zhì)量狼讨; DREAM(Yuet al. 2016) 使用RNN結(jié)果來研究每個用戶的動態(tài)表示和item的購買全局序列贝淤。He and McAuley(2016)建立了視覺感知推薦系統(tǒng),該系統(tǒng)會發(fā)現(xiàn)與用戶和社區(qū)不斷發(fā)展的興趣更加匹配的產(chǎn)品政供。Zhang et al(2014)根據(jù)用戶的興趣序列來衡量用戶的相似度播聪,提高的協(xié)同過濾的推薦效果。Parsanaet al(2018)通過使用大規(guī)模的事件embedding和RNN網(wǎng)絡(luò)的attention輸出來提高原生廣告的CTR布隔。ATRank(Zhou et al. 2018a)使用基于attention機(jī)制的順序框架來對異構(gòu)行為建模离陶。與不采用序列的方法相比,這些方法可以顯著提高預(yù)測準(zhǔn)確性衅檀。
?? 然而招刨,這些傳統(tǒng)的基于RNN模型存在一些問題。一方面哀军,它們大多數(shù)都是將順序序列的隱藏狀態(tài)直接視為潛在興趣沉眶,而這些隱藏狀態(tài)又缺乏對興趣表示的特殊監(jiān)督。另一方面杉适,大多基于RNN模型平等的處理相鄰行為的之間的依賴關(guān)系谎倔。眾所周知,并非所有的用戶行為都嚴(yán)格依賴于每個相鄰的行為淘衙。每個用戶都有不同的興趣传藏,每一個興趣都有自己的進(jìn)化軌跡。對于任何給定item彤守,這些模型只能獲得一個固定的興趣進(jìn)化軌跡毯侦,因此這些模型可能受到興趣漂移的影響。

?? 為了使得順序結(jié)構(gòu)的隱藏狀態(tài)有效的表示潛在興趣具垫,應(yīng)該對隱藏狀態(tài)進(jìn)行額外的監(jiān)督侈离。DARNN(Ren et al.2018)使用點(diǎn)擊級別的序列預(yù)測,對每次向用戶展示廣告時的點(diǎn)擊動作建模筝蚕。除了點(diǎn)擊動作卦碾,還可以引入排名信息铺坞。在推薦系統(tǒng)中,rank損失已經(jīng)被廣泛的使用洲胖。與rank損失相似济榨,本文提出興趣學(xué)習(xí)的輔助損失。在每一步绿映,輔助損失采用點(diǎn)擊的item去對抗不點(diǎn)擊的item的方式 來監(jiān)督興趣學(xué)習(xí)的表示擒滑。
?? 為了捕捉與給定item相關(guān)的興趣的進(jìn)化過程,需要更加靈活的順序結(jié)構(gòu)叉弦。在問答領(lǐng)域丐一,DMN+(Xiong, Merity,and Socher 2016)使用了基于attention的GRU(AGRU)來推動注意力機(jī)制去感知輸入的順序和順序,在AGRU中更新門的向量簡單的用attention的分值來代替淹冰。這種替換忽略的更新門中所有維度中的差異库车,這些差異包含了先前序列中帶來的豐富信息。受到QA中新穎的順序序列啟發(fā)樱拴,本文提出基于attention門的GRU(AUGRU)柠衍,用于激活興趣進(jìn)化中的相關(guān)興趣。與AGRU不同疹鳄,AUGRU中的attention分值用來計算更新門的計算信息拧略。更新門和attention分值的結(jié)合推動了更具體更敏感的興趣進(jìn)化過程。

DIEN

??接下來詳細(xì)的介紹DIEN(Deep Interest Evolution Network)瘪弓。首先,回顧一下基于深度的CTR模型禽最,命名為\color{red}{BaseModel}腺怯。然后,介紹DIEN的整體結(jié)構(gòu)和用于捕捉用戶興趣和對興趣進(jìn)化過程建模的技術(shù)川无。

Review of BaseMode

??從特征表示呛占、模型結(jié)構(gòu)、損失函數(shù)三方方面來回顧BaseModel懦趋。
特征表示:在我們的在線展示廣告系統(tǒng)中晾虑,分為四類特征:用戶信息、用戶行為仅叫、廣告帜篇、上下文信息。顯然廣告也是item诫咱。為了便捷笙隙,我們這里把廣告作為目標(biāo)item。每個類型的特征都有多個字段(fields)坎缭。用戶信息的字段包括性別竟痰、年齡等等签钩;用戶行為的字段包括用戶訪問過的商品id;廣告的字段包括廣告id坏快、商品id等铅檩;上下文的字段是時間之類的。每個特征可以編碼為one-hot的形式莽鸿,例如用戶信息中的女性可以編碼為[0,1]昧旨。用戶信息、用戶行為富拗、廣告臼予、上下文的特征onehot集合可以分別用x_p,x_b,x_a,x_c來表示。在CTR序列模型中啃沪,值得注意的是每一個字段(這里我認(rèn)為是每一個樣本)都包含行為列表粘拾,每一個行為對應(yīng)這onehot變量,可以用x_b=[b_1;b_2;...;b_T] \in \mathbb{R}^{K \times T} , b_t \in \{0,1\}^K來表示,其中b_t表示第t個行為的onehot向量表示创千,\color{red}{T}表示用戶歷史行為數(shù)缰雇,\color{red}{K}表示的是用戶可以點(diǎn)擊的總商品數(shù)。
模型結(jié)構(gòu):大多數(shù)CTR深度模型都是基于embedding & MLP的追驴,基礎(chǔ)結(jié)構(gòu)由以下幾部分組成:

  • Embedding,embedding是將高維稀疏特征轉(zhuǎn)為低維稠密特征的常用操作械哟。在embedding層,特征的每一個字段對應(yīng)一個embedding矩陣殿雪。例如暇咆,訪問過的商品的embedding矩陣為E_{goods}=[m_1;m_2;...;m_k] \in \mathbb{R}^{n_E \times K },這里m_j \in \mathbb{R}^{n_E}表示的事n_E維的embedding向量丙曙。特別的爸业,如果b_t[j_t]=1,對于行為特征b_t相應(yīng)的embedding向量為m_{jt},一個用戶的有序的embedding向量列表可以表為e_b=[m_{j1};m_{j2};...;m_{jT}]亏镰。同樣的扯旷,e_a表是的廣告類別的特征embedding向量。
  • Multilayer Perceptron(MLP)索抓,首先將一個類別的特征喂到池化操作钧忽,然后將不同類別的池化向量連接起來,最后將連接的向量喂到MLP進(jìn)行預(yù)測逼肯。

損失函數(shù):在CTR深度模型中廣泛使用的損失函數(shù)是負(fù)對數(shù)似然函數(shù)耸黑,使用label來監(jiān)督整體的預(yù)測:L_{target}= - \frac{1}{N} \sum_{(x,y) \in \mathcal{D}}^{N} (y \log{p(x)}+(1-y) \log(1-p(x))) \tag{1},這里x=[x_p,x_a,x_c,x_b] \in \mathcal{D},\mathcal{D}是大小為N的訓(xùn)練集汉矿。y \in {0,1}表示是用戶是否點(diǎn)擊目標(biāo)item崎坊。p(x)是網(wǎng)絡(luò)的輸出,表示的是用戶點(diǎn)擊目標(biāo)item的概率洲拇。

Deep Interest Evolution Network

DIEN結(jié)構(gòu)

??不同于付費(fèi)搜索奈揍,在許多類似在線展示廣告的電子商務(wù)平臺上曲尸,用戶不能清楚表達(dá)他們的意圖,因此捕捉用戶的興趣對提高CTR準(zhǔn)確性至關(guān)重要男翰。DIEN致力于捕捉用戶興趣和對興趣進(jìn)化過程進(jìn)行建模另患。如圖1展示的,DIEN分為一下幾個部分蛾绎。首先昆箕,所有的類別特征通過embedding層進(jìn)行轉(zhuǎn)化。然后租冠,DIEN采用2步來捕捉用戶進(jìn)化過程:興趣提取層基于用戶行為序列抽取興趣序列鹏倘;興趣進(jìn)化層模擬了相對于目標(biāo)item下的興趣進(jìn)化過程。最后顽爹,最終的興趣表示和廣告纤泵、用戶信息、上下文的embedding向量進(jìn)行拼接镜粤。拼接的向量最后喂到MLP中進(jìn)行最后的預(yù)測捏题。接下來分別介紹興趣提取層和興趣進(jìn)化層。

Interest Extractor Layer

興趣提取層肉渴。在電子商務(wù)系統(tǒng)中公荧,用戶行為是用戶潛在興趣的載體,用戶采取一個行為后興趣也會發(fā)生變化同规。在興趣提取層循狰,從用戶的行為序列中提取一系列的興趣狀態(tài)。
?? 電子商務(wù)系統(tǒng)中用戶的行為是豐富的券勺,在短時間內(nèi)(例如兩周)就會產(chǎn)生很長的用戶歷史行為晤揣。為了平衡效率和性能,采用GRU對行為之間的依賴關(guān)系進(jìn)行建模朱灿,其中GRU的輸入是按行為發(fā)生的時間順序。GRU克服了RNN梯度消失的問題钠四,并且比LSTM更快盗扒。GRU的公式如下:
u_t= \sigma(W^u i_t+U^u h_{t-1} +b^u ) \tag{2}
r_t = \sigma(W^r i_t + U^r h_{t-1} + b^r) \tag{3}
\tilde{h_t} = \tanh(W^h i_t + r_t \circ U^h h_{t-1} +b^h) \tag{4}
h_t = (1-u_t) \circ h_{t-1} + u_t \circ \tilde{h_t} \tag{5}
這里\sigma是sigmoid激活函數(shù),\circ 是元素積(element-wise product)缀去,W^u,W^r,W^h \in \mathbb{R}^{n_H \times n_I} ,U^u,U^r,U^h \in \mathbb{R}^{n_H \times n_H} ,n_H是隱藏層大小,n_i是輸入層大小侣灶。i_t是GRU的輸入,i_t=e_b[t]表示的用戶第t個行為embedding向量缕碎,h_t表示的第t個隱藏狀態(tài)褥影。

GUR結(jié)構(gòu):


GRU結(jié)構(gòu)

GRU公式結(jié)構(gòu)圖

元素積element-wise product:
向量元素積。m維與n維的元素積變成m * n維矩陣咏雌。n維與n維的元素積變成n維向量凡怎。
矩陣元素積校焦。m * n維矩陣與m * n維矩陣的元素積變成m * n維矩陣
x \circ y = \left[ \begin{matrix} x_1 & \dots & x_n \end{matrix} \right] \left[ \begin{matrix} y_1 & \dots & y_n \end{matrix} \right] = \left[ \begin{matrix} x_1 y_1 & \dots & x_n y_n \end{matrix} \right]
x \circ y = \left[ \begin{matrix} x_1 & \dots & x_n \end{matrix} \right] \left[ \begin{matrix} y_1 \\ \dots \\ y_m \end{matrix} \right] = \left[ \begin{matrix} x_1 y_1 & \dots & x_n y_1 \\ \dots & \dots & \dots \\ x_1 y_m & \dots & x_n y_m \\ \end{matrix} \right]
x \circ y = \left[ \begin{matrix} x_{11} & \dots & x_{1n} \\ \dots & \dots & \dots \\ x_{m1} & \dots & x_{mn} \end{matrix} \right] \left[ \begin{matrix} y_{11} & \dots & y_{1n} \\ \dots & \dots & \dots \\ y_{m1} & \dots & y_{mn} \end{matrix} \right] = \left[ \begin{matrix} x_{11}y_{11} & \dots & x_{1n}y_{1n} \\ \dots & \dots & \dots \\ x_{m1}y_{m1} & \dots & x_{mn}y_{mn} \\ \end{matrix} \right]

?? 然而,僅僅捕獲行為之間的依賴關(guān)系是不能有效的表示興趣的统倒。如果item的點(diǎn)擊行為是有最終的興趣觸發(fā)的寨典,在L_{target}中使用的label只包含監(jiān)督最終興趣的事實(shí),然而歷史狀態(tài)h_t無法得到適當(dāng)?shù)谋O(jiān)督房匆。眾所周知耸成,每一步興趣狀態(tài)都直接引起連續(xù)的行為。因此提出輔助損失浴鸿,使用b_{t+1}來監(jiān)督興趣狀態(tài)的h_t井氢。除了使用實(shí)際的下一個行為做完正例,還從數(shù)據(jù)集中抽取的了負(fù)例岳链。N對行為embedding序列:\{ e_b^i , \hat{e}_b^i \} \in \mathcal{D}_\mathcal{B} , i \in 1,2,\dots,N,這里e_b^i \in \mathbb{R}^{\times n_E}表示點(diǎn)擊的行為序列 花竞,\hat{e}_b^i \in \mathbb{R}^{\times n_E}表示沒有點(diǎn)擊的行為序列 。T是歷史行為數(shù)宠页,n_E表embedding維數(shù)左胞,e_b^i[t] \in \mathcal{G}表示用戶i點(diǎn)擊第t個item的embedding向量,\hat{e}_b^i \in \mathcal{G} - e_b^i[t]表示的是除用戶i在第t步單擊的item外,從數(shù)據(jù)集中采樣的item的embedding向量举户。
輔助損失函數(shù)公式如下:
L_{aux} = - \frac{1}{N}(\sum_{i=1}^{N} \sum_t \log \sigma(h_t^i ,e_b^i[t+1])\\ + \log(1-\sigma(h_t^i ,\hat{e}_b^i[t+1]) )) \tag{6}
這里\sigma(x_1,x_2)=\frac{1}{1+exp(-[x_1,x_2])}是sigmoid激活函數(shù)烤宙,h_t^i表是的用戶i的第t個隱藏狀態(tài)。所以俭嘁,DIEN使用的整體的損失函數(shù)是:
L =L_{target} + \alpha \ast L_{aux} \tag{7}
這里\alpha是平衡興趣表示和CTR預(yù)估的超參數(shù)躺枕。

?? 在輔助損失的的幫助下,每一個隱藏狀態(tài)h_t用戶采取行為i_t后的興趣狀態(tài)供填。連接T個興趣點(diǎn)[h_1,h_2,\dots,h_t]組成興趣序列拐云,興趣進(jìn)化層可以在此基礎(chǔ)上進(jìn)行對興趣進(jìn)化進(jìn)行建模。

?? 總的來說引入輔助損失有幾個優(yōu)點(diǎn):從興趣學(xué)習(xí)的角度來看近她,輔助損失可以幫助GRU的隱藏狀態(tài)表示用戶興趣叉瘩。對于GRU的優(yōu)化,當(dāng)GRU模擬長歷史行為序列時粘捎,輔助損失降低了反向傳播的難度(why???)薇缅。最后,輔助損失為embedding層提供了更多的語義信息攒磨,可以產(chǎn)生更好的embedding矩陣泳桦。

Interest Evolving Laye

興趣進(jìn)化層。隨著外部環(huán)境和內(nèi)部認(rèn)知共同影響娩缰,用戶的不同興趣隨著時間變化而變化灸撰。以服裝興趣為例,隨著人們流向趨勢和用戶品味發(fā)生變化,用戶對衣服的偏好也隨之變化浮毯。用戶對衣服的興趣的進(jìn)化過程直接決定了候選衣服的CTR預(yù)估完疫。建立興趣進(jìn)化過程模型有以下優(yōu)點(diǎn):

  • 興趣進(jìn)化模塊可以為最終的興趣表示提供更多的歷史信息。
  • 利用興趣進(jìn)化趨勢能更好的預(yù)估候選item的CTR

要注意的是興趣進(jìn)化過程中表現(xiàn)以下2個特點(diǎn)亲轨。

  • 因?yàn)榕d趣的多樣性趋惨,興趣可以發(fā)生漂移。興趣漂移對用戶行為的影響就是用戶在一短時間內(nèi)對書感興趣惦蚊,在另外一段時間內(nèi)又需要衣服器虾。
  • 雖然興趣之間可以互相影響,但是每種興趣都有自己的進(jìn)化過程蹦锋。例如兆沙,書和衣服的興趣進(jìn)化過程幾乎是獨(dú)立的。我們只關(guān)注與目標(biāo)item相關(guān)的興趣進(jìn)化過程莉掂。

?? 在第一個階段葛圃,在輔助損失的幫助下,我們已經(jīng)獲得興趣序列的表達(dá)形式憎妙。通過分析興趣進(jìn)過的特征库正,結(jié)合attention機(jī)制中的局部激活能和GRU序列學(xué)習(xí)能力來對興趣進(jìn)化過程進(jìn)行建模。GRU中每一個步中的局部激活可以增加對相關(guān)興趣的興趣厘唾,減弱興趣漂移帶來的影響褥符,這有助于對特定item下的興趣進(jìn)化過程進(jìn)行建模。

?? 與上述公式2-5相似抚垃,我們使用i_t^{'},h_t^{'}分別表示興趣進(jìn)化層中的輸入和隱藏狀態(tài)喷楣,這里的輸入就是上一層(興趣抽取層)中的輸出:i_t^{'}=h_t 。這里最終的隱藏狀態(tài)h_t^{'}表示最終的興趣狀態(tài)鹤树。

?? 在興趣進(jìn)化模塊中的attention機(jī)制的函數(shù)如下:
a_t = \frac{\exp(h_t W_{e_a})}{\sum_{j=1}^{T} \exp(h_t W_{e_a} )} \tag{8}
這里e_a表示是不同類別廣告的embedding向量后的連接铣焊,W \in \mathbb{R}^{n_H \times n_A},n_H是隱藏狀態(tài)的維度,n_A是廣告embedding向量的維度罕伯。attention分?jǐn)?shù)反應(yīng)了廣告e_a和輸入h_t之間的關(guān)系曲伊,相關(guān)性強(qiáng)的分?jǐn)?shù)越大。

?? 下一步追他,如何將attention機(jī)制加入到GUR中呢熊昌?下面介紹三種。

  • GRU with attentional input (AIGRU) 湿酸。為了在興趣進(jìn)化果汁中接貨相應(yīng)的興趣,一種簡單的做法就是AIGRU灭美。AIGRU使用attention得分去影響用戶進(jìn)化層的輸入推溃。
    i_t^{'}=h_t \ast a_t \tag{9}
    這里h_t是興趣進(jìn)化層中GRU中第t個隱藏狀態(tài),i_t^{'}是用于興趣進(jìn)化層第二個GRU的輸入届腐。\ast是向量的標(biāo)量積(就是向量直接乘以某一個數(shù))铁坎。在AIGRU中蜂奸,相關(guān)度較低的興趣可以通過較低的attention分?jǐn)?shù)來降低。理想狀態(tài)下硬萍,低相關(guān)性的輸入可以減少到0扩所。然而AIGRU效果并不是很好。因?yàn)榧词?輸入也會改變GRU的輸入狀態(tài)朴乖,所以相關(guān)性小的興趣也影響了興趣進(jìn)化過程的學(xué)習(xí)祖屏。

  • Attention based GRU(AGRU)。在問答領(lǐng)域买羞,AGRU是首次被提出的袁勺。通過attention集中的embedding信息來改變GRU體系結(jié)構(gòu),AGUR可以有效的從復(fù)雜查詢中提取有效信息畜普。本文利用AGUR來提取捕捉興趣進(jìn)化中的相關(guān)興趣期丰。具體來說,AGRU利用attention分?jǐn)?shù)替代GUR中的更新門,直接對隱狀態(tài)進(jìn)行更新。公式:
    h_t^{'} =(1-a_t) \ast h_{t-1}^{'} + a_t \ast \hat{h_t^{'}} \tag{10}
    這里h_t^{'},h_{t-1}^{'},\hat{h_t^{'}} 都是AGUR的隱藏狀態(tài)揪垄。
    在興趣進(jìn)程過程中奠骄,AGUR直接利用attention分?jǐn)?shù)來直接控制隱藏狀態(tài)的更新。AGUR削弱了興趣進(jìn)化中低相關(guān)興趣的影響儡毕。將注意力機(jī)制嵌入到GUR提高了注意力機(jī)制的影響,有助于AGUR客服AIGUR的缺陷。

  • GRU with attentional update gate (AUGRU) 植阴。雖然AGUR可以利用attention分?jǐn)?shù)來直接控制隱藏狀態(tài)的更新,但是它使用一個標(biāo)量(a_t)來替代一個向量(u_t),這忽略不同維度的不同重要度圾浅。AUGRU結(jié)合了注意力機(jī)制和GUR:
    \tilde{u}_t^{'} = a_t \ast u_t^{'} \tag{11}
    h_t^{'} =(1-\tilde{u}_t^{'} ) \circ h_{t-1}^{'} + \tilde{u}_t^{'} \circ \tilde{h}_t^{'} \tag{12}
    這里u_t^{'}是原始的AUGRU更新門掠手,\tilde{u}_t^{'}是本文設(shè)置的AUGRU中注意力的更新門,h_t^{'},h_{t-1}^{'},\tilde{h}_t^{'}是AUGRU的隱藏狀態(tài)狸捕。

?? 在AUGRU中喷鸽,保留了更新門中的原始信息,這決定了每個維度的不同影響灸拍∽鲎#基于差異化嬉戲,使用attention分?jǐn)?shù)a_t來縮放更新門的所有維度鸡岗,這導(dǎo)致了相關(guān)性較小的興趣對隱藏狀態(tài)影響較小混槐。AUGRU可以更有效的避免興趣漂移帶來的干擾,推動相關(guān)的興趣平穩(wěn)的進(jìn)化轩性。

實(shí)驗(yàn)

?? 本章節(jié)將DIEN對比已有的模型效果声登。此外,設(shè)計了實(shí)驗(yàn)分別驗(yàn)證輔助損失和AUGRU的效果。為了能觀察到興趣進(jìn)化的過程悯嗓,設(shè)置了興趣隱藏狀態(tài)的可視化結(jié)果件舵。

數(shù)據(jù)集

使用公共和工業(yè)數(shù)據(jù)集上來驗(yàn)證DIEN的效果。數(shù)據(jù)集的統(tǒng)計信息見表1.


數(shù)據(jù)集信息

公共數(shù)據(jù)集脯厨。亞馬遜數(shù)據(jù)集是亞馬遜的產(chǎn)品和評論組長的铅祸。這里采用亞馬遜數(shù)據(jù)的兩個子集:Books 和 Electronics來驗(yàn)證DIEN的效果。在這些數(shù)據(jù)集中合武,將評論當(dāng)做行為临梗,按時間對一個人的評論進(jìn)行排序。假設(shè)用戶uT個行為眯杏,我們的目標(biāo)是利用這個T-1個行為來預(yù)測用戶u是否對寫出第T次評論夜焦。
工業(yè)數(shù)據(jù)集。這個數(shù)據(jù)集是阿里的在線展示廣告系統(tǒng)中曝光和點(diǎn)擊日志組成的岂贩。對于訓(xùn)練集茫经,采用過去49天的點(diǎn)擊的廣告作目標(biāo)item。每一個目標(biāo)item和它相應(yīng)的點(diǎn)擊行為構(gòu)成了一個實(shí)例萎津。用一個目標(biāo)item a為例卸伞,將a被用戶點(diǎn)擊的日期作為最后一天,這個用戶前14天的行為作為歷史行為锉屈。測試集中也是類似荤傲。

模型比較

  • BaseModel BaseModel采用DIEN中相同的embedding和MLP,使用sum池化操作來整合embedding的行為颈渊。
  • Wide&Deep Wide&Deep包含兩部分:深度模型部分等同于Base Model, wide mode是一個線性模型遂黍。
  • PNN PNN利用了以product層拉捕捉類別之間的交互 。
  • DIN .DIN采用了attention機(jī)制來激活用戶相關(guān)的行為
  • Two layer GRU Attention.使用兩層GRU層來模擬序列行為俊嗽,采用attention層來激活相應(yīng)的行為雾家。

公共數(shù)據(jù)集結(jié)果

?? DIEN的結(jié)構(gòu)包含了GRU、AUGRU绍豁、輔助損失和其他的正常模塊芯咧。在公共數(shù)據(jù)集上,每個實(shí)驗(yàn)重復(fù)5次竹揍。

公共數(shù)據(jù)集上AUC

?? 實(shí)驗(yàn)結(jié)果見表2敬飒。可以發(fā)現(xiàn)設(shè)計的Wide$Deep模型表現(xiàn)不俗很好芬位,PNN可以提高base model的性能无拗。同時,意在捕捉用戶興趣的模型可以顯著提高AUC:DIN激活了與廣告相關(guān)的興趣昧碉,Two layer GRU attention進(jìn)一步在興趣序列中激活興趣蓝纲,所有的這些設(shè)計得到正向的反饋阴孟。DIEN不僅能更有效的捕捉興趣序列,而且對于目標(biāo)item相關(guān)的興趣進(jìn)化過程進(jìn)行建模税迷。興趣進(jìn)化過程有助于DIEN獲得更好的興趣表示,并精確捕捉興趣的動態(tài)锹漱,這極大的提高了性能箭养。

工業(yè)數(shù)據(jù)集結(jié)果

?? 設(shè)計實(shí)驗(yàn)在真正的展示廣告中進(jìn)行實(shí)驗(yàn)。設(shè)計了6層FCN層哥牍,維度分別是600毕泌、400、300嗅辣、200撼泛、80、2澡谭。最大的歷史序列長度設(shè)置為50愿题。

工業(yè)數(shù)據(jù)集上的AUC

?? 如表3所示,Wide&Deep 和PNN模型都能獲得比BaseModel更好的性能蛙奖。不同于亞馬遜只有一個類別的數(shù)據(jù)集潘酗,在線廣告包含了各種各樣類別商品⊙阒伲基于這個特點(diǎn)仔夺,基于注意力機(jī)制的模型(DIN)極大的提高了性能。DIEN捕捉了與候選廣告相關(guān)的興趣進(jìn)化過程攒砖,獲得了更好的性能缸兔。

應(yīng)用研究

?? 下面分別驗(yàn)證AUGRU和輔助損失的效果。

AUGRU和輔助損失的AUC

AUGRU效果

表4展示了興趣進(jìn)化的不同方式的結(jié)果吹艇。相比Base Model,Two layer GRU Attention 提升了效果惰蜜,然而缺乏興趣進(jìn)化限制了它的能量。AIGRU盡管有進(jìn)步掐暮,但在興趣進(jìn)化過程中注意力發(fā)生了分裂 和丟失了信息蝎抽。AGUR進(jìn)一步嘗試融合注意力和興趣進(jìn)化,但是在GUR中的attention無法再更新門中充分利用路克。AUGRU獲得明星的改進(jìn)樟结,這反應(yīng)了理想的融合注意力機(jī)制和順序?qū)W習(xí)思想,有效的捕捉了相關(guān)興趣的進(jìn)化過程精算。

輔助損失效果

?? 基于AUGRU獲取的模型瓢宦,進(jìn)一步驗(yàn)證輔助損失的效果。在公共數(shù)據(jù)集上灰羽,輔助損失使用的負(fù)例是從排除正例的數(shù)據(jù)集中隨機(jī)抽樣的驮履。在工業(yè)數(shù)據(jù)集上鱼辙,未點(diǎn)擊的廣告作為負(fù)例。如圖2展示玫镐,整體的損失L和輔助損失L_{aux}是有相似的下降趨勢的倒戏,這意味著CTR的整體損失和輔助損失對興趣表示來說都有效。

公共數(shù)據(jù)集上的學(xué)習(xí)曲線

?? 表4中恐似,輔助損失在公共數(shù)據(jù)集上帶來顯著的提升杜跷,這反應(yīng)了監(jiān)督學(xué)習(xí)對順序序列的學(xué)習(xí)和embedding表示的重要性。對于表3中工業(yè)數(shù)據(jù)矫夷,輔助損失進(jìn)一步的提高了性能葛闷。然而,發(fā)現(xiàn)提升效果不如公共數(shù)據(jù)集上那么明顯双藕。這個差異來源于幾個方面淑趾。第一,對于工業(yè)數(shù)據(jù)集忧陪,它有大量的樣本去學(xué)習(xí)embedding層扣泊,這是得輔助損失獲得的收益減少。第二赤嚼,與亞馬遜一個類別的數(shù)據(jù)集不同旷赖,工業(yè)數(shù)據(jù)的點(diǎn)擊行為是來源于阿里平臺所有場景和所有的類目的商品。目標(biāo)是在一個場景中預(yù)測廣告點(diǎn)擊率更卒。輔助損失中使用的監(jiān)督信息可能與目標(biāo)item有所不同等孵,所以輔助損失對于工業(yè)數(shù)據(jù)集提示效果較小,但是AUGRU的影響被放大蹂空。

興趣進(jìn)化可視化

AUGRU中的隱藏狀態(tài)的動態(tài)變化可以反映興趣的進(jìn)化過程俯萌。對隱藏狀態(tài)進(jìn)行可是來探索不同目標(biāo)item對興趣進(jìn)化的影響。

興趣進(jìn)化層可視化

?? 從以下類別中選擇歷史行為:電腦音箱上枕、耳機(jī)咐熙、車載GPS、SD&SDHC卡辨萍、微型SD卡棋恼、外部硬盤、頭戴電話锈玉、手機(jī)殼等等爪飘。AUGRU中的隱藏狀態(tài)通過PCA轉(zhuǎn)為2維。變?yōu)?維的隱藏狀態(tài)按順序進(jìn)行連接拉背。不同目標(biāo)item下的激活的隱藏狀態(tài)移動路線在圖3a中展示师崎。這黃色的曲線表示的是無后續(xù)item下的attention分?jǐn)?shù)(計算方式與公式12相等),即興趣的進(jìn)化沒有收到候選item的影響椅棺。藍(lán)色曲線表示在屏幕保護(hù)膜類商品下的隱藏狀態(tài)的變化過程犁罩,它與所有的歷史行為關(guān)系不大齐蔽,因此它與黃色曲線類似。紅色的曲線是在手機(jī)殼類商品激活的隱藏狀態(tài)的變化過程床估,這個目標(biāo)item強(qiáng)相關(guān)歷史行為含滴,如圖所示,它移動的很長的過程丐巫。相應(yīng)的蛙吏,如圖3-b所示,最后一個行為獲得較大的attention得分鞋吉。

個人理解,就是說與歷史行為相關(guān)的候選item的興趣 會保留的更長(一段時間不發(fā)送變化)励烦,與候選item無關(guān)的隱藏狀態(tài)變化 等同于沒有候選item的隱藏狀態(tài)變化谓着。這就說明了,AUGRU對興趣進(jìn)化的建模的有效性

在線服務(wù)& AB實(shí)驗(yàn)

AB實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)是從2018-06-07到2018-07-12坛掠,AB實(shí)驗(yàn)在淘寶的在線廣告中進(jìn)行赊锚。如表5所示,相比較BaseModel,DIEN對CTR的收益性對提高了20.7%屉栓,eCPM提高了17.1%舷蒲。另外DIEC減少了PPC(按點(diǎn)擊收費(fèi))3%。DIEN已經(jīng)部署在主要流量友多,為業(yè)務(wù)收入的做出了顯著的貢獻(xiàn)牲平。

?? DIEN對在線服務(wù)的商業(yè)系統(tǒng)來說是一個巨大的挑戰(zhàn)。在線廣告系統(tǒng)擁有相關(guān)高的流量域滥,這流量高峰達(dá)到了每秒100w用戶纵柿。為了保證低延遲和高吞吐,設(shè)計了幾種方案启绰。(1)元素并行化GRU&內(nèi)核融合昂儒,盡可能的融合更多的獨(dú)立內(nèi)核。此外并行化計算GRU的隱藏狀態(tài)委可。(2)批處理:將來自不同用戶的相鄰請求合并為一批來使用GPU渊跋。(3)用Rocket Launchin方式模型壓縮:借助壓縮模型的方式,可以將GRU隱藏狀態(tài)的維數(shù)從108降到32着倾。在這些技術(shù)的影響下拾酝,DIEN服務(wù)延遲從38.2ms減少到6.6ms,每個worker的QPS可以提高到360。

并行優(yōu)化和優(yōu)化延遲這塊象征的看一下(反正屈呕,我也沒看懂)微宝。

結(jié)論

本文提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu)DIEN(Deep Interest Evolution Networ),去模擬興趣進(jìn)化的過程虎眨。DIEN提高了CTR蟋软。具體來說镶摘,設(shè)計了興趣提取層來捕捉興趣序列,它使用輔助損失提供給興趣狀態(tài)更多的監(jiān)督岳守。然后凄敢,提出了興趣進(jìn)化層,其中DIEN使用了AUGRU來對特定item下的興趣進(jìn)化進(jìn)行建模湿痢。在AUGRU的幫助下涝缝,DIEN克服了興趣漂移的干擾。對興趣進(jìn)化進(jìn)行建模有助于更有效的捕捉興趣譬重,進(jìn)一步提高了CTR拒逮。

這片文章主要是設(shè)計了輔助損失和AUGRU。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末臀规,一起剝皮案震驚了整個濱河市滩援,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌塔嬉,老刑警劉巖玩徊,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谨究,居然都是意外死亡恩袱,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進(jìn)店門胶哲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畔塔,“玉大人,你說我怎么就攤上這事纪吮×┟剩” “怎么了?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵碾盟,是天一觀的道長棚辽。 經(jīng)常有香客問我,道長冰肴,這世上最難降的妖魔是什么屈藐? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮熙尉,結(jié)果婚禮上联逻,老公的妹妹穿的比我還像新娘。我一直安慰自己检痰,他們只是感情好包归,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著铅歼,像睡著了一般公壤。 火紅的嫁衣襯著肌膚如雪换可。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天厦幅,我揣著相機(jī)與錄音沾鳄,去河邊找鬼。 笑死确憨,一個胖子當(dāng)著我的面吹牛译荞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播休弃,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼吞歼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了塔猾?” 一聲冷哼從身側(cè)響起浆熔,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎桥帆,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體慎皱,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡老虫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了茫多。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祈匙。...
    茶點(diǎn)故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖天揖,靈堂內(nèi)的尸體忽然破棺而出夺欲,到底是詐尸還是另有隱情,我是刑警寧澤今膊,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布些阅,位于F島的核電站,受9級特大地震影響斑唬,放射性物質(zhì)發(fā)生泄漏市埋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一恕刘、第九天 我趴在偏房一處隱蔽的房頂上張望缤谎。 院中可真熱鬧,春花似錦褐着、人聲如沸坷澡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽频敛。三九已至项郊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間姻政,已是汗流浹背呆抑。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汁展,地道東北人鹊碍。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像食绿,于是被迫代替她去往敵國和親侈咕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評論 2 350