終于寫(xiě)到100篇了稼病,算是一個(gè)小里程碑,但絕不是終點(diǎn)掖鱼!后面還會(huì)有200然走、300....,希望大家能夠一直關(guān)注本專(zhuān)欄以及公眾號(hào)“小小挖掘機(jī)”戏挡,小編會(huì)繼續(xù)加油的芍瑞!
今天介紹的是阿里在CIKM20上發(fā)表的一篇文章,算是與DIN褐墅、DIEN一脈相承的一篇文章吧拆檬,論文提出了深度多興趣網(wǎng)絡(luò)來(lái)提升點(diǎn)擊率預(yù)估的效果,文章標(biāo)題為《Deep Multi-Interest Network for Click-through Rate Prediction》妥凳,論文下載地址為:https://dl.acm.org/doi/pdf/10.1145/3340531.3412092竟贯。
1、背景
阿里對(duì)于從用戶歷史行為序列中抽取用戶興趣的研究有很多逝钥,比如DIN屑那,首次提出使用attention機(jī)制建模用戶歷史行為序列中item和目標(biāo)item的相關(guān)性,來(lái)抽取對(duì)應(yīng)的用戶興趣,但其忽略了行為之間發(fā)生的先后順序持际;DIEN使用GRU單元沃琅,來(lái)建模用戶興趣的演進(jìn)過(guò)程;DSIN將用戶行為切分成不同的session选酗,使用自注意力機(jī)制建模不同session中的多樣興趣阵难。
用戶在一個(gè)時(shí)間點(diǎn)的興趣是多樣的,本文進(jìn)一步提出了深度多興趣網(wǎng)絡(luò)(Deep Multi-Interest Network 芒填、以下簡(jiǎn)稱DMIN)來(lái)提取用戶多樣化的興趣呜叫。一起來(lái)看一下。
2殿衰、DMIN介紹
DMIN的整體架構(gòu)如下:
可以看到朱庆,主要分為Embedding layer、Behavior Refiner Layer 和Multi-Interest Extractor Layer闷祥。接下來(lái)對(duì)這幾部分分別進(jìn)行介紹娱颊。
2.1 Embedding layer
網(wǎng)絡(luò)輸入的特征主要包括四部分,用戶畫(huà)像特征凯砍、用戶歷史行為特征箱硕,上下文特征和目標(biāo)item特征。每一個(gè)特征可以表示成一個(gè)one-hot向量悟衩,并通過(guò)embedding層轉(zhuǎn)換成對(duì)應(yīng)的embedding向量剧罩。
轉(zhuǎn)換后,用戶畫(huà)像特征座泳、用戶歷史行為特征惠昔,上下文特征和目標(biāo)item特征分別用xu,xb,xc,xt表示,其中xb={e1,e2,...,eT}挑势。
2.2 Behavior Refiner Layer
接下來(lái)镇防,通過(guò)multi-head attention對(duì)用戶歷史行為序列表示進(jìn)行提煉(refine這里暫且翻譯為提煉,個(gè)人感覺(jué)可以理解為對(duì)item對(duì)應(yīng)的興趣進(jìn)行初步提瘸北ァ)来氧。計(jì)算如下:
另外,受DIEN的啟發(fā)香拉,論文還在這里加入了輔助loss饲漾,使用t時(shí)刻得到的向量zt,去預(yù)測(cè)t+1時(shí)刻用戶的行為et+1缕溉,方式跟DIEN類(lèi)似考传,也需要進(jìn)行一定的負(fù)采樣。
2.3 Multi-Interest Extractor Layer
接下來(lái)就是對(duì)用戶多興趣的抽取证鸥,首先是一層multi-head self-attention僚楞,假設(shè)head的數(shù)量是HE勤晚,那么行為序列中每一個(gè)item在每一個(gè)head中,都有一個(gè)對(duì)應(yīng)的向量泉褐,共有HE個(gè)赐写。
接下來(lái),對(duì)于每一個(gè)head膜赃,都計(jì)算得到一個(gè)用戶的興趣表示挺邀,共計(jì)HE,其中第h個(gè)興趣計(jì)算如下:
其中跳座,Ijh代表第h個(gè)head中端铛,第j個(gè)item的向量表示,pj代表第j個(gè)item的position encoding疲眷,xt代表target item的向量表示禾蚕,可以看到,計(jì)算過(guò)程與DIN類(lèi)似狂丝,只是在DIN的基礎(chǔ)上换淆,對(duì)行為序列中的每一個(gè)item增加了對(duì)應(yīng)的position encoding,將行為序列發(fā)生的時(shí)間因素考慮了進(jìn)去几颜。position encoding的計(jì)算倍试,從前幾篇阿里論文的經(jīng)驗(yàn)來(lái)看,應(yīng)該是行為發(fā)生時(shí)間距當(dāng)前時(shí)間的時(shí)間差離散化后的結(jié)果蛋哭。
2.4 MLP層及損失函數(shù)
接下來(lái)县习,將得到的HE個(gè)興趣向量表示、用戶畫(huà)像向量表示具壮、上下文向量表示以及target item向量表示進(jìn)行拼接准颓,輸入到多層全連接神經(jīng)網(wǎng)絡(luò)中哈蝇,得到最終的輸出棺妓,損失函數(shù)包含兩部分,分別是logloss以及上文提到的輔助損失:
3炮赦、實(shí)驗(yàn)結(jié)果
最后簡(jiǎn)單看下實(shí)驗(yàn)結(jié)果怜跑,本文提出的DMIN模型,無(wú)論是在公開(kāi)數(shù)據(jù)集還是阿里內(nèi)部數(shù)據(jù)集上吠勘,都取得了不錯(cuò)的離線實(shí)驗(yàn)效果:
好了性芬,本文就到這里了,感興趣的小伙伴可以找到原文進(jìn)行閱讀喲~~