本文是2022年的第一篇文章,給大家?guī)鞢IKM2021上中稿的一篇文章逃延,提出了Deep Cross Attentional Product Network(以下簡稱DCAP)酌儒,在顯式建模高階特征交互的基礎(chǔ)上,引入自注意力機(jī)制來刻畫不同交叉特征對于預(yù)測的重要性早像,一起來看一下桨踪。
1讥巡、背景
論文關(guān)注的如何通過特征建模掀亩,對用戶的交互行為進(jìn)行預(yù)測,如用戶是否會點(diǎn)擊某個(gè)廣告欢顷,是否會對推薦內(nèi)容產(chǎn)生興趣等等槽棍,如下圖所示:
從上圖也可以看到,用戶的特征往往是多域的離散特征,如國家炼七、性別等缆巧。同時(shí),對于交叉特征的建模在預(yù)測任務(wù)中是十分重要的豌拙。由于人工設(shè)計(jì)交叉特征費(fèi)時(shí)費(fèi)力陕悬,同時(shí)對于業(yè)務(wù)敏感度也有較高的要求,因此業(yè)界的研究大都關(guān)注如何進(jìn)行自動化的交叉特征建模按傅,從使用FM來建模二階的交叉特征捉超,到使用FM和DNN相結(jié)合的方法如DeepFM、NFM進(jìn)一步建模二階和更高階的交叉特征唯绍。但上述的方法存在兩方面的問題:
1)DNN對于交叉特征的建模是隱式的拼岳,可解釋性差
2)得到的交叉特征,對于所有的樣本都使用相同的權(quán)重况芒,但對于不同的樣本來說惜纸,不同的特征的重要程度是不相同的,需要加以區(qū)分
上述兩方面的問題牛柒,其實(shí)有一些工作已經(jīng)進(jìn)行了優(yōu)化堪簿,如針對隱式建模的問題,有DCN皮壁、XDeepFM等相關(guān)工作提出;針對特征權(quán)重問題哪审,如AFM蛾魄,以及引入門控機(jī)制如GateNet等工作。而本文則是提出了Deep Cross Attentional Product Network湿滓,下一章節(jié)對DCAP進(jìn)行介紹滴须。
2、DCAP介紹
論文提出的DCAP整體結(jié)構(gòu)如下圖所示:
整體的模型結(jié)構(gòu)還是比較容易理解叽奥,本文主要對DCAP的核心結(jié)構(gòu)即上圖右側(cè)的部分進(jìn)行介紹扔水。
輸入的特征,經(jīng)過Embedding層朝氓,得到最初的輸入魔市,計(jì)作X(維度為n*d),經(jīng)過每一層子網(wǎng)絡(luò)赵哲,都會得到相應(yīng)階數(shù)的交叉特征的輸出待德。接下來,順著上圖右側(cè)枫夺,介紹如何從第l階特征交互X(l)(維度為n*d)得到第l+1層特征交互X(l+1)(維度為n*d)将宪。過程計(jì)算如下:
首先X(l)經(jīng)過多頭自注意力網(wǎng)絡(luò),得到Z(l+1)(維度為n*d),經(jīng)過自注意力機(jī)制较坛,就實(shí)現(xiàn)了對不同交叉特征重要性的區(qū)分印蔗。關(guān)于自注意力機(jī)制的內(nèi)容,網(wǎng)上的內(nèi)容很多丑勤,本文就不再進(jìn)行贅述喻鳄。
接下來,通過內(nèi)積或外積的方式得到vector-vise的乘積向量P(l+1)(維度為n(n-1)/2*d),P(l+1)可以看作是第l+1階的交叉特征确封。內(nèi)積和外積的計(jì)算方式如下:
而P(l+1)的維度為n(n-1)/2*d除呵,為什么是n(n-1)/2呢,這里主要是在計(jì)算交叉特征時(shí)爪喘,對下標(biāo)進(jìn)行了一定的限制颜曾,另一方面,是對第l+1層的自注意力機(jī)制部分的輸出與原始輸入X進(jìn)行的內(nèi)積或外積計(jì)算秉剑,這里使用了DCN的思路顯式建模特征交叉:
隨后泛豪,對P(l+1)在最后一維上進(jìn)行sum pooling操作,得到該層的輸出Y(l+1)(維度為n(n-1)/2)侦鹏,作為后續(xù)的MLP層的輸入:
最后诡曙,無論是P(l+1),還是Y(l+1)略水,都不能用于下一層的輸入价卤,因此需要進(jìn)一步進(jìn)行轉(zhuǎn)換,將n(n-1)/2 *d維渊涝,轉(zhuǎn)換成n*d維慎璧,論文采用的是1D average pooling的方式,將 P(l+1)轉(zhuǎn)換為X(l+1)(從這里可以看出跨释,論文給出的模型結(jié)構(gòu)圖是存在一定問題的胸私,個(gè)人感覺應(yīng)該將Y替換為P)。1D average pooling的計(jì)算方式如下:
上述就是DCAP核心結(jié)構(gòu)的介紹鳖谈,在得到每一層的輸出Y(l+1)之后岁疼,與展平后的X進(jìn)行拼接,經(jīng)過MLP后的到預(yù)估值:
3缆娃、實(shí)驗(yàn)結(jié)果
最后來簡單看一下論文的實(shí)驗(yàn)結(jié)果:
好了捷绒,論文就介紹到這里,論文本身在模型結(jié)構(gòu)的創(chuàng)新點(diǎn)并不多龄恋,更像是一些現(xiàn)有網(wǎng)絡(luò)的融合疙驾,如DCN、PNN等郭毕,感興趣的小伙伴可以看下原文~~