本文介紹的論文是《GateNet:Gating-Enhanced Deep Network for Click-Through Rate Prediction》
下載地址為:https://arxiv.org/pdf/2007.03519.pdf
1、背景
深度學(xué)習(xí)在CTR預(yù)估中已經(jīng)有了廣泛的應(yīng)用要拂。在深度學(xué)習(xí)模型中蜕便,大都包括embedding layer和MLP hidden layers。同時返顺,門機(jī)制(gating mechanism)在CV和NLP領(lǐng)域也有廣泛的應(yīng)用酌畜,最為大家熟知的就是在LSTM和GRU中的應(yīng)用羊异。
關(guān)于門機(jī)制的介紹怎顾,大家可以參考張俊林老師(同時也是本文介紹的論文的作者之一)下面的博文:https://blog.csdn.net/malefactor/article/details/51183989#0-tsina-1-86888-397232819ff9a47a7b7e80a40613cfe1
一些實驗證明門機(jī)制可以提升非凸深神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練性,那么將門機(jī)制應(yīng)用在深度學(xué)習(xí)CTR預(yù)估模型中灾梦,會碰出怎樣的火花呢峡钓?本文介紹的便是二者的結(jié)合:GateNet。
2若河、GateNet介紹
推薦系統(tǒng)中常用的深度學(xué)習(xí)模型入Wide & Deep能岩,YoutubeNet,DeepFM等萧福,可以看到這些模型都包括embedding layer和MLP hidden layers拉鹃,那么將門機(jī)制和這兩種layer相結(jié)合,便產(chǎn)生了Feature Embedding Gate和Hidden Gate鲫忍,接下來對二者分別介紹膏燕。
2.1 Feature Embedding Gate
Feature Embedding Gate主要是在embedding layer增加門機(jī)制,用于從特征中選擇更為重要的特征悟民。如果模型中帶有Feature Embedding Gate坝辫,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
假設(shè)輸入的離散特征,經(jīng)過Embedding layer得到E=[e1,e2,e3,...,ei,...ef]射亏,其中f代表特征域的個數(shù)近忙,ei代表第i個域的embedding向量,長度為K智润。
接下來及舍,embedding向量會通過Feature Embedding Gate進(jìn)行轉(zhuǎn)換。首先窟绷,對每一個embedding向量击纬,通過下面的公式來計算門值gi,代表該向量的重要程度:
然后钾麸,將embedding向量ei和門值gi計算哈達(dá)瑪積,得到gei炕桨,并得到最終的輸出GE饭尝。
上面只是對Feature Embedding Gate的一個概要介紹,其具體的做法包括多種献宫,比如輸出的gi是一個跟ei同樣長度的向量钥平,那么此時我們稱門為bit-wise gate,如果輸出的gi是一個值,那么此時稱門為vector-wise gate涉瘾。二者的區(qū)別如下:
另一種就是是否所有的域都用同一個參數(shù)矩陣W知态,如果每個域的參數(shù)矩陣都不相同,那么我們稱之為field private立叛,如果所有域的參數(shù)矩陣相同负敏,我們稱之為field sharing。
那么bit-wise gate和vector-wise gate秘蛇,field private和field sharing哪種效果更好呢其做,在實驗部分告訴你答案。
2.2 Hidden Gate
Hidden Gate主要是在MLP中增加門機(jī)制赁还,用于選擇更加重要的特征交互傳遞到更深層的網(wǎng)絡(luò)妖泄。如果模型中帶有Hidden Gate,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
假設(shè)a(l)是第l層隱藏層的輸出:
接下來將a(l)輸入到hidden gate中艘策,計算方式如下:
好蹈胡,F(xiàn)eature Embedding Gate和Hidden Gate的介紹就到這里了,接下來看下實驗部分朋蔫。
3罚渐、實驗結(jié)果
首先來看下在網(wǎng)絡(luò)中單獨(dú)加入Feature Embedding Gate的效果:
可以看到,加入Feature Embedding Gate后斑举,在多個模型以及多個數(shù)據(jù)集中都取得了更好的AUC搅轿。
接下來回答前文提出的問題,field private和field sharing富玷,以及bit-wise gate和vector-wise gate哪種效果更好璧坟。實驗結(jié)果如下:
可以看到,field private的結(jié)果是明顯好于field sharing的赎懦,但在不同的數(shù)據(jù)集中雀鹃,bit-wise gate和vector-wise gate表現(xiàn)有所差異。
然后看下在MLP中加入Hidden Gate的效果励两,加入Hidden Gate后AUC也有一定的提升:
最后看下將兩種gate進(jìn)行結(jié)合的效果:
可以看到黎茎,同時加入兩種gate,效果并沒有比單獨(dú)只加一種gate更好当悔,具體的原因有待進(jìn)一步實驗傅瞻。
好了,本文就介紹到這里了盲憎,對原文感興趣的可以自行閱讀嗅骄。