1匾七、背景
對于一個(gè)基于CTR預(yù)估的推薦系統(tǒng)赦邻,最重要的是學(xué)習(xí)到用戶點(diǎn)擊行為背后隱含的特征組合啸蜜。在不同的推薦場景中坑雅,低階組合特征或者高階組合特征可能都會(huì)對最終的CTR產(chǎn)生影響。
之前介紹的因子分解機(jī)(Factorization Machines, FM)通過對于每一維特征的隱變量內(nèi)積來提取特征組合衬横。最終的結(jié)果也非常好裹粤。但是,雖然理論上來講FM可以對高階特征組合進(jìn)行建模蜂林,但實(shí)際上因?yàn)橛?jì)算復(fù)雜度的原因一般都只用到了二階特征組合遥诉。那么對于高階的特征組合來說拇泣,我們很自然的想法,通過多層的神經(jīng)網(wǎng)絡(luò)即DNN去解決矮锈。
DNN的局限
下面的圖片來自于張俊林教授在AI大會(huì)上所使用的PPT挫酿。我們之前也介紹過了,對于離散特征的處理愕难,我們使用的是將特征轉(zhuǎn)換成為one-hot的形式,但是將One-hot類型的特征輸入到DNN中惫霸,會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)太多:
如何解決這個(gè)問題呢,類似于FFM中的思想壹店,將特征分為不同的field:
再加兩層的全鏈接層,讓Dense Vector進(jìn)行組合硅卢,那么高階特征的組合就出來了
但是低階和高階特征組合隱含地體現(xiàn)在隱藏層中,如果我們希望把低階特征組合單獨(dú)建模将塑,然后融合高階特征組合脉顿。
即將DNN與FM進(jìn)行一個(gè)合理的融合:
二者的融合總的來說有兩種形式艾疟,一是并行結(jié)構(gòu),二是串行結(jié)構(gòu):
而我們今天要講到的DeepFM,就是并行結(jié)構(gòu)中的一種典型代表戚长。
2盗冷、DeepFM模型
2.1 整體結(jié)構(gòu)
我們先來看一下DeepFM的模型結(jié)構(gòu):
deepFM包含兩部分:神經(jīng)網(wǎng)絡(luò)部分與因子分解機(jī)部分同廉,分別負(fù)責(zé)低階特征的提取和高階特征的提取仪糖。這兩部分共享同樣的輸入。DeepFM的預(yù)測結(jié)果可以寫為:
? ??????????????????????????????????????
2.2 FM部分
FM部分的詳細(xì)結(jié)構(gòu)如下:
FM部分是一個(gè)因子分解機(jī)乓诽。關(guān)于因子分解機(jī)可以參閱文章[Rendle, 2010] Steffen Rendle. Factorization machines. In ICDM, 2010.。因?yàn)橐肓穗[變量的原因咒程,對于幾乎不出現(xiàn)或者很少出現(xiàn)的隱變量鸠天,F(xiàn)M也可以很好的學(xué)習(xí)。FM的輸出公式為:
? ??????????????????????????????????????
2.3 深度部分
深度部分是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)稠集。與圖像或者語音這類輸入不同奶段,圖像語音的輸入一般是連續(xù)而且密集的,然而用于CTR的輸入一般是及其稀疏的剥纷。因此需要重新設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)痹籍。具體實(shí)現(xiàn)中為,在第一層隱含層之前晦鞋,引入一個(gè)嵌入層來完成將輸入向量壓縮到低維稠密向量蹲缠。
嵌入層(embedding layer)的結(jié)構(gòu)如上圖所示悠垛。當(dāng)前網(wǎng)絡(luò)結(jié)構(gòu)有兩個(gè)有趣的特性:
1线定、盡管不同field的輸入長度不同,但是embedding之后向量的長度均為确买。
2斤讥、在FM里得到的隱變量現(xiàn)在作為了嵌入層網(wǎng)絡(luò)的權(quán)重。
這里的第二點(diǎn)如何理解呢湾趾,假設(shè)我們的k=5芭商,首先,對于輸入的一條記錄搀缠,同一個(gè)field 只有一個(gè)位置是1铛楣,那么在由輸入得到dense vector的過程中,輸入層只有一個(gè)神經(jīng)元起作用艺普,得到的dense vector其實(shí)就是輸入層到embedding層該神經(jīng)元相連的五條線的權(quán)重蛉艾,即,衷敌,勿侯,,缴罗。這五個(gè)值組合起來就是我們在FM中所提到的助琐。在FM部分和DNN部分,這一塊是共享權(quán)重的面氓,對同一個(gè)特征來說兵钮,得到的Vi是相同的。
參考文獻(xiàn):
論文:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction