深度推薦模型


深度學(xué)習(xí)CTR模型演化圖譜

目前的主流思路:
(1)加層數(shù),加結(jié)構(gòu)復(fù)雜度:AutoRec->Deep Crossing
(2)改變特征交叉方式:NeruralCF(神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾)吱肌,PNN(基于積操作的神經(jīng)網(wǎng)絡(luò))
(3)組合模型:Wide&Deep及其變種DeepFM等诗鸭,兩種不同且優(yōu)勢(shì)互補(bǔ)的深度學(xué)習(xí)網(wǎng)絡(luò)的組合。
(4)FM深度升級(jí)版
(5)注意力機(jī)制
(6)序列模型
(7)強(qiáng)化學(xué)習(xí)結(jié)合


AutoRec(自編碼器):類PCA,輸入≈輸出

自編碼器能夠存儲(chǔ)所有數(shù)據(jù)向量的編碼信息夯缺,使得\min_{\theta}\sum_{r \in S}||r-h(r;\theta)||^2,但是因?yàn)橹亟ê瘮?shù)的參數(shù)比輸入向量的維度(參數(shù)個(gè)數(shù))遠(yuǎn)遠(yuǎn)地少甘耿,所以間接實(shí)現(xiàn)了數(shù)據(jù)壓縮和降維的工作踊兜。輸出向量并不完全等于輸入向量,某種程度上實(shí)現(xiàn)了泛化佳恬,甚至可以填補(bǔ)一定的缺失維度值捏境。

物品評(píng)分向量r做輸入h(r;\theta)=f(W*g(Vr+u)+b),f 和 g 是輸出和隱藏層的激活函數(shù)

\min_{\theta}\sum_{i=1}^{n}||r_i-h(r_i,\theta)||^2+\frac{\lambda}{2}(||w||^2+||V||^2)毁葱,前面是殘差平方和垫言,后面是正則

ri的第u維就是用戶u對(duì)物品i的評(píng)價(jià)

優(yōu)勢(shì):一次性輸入就可以,劣勢(shì):向量稀疏可能影響效果倾剿。

  • 為什么可以預(yù)測(cè)缺失維度筷频?

在Rating Matrix中,沒有打分的部分不參與計(jì)算前痘,encode decode的過(guò)程中只讓模型去擬合已有的打分部分截驮,讓這一部分充分?jǐn)M合好,然后對(duì)于沒有數(shù)據(jù)的部分际度,訓(xùn)練好的權(quán)重會(huì)給出一個(gè)非零值葵袭,這就是模型預(yù)測(cè)的結(jié)果。最終乖菱,原來(lái)Rating Matrix中為零的部分在模型訓(xùn)練完后也變也有了數(shù)值坡锡,可以根據(jù)此來(lái)做推薦。(對(duì)于缺失值窒所,用默認(rèn)值或者平均值代替可以重建恢復(fù)(基于平方殘差和最叙睦铡))

可以認(rèn)為是借鑒了其他用戶對(duì)該商品的打分(該商品的各隱特征權(quán)重),以及該用戶對(duì)其他商品的打分(對(duì)各個(gè)隱特征的權(quán)重)

  • 為什么可以壓縮/降維吵取?

假如我們通過(guò)一組數(shù)據(jù)訓(xùn)練出了我們的自編碼器禽额,然后我們拆掉自編碼器的解碼器(decoder),就可以用剩下的編碼器(encoder)來(lái)表征我們的數(shù)據(jù)了皮官。隱藏層的神經(jīng)元數(shù)目遠(yuǎn)低于輸入層[0,1,0,1]脯倒,那么就相當(dāng)于我們用更少的特征(神經(jīng)元)[0,1,0]去表征我們的輸入數(shù)據(jù),從而達(dá)到降維壓縮的功能捺氢。

  • 為什么可以去噪藻丢?

上圖第一行就是加噪后的手寫體數(shù)據(jù)集,第二行則是原本的手寫體數(shù)據(jù)集摄乒。我們把加噪后的數(shù)據(jù)集當(dāng)成輸入悠反,原本的數(shù)據(jù)集當(dāng)做輸出残黑,訓(xùn)練一個(gè)自編碼器,讓它在訓(xùn)練過(guò)程中學(xué)習(xí)數(shù)據(jù)的規(guī)律斋否,從而把噪聲去掉

  • 加入L1稀疏梨水,可以得到少且有用的特征項(xiàng)。

Deep Crossing模型(殘差茵臭,embedding)

離散特征:搜索詞冰木,廣告關(guān)鍵詞,落地頁(yè)(具體頁(yè)面)
連續(xù)特征:點(diǎn)擊率

(1)onehot離散特征編碼過(guò)于稀疏笼恰,使用embedding技術(shù)(word2vec)來(lái)解決稠密化+降維的問題踊沸。
(2)如何解決特征交叉自動(dòng)化的問題,Stacking層負(fù)責(zé)拼接數(shù)值型特征和離散型特征組成新的特征向量社证,Multiple Residual Units(使用殘差網(wǎng)絡(luò)Resnet)對(duì)這些新的特征向量進(jìn)行交叉組合逼龟,使得模型能抓取到更多非線性特征和組合特征的信息。

image.png

NeuralCF(深度學(xué)習(xí)+協(xié)同過(guò)濾CF矩陣分解)

image.png

傳統(tǒng)矩陣分解只是利用了內(nèi)積追葡,而NeualCF的GMF層使用了元素積(對(duì)應(yīng)維度相乘得到另一個(gè)向量)進(jìn)行特征互操作腺律。右側(cè)的MLP層則跟上面的Deep Crossing基本上一樣。


PNN

將Deep Crossing的stacking層的拼接改成Product操作進(jìn)行兩兩交互宜肉。Product層分為兩個(gè)部分匀钧,一個(gè)是線性操作層(加權(quán)融合),一個(gè)是乘積操作層(內(nèi)積谬返、外積)

外積會(huì)有平均池化的操作之斯,這可能會(huì)模糊很多信息,建議慎用遣铝。

相比簡(jiǎn)單的交給全連接層佑刷,內(nèi)積和外積操作更有針對(duì)性。


Wide&Deep(LR + DNN)

更好綜合原始特征和新的交叉特征,Wide部分負(fù)責(zé)"記憶能力"(對(duì)于相似的歷史行為能夠快速反應(yīng)),Deep部分負(fù)責(zé)"泛化能力"(對(duì)于歷史上沒有相似的行為能夠推測(cè)出來(lái)結(jié)果锭弊,發(fā)掘稀有特征能力)

缺點(diǎn):Wide部分還是需要人工特征工程。

舉個(gè)例子麦萤,邏輯回歸LR對(duì)于強(qiáng)特征反應(yīng)很快,直接調(diào)大參數(shù)權(quán)重扁眯。神經(jīng)網(wǎng)絡(luò)層數(shù)多壮莹,特征相互交叉最后反而記憶消退。

反向傳播是LR和DNN都有的恋拍,兩個(gè)模塊是一起訓(xùn)練的

FNN(用FM的隱向量完成Embedding層初始化)

對(duì)于Embedding層初始化的問題垛孔,原先采用隨機(jī)初始化藕甩,現(xiàn)在采用FM預(yù)訓(xùn)練的方法施敢。

image.png
FM

DeepFM(Deep取代Wide抽取低階特征)

FM替代Wide提取低階組合特征周荐,Deep提取高階組合特征,共享相同的embedding層

image.png

AFM(注意力機(jī)制)

注意力機(jī)制應(yīng)用在FM的交叉特征上

image.png

DIEN(引入基于注意力機(jī)制的GRU時(shí)間序列模型)

GRU解決了LSTM梯度消失的問題僵娃,參數(shù)又更少概作。工程上看串行效率比較低,延遲會(huì)很嚴(yán)重默怨,需要很多優(yōu)化讯榕。

image.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市匙睹,隨后出現(xiàn)的幾起案子愚屁,更是在濱河造成了極大的恐慌,老刑警劉巖痕檬,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霎槐,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡梦谜,警方通過(guò)查閱死者的電腦和手機(jī)丘跌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)唁桩,“玉大人闭树,你說(shuō)我怎么就攤上這事』脑瑁” “怎么了报辱?”我有些...
    開封第一講書人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)单山。 經(jīng)常有香客問我捏肢,道長(zhǎng),這世上最難降的妖魔是什么饥侵? 我笑而不...
    開封第一講書人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任鸵赫,我火速辦了婚禮,結(jié)果婚禮上躏升,老公的妹妹穿的比我還像新娘辩棒。我一直安慰自己,他們只是感情好膨疏,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開白布一睁。 她就那樣靜靜地躺著,像睡著了一般佃却。 火紅的嫁衣襯著肌膚如雪者吁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,337評(píng)論 1 310
  • 那天饲帅,我揣著相機(jī)與錄音复凳,去河邊找鬼瘤泪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛育八,可吹牛的內(nèi)容都是我干的对途。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼髓棋,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼实檀!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起按声,我...
    開封第一講書人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤膳犹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后签则,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體镣奋,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年怀愧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了侨颈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芯义,死狀恐怖哈垢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扛拨,我是刑警寧澤耘分,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站绑警,受9級(jí)特大地震影響求泰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜计盒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一渴频、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧北启,春花似錦卜朗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至懈涛,卻和暖如春逛万,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背批钠。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工宇植, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留得封,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓当纱,卻偏偏與公主長(zhǎng)得像呛每,于是被迫代替她去往敵國(guó)和親踩窖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子坡氯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359