深度學(xué)習(xí)在個(gè)性化推薦中的應(yīng)用
結(jié)論
得益于深度學(xué)習(xí)強(qiáng)大的表示能力叔遂,目前深度學(xué)習(xí)在推薦系統(tǒng)中需要對用戶與物品進(jìn)行表示學(xué)習(xí)的任務(wù)中有著不錯(cuò)的表現(xiàn)均蜜,但優(yōu)勢不如圖像與文本那么顯著[1]。
深度學(xué)習(xí)與分布式表示簡介
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究扁位。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征匆背,以發(fā)現(xiàn)數(shù)據(jù)的有效表示典尾,而這種使用相對較短、稠密的向量表示叫做分布式特征表示(也可以稱為嵌入式表示)惩阶。本部分主要對于目前使用較廣的一些學(xué)習(xí)算法進(jìn)行一個(gè)簡單的回顧挎狸。
首先介紹一些淺層的分布式表示模型。目前在文本領(lǐng)域断楷,淺層分布式表示模型得到了廣泛的使用锨匆,例如word2vec、GloVec脐嫂、fasttext等 [2]统刮。與傳統(tǒng)詞袋模型對比,詞嵌入模型可以將詞或者其他信息單元(例如短語账千、句子和文檔等)映射到一個(gè)低維的隱含空間侥蒙。在這個(gè)隱含空間中,每個(gè)信息單元的表示都是稠密的特征向量匀奏。詞嵌入表示模型的基本思想實(shí)際還是上來自于傳統(tǒng)的“Distributional semantics”[3]鞭衩,概括起來講就是當(dāng)前詞的語義與其相鄰的背景詞緊密相關(guān)。因此娃善,詞嵌入的建模方法就是利用嵌入式表示來構(gòu)建當(dāng)前詞和背景詞之間的語義關(guān)聯(lián)论衍。相比多層神經(jīng)網(wǎng)絡(luò),詞嵌入模型的訓(xùn)練過程非常高效聚磺,而且實(shí)踐效果很好坯台、可解釋性也不錯(cuò),因此得到了廣泛的應(yīng)用
對應(yīng)于神經(jīng)網(wǎng)絡(luò)模型瘫寝,最為常見的模型包括多層感知器蜒蕾、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)焕阿、遞歸神經(jīng)網(wǎng)絡(luò)等 [4]咪啡。多層感知器主要利用多層神經(jīng)元結(jié)構(gòu)來構(gòu)建復(fù)雜的非線性特征變換,輸入可以為提取得到的多種特征暮屡,輸出可以為目標(biāo)任務(wù)的標(biāo)簽或者數(shù)值撤摸,本質(zhì)上可以構(gòu)建一種復(fù)雜的非線性變換;卷積神經(jīng)網(wǎng)絡(luò)可以直接部署在多層感知器上,感知器的輸入特征很有可能是不定長或者有序的准夷,通過多個(gè)卷積層和子采樣層钥飞,最終得到一個(gè)固定長度的向量。循環(huán)神經(jīng)網(wǎng)絡(luò)是用來對于時(shí)序序列建模的常用模型冕象,刻畫隱含狀態(tài)的關(guān)聯(lián)性代承,可以捕捉到整個(gè)序列的數(shù)據(jù)特征。針對簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)存在長期依賴問題(“消失的導(dǎo)數(shù)”)渐扮,不能有效利用長間隔的歷史信息论悴,兩個(gè)改進(jìn)的模型是長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM) 和基于門機(jī)制的循環(huán)單元(GRU)。遞歸神經(jīng)網(wǎng)絡(luò)根據(jù)一個(gè)外部給定的拓?fù)浣Y(jié)構(gòu)墓律,不斷遞歸得到一個(gè)序列的表示膀估,循環(huán)神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一種簡化的遞歸神經(jīng)網(wǎng)絡(luò)。
應(yīng)用
1.相似匹配
-
1.1.嵌入式表示模型
通過行為信息構(gòu)建用戶和物品(或者其他背景信息)的嵌入式表示耻讽,使得用戶與物品的嵌入式表示分布在同一個(gè)隱含向量空間察纯,進(jìn)而可以計(jì)算兩個(gè)實(shí)體之間的相似性。很多推薦任務(wù)针肥,本質(zhì)可以轉(zhuǎn)換為相關(guān)度排序問題饼记,因此嵌入式表示模型是一種適合的候選方法。一般來說慰枕,淺層的嵌入式表示模型的訓(xùn)練非常高效具则,因此在大規(guī)模數(shù)據(jù)集合上有效性和復(fù)雜度都能達(dá)到不錯(cuò)的效果。
在[5]中具帮,嵌入式表示被應(yīng)用到了產(chǎn)品推薦中博肋,給定一個(gè)當(dāng)前待推薦的產(chǎn)品,其對應(yīng)的生成背景(context)為用戶和上一個(gè)交易的產(chǎn)品集合蜂厅,利用這些背景信息對應(yīng)的嵌入式表示向量可以形成一個(gè)背景向量匪凡,刻畫了用戶偏好和局部購買信息的依賴關(guān)系。然后基于該背景向量掘猿,生成當(dāng)前待推薦的產(chǎn)品病游。經(jīng)推導(dǎo),這種模型與傳統(tǒng)的矩陣分解模型具有很強(qiáng)的理論聯(lián)系稠通。在[6]中礁遵,Zhao等人使用doc2vec模型來同時(shí)學(xué)習(xí)用戶和物品的序列特征表示,然后將其用在基于特征的推薦框架中采记,引入的嵌入式特征可以在一定程度上改進(jìn)推薦效果。在[7]中政勃,嵌入式表示模型被用來進(jìn)行地點(diǎn)推薦唧龄,其基本框架就是刻畫一個(gè)地理位置的條件生成概率,考慮了包括用戶奸远、軌跡既棺、臨近的地點(diǎn)讽挟、類別、時(shí)間丸冕、區(qū)域等因素耽梅。
-
1.2.語義匹配模型
[8]深度結(jié)構(gòu)化語義模型(Deep Structured Semantic Models,簡稱為DSSM)是基于多層神經(jīng)網(wǎng)絡(luò)模型搭建的廣義語義匹配模型 胖烛。其本質(zhì)上可以實(shí)現(xiàn)兩種信息實(shí)體的語義匹配眼姐。基本思想是設(shè)置兩個(gè)映射通路佩番,兩個(gè)映射通路負(fù)責(zé)將兩種信息實(shí)體映射到同一個(gè)隱含空間众旗,在這個(gè)隱含空間,兩種信息實(shí)體可以同時(shí)進(jìn)行表示趟畏,進(jìn)一步利用匹配函數(shù)進(jìn)行相似度的刻畫贡歧。
如圖展示了一個(gè)DSSM的通用示意圖,其中Q表示一個(gè)Query赋秀,D表示一個(gè)Document利朵,對應(yīng)到推薦系統(tǒng)里面的用戶和物品。通過級聯(lián)的深度神經(jīng)網(wǎng)絡(luò)模型的映射與變換猎莲,最終Query和Document在同一個(gè)隱含空間得到了表示绍弟,可以使用余弦相似度進(jìn)行計(jì)算。DSSM最初主要用在信息檢索領(lǐng)域益眉,用來刻畫文檔和查詢之間的相似度晌柬。
[9]隨后被用在推薦系統(tǒng)中:一端對應(yīng)著用戶信息,另外一端對應(yīng)著物品信息 郭脂。以DSSM為主的這些工作的基本出發(fā)點(diǎn)實(shí)際上和淺層嵌入式表示模型非常相似年碘,能夠探索用戶和物品兩種不同的實(shí)體在同一個(gè)隱含空間內(nèi)的相似性。其中一個(gè)較為關(guān)鍵的地方展鸡,就是如何能夠融入任務(wù)特定的信息(例如物品內(nèi)容信息)以及模型配置(例如可以使用簡單多層神經(jīng)網(wǎng)絡(luò)模型或者卷積神經(jīng)網(wǎng)絡(luò)模型)屿衅,從而獲得理想的結(jié)果。
2.評分預(yù)測
-
2.1.基于用戶的原始評分(或者反饋)來挖掘深度的數(shù)據(jù)模式特征(神經(jīng)網(wǎng)絡(luò)矩陣分解)
[10]限制玻爾茲曼機(jī)進(jìn)行評分預(yù)測莹弊。
如圖所示涤久,其所使用的模型具有一個(gè)兩層的類二部圖結(jié)構(gòu),其中用戶層為隱含層 (h)忍弛,可見層為用戶的評分信息 (V)响迂,通過非線性關(guān)聯(lián)兩層上的數(shù)據(jù)信息。其中隱含層為二元變量细疚,而用戶評分信息被刻畫為多項(xiàng)式分布變量蔗彤。建立用戶隱含表示信息以及其評分信息的聯(lián)合能量函數(shù),然后進(jìn)行相應(yīng)的參數(shù)求解。該方法的一個(gè)主要問題是連接隱含層和評分層的權(quán)重參數(shù)規(guī)模過大(對于大數(shù)據(jù)集合)然遏,也就是權(quán)重矩陣W贫途。
[11]優(yōu)化計(jì)算的改進(jìn),作者進(jìn)一步提出使用將W分解為兩個(gè)低秩矩陣待侵,減小參數(shù)規(guī)模丢早。不過實(shí)驗(yàn)效果表明所提出的方法并沒有比基于矩陣分解的方法具有顯著的改進(jìn),而且參數(shù)求解使用較為費(fèi)時(shí)的近似算法秧倾。
[12]優(yōu)化改進(jìn)怨酝,Zheng 等人提出使用Neural Autoregressive Distribution Estimator來改進(jìn)上述問題,該方法不需要顯式對于二元隱含變量進(jìn)行推理中狂,減少了模型復(fù)雜度凫碌,并且使用排序代價(jià)函數(shù)來進(jìn)行參數(shù)最優(yōu)化。實(shí)驗(yàn)表明所提出的方法能夠取得非常好的效果胃榕。
[13]Wu等人使用去噪自動編碼模型(Denoising Autoencoder)進(jìn)行top-N物品推薦盛险,其輸入為加入噪聲的對于物品的偏好(采納為1,否則為0)勋又,輸出為用戶對于物品的原始評分苦掘,通過學(xué)習(xí)非線性映射關(guān)系來進(jìn)行物品預(yù)測。
如圖所示楔壤,用戶可見的評分?jǐn)?shù)據(jù)通過加上噪音后進(jìn)入輸入層鹤啡,然后通過非線性映射形成隱含層,再由隱含層經(jīng)映射后重構(gòu)評分?jǐn)?shù)據(jù)蹲嚣。注意递瑰,該模型中加入了用戶偏好表示(User Node)和偏置表示(Bias Node)。
[14]Devooght提出將協(xié)同過濾方法可以看作時(shí)間序列的預(yù)測問題隙畜。
作者提出抖部,傳統(tǒng)基于協(xié)同過濾的推薦方法,無論基于何種特征议惰,都沒有考慮用戶歷史行為的時(shí)間屬性慎颗,只是將歷史行為中的每個(gè)item統(tǒng)一考慮。這樣處理帶來的最大問題在于推薦系統(tǒng)無法分析用戶喜好的變化情況言询,從而給出更符合用戶現(xiàn)階段喜好的推薦結(jié)果俯萎。那么,如果基于協(xié)同過濾“由過去运杭,看未來”的思想夫啊,如果將該問題視作序列預(yù)測問題,一方面可以更好的分析用戶的興趣愛好的變化情況給出更好的推薦結(jié)果辆憔,另一方面也可以將在時(shí)序預(yù)測問題中廣泛使用的RNN深度網(wǎng)絡(luò)模型引入到推薦系統(tǒng)中涮母。
[15]NCF 作者提出一種通用的神經(jīng)網(wǎng)絡(luò)協(xié)同過濾框架沛贪,通過用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)多層感知機(jī)去學(xué)習(xí)用戶-項(xiàng)目之間交互函數(shù)替代傳統(tǒng)的矩陣分解中的內(nèi)積運(yùn)算犁嗅,從而從數(shù)據(jù)中學(xué)習(xí)任意函數(shù)(非線性)拭抬。
并提出了兩種NCF實(shí)例:基于線性核的GMF(廣義矩陣分解)舍咖,基于非線性核的MLP斯入。并且將GMF與MLP融合胳搞,使他們相互強(qiáng)化控淡。(tf model zoo)
-
2.2. 深度神經(jīng)網(wǎng)絡(luò)模型當(dāng)做特征變換模塊(內(nèi)容embedding->矩陣分解)
[16]Wang等人關(guān)注推薦系統(tǒng)中的一個(gè)重要問題:帶有文本信息的評分預(yù)測(如博客文章等)左敌。傳統(tǒng)解決方法通常聯(lián)合使用主題模型與矩陣分解(Collaborative Topic Modeling)逸雹。[16]中的主要想法就是替換掉主題模型营搅,使用Stacked Denoising Autoencoders進(jìn)行文本特征與評分預(yù)測中的數(shù)據(jù)特征相融合。
在[17]中梆砸,Oord等人主要解決音樂推薦系統(tǒng)中的冷啟動問題转质。通常來說,冷啟動問題包括兩個(gè)方面帖世,新用戶和新物品休蟹,這里主要考慮新物品。傳統(tǒng)矩陣分解的推薦算法通過將評分分解為兩個(gè)低秩向量來進(jìn)行預(yù)測日矫,也就是赂弓,其中 為用戶i對于物品j 的預(yù)測評分, 和 是兩個(gè)K維的向量,分別代表用戶和物品的隱含表示哪轿∮基本想法是從音樂的音頻數(shù)據(jù)中提取到相關(guān)的特征 ,然后將這些音樂自身的數(shù)據(jù)特征映射為通過矩陣分解學(xué)習(xí)得到的隱含向量,也就是學(xué)習(xí)一個(gè)函數(shù)f窃诉,使之達(dá)到杨耙。通過學(xué)習(xí)這樣的變換函數(shù),當(dāng)新音樂來到時(shí)飘痛,可以通過提取其自身的音頻特征來得到其隱含向量珊膜,而不必要求使用用戶數(shù)據(jù)來訓(xùn)練 。得到 的預(yù)測值之后敦冬,從而可以使用傳統(tǒng)矩陣分解的方法來計(jì)算待推薦用戶與新物品直接的相似性辅搬。
與[17]非常相似,Wang等人在[18]中使用深度信念網(wǎng)絡(luò)(Deep Belief Network)進(jìn)行音頻數(shù)據(jù)特征變換脖旱,不同的是同時(shí)保留兩種表示堪遂,第一種表示從方法中得到的數(shù)據(jù)表示,而第二部分則對應(yīng)基于內(nèi)容方法得到的數(shù)據(jù)表示萌庆,最后兩部分表示分別做點(diǎn)積溶褪,用來擬合最后的評分結(jié)果。
這三種方法都是將傳統(tǒng)協(xié)同過濾的矩陣分解方法與神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的途徑践险。
3.排序
Deep CTR [https:/mp.weixin.qq.com/s/xWqpIHHISSkO97O_fKkb6A]
3.1. 總結(jié)(結(jié)論先行)
1.FM其實(shí)是對嵌入特征進(jìn)行兩兩內(nèi)積實(shí)現(xiàn)特征二階組合猿妈;FNN 在 FM 基礎(chǔ)上引入了 MLP吹菱;
2.DeepFM通過聯(lián)合訓(xùn)練、嵌入特征共享來兼顧 FM 部分與 MLP 部分不同的特征組合機(jī)制彭则;
3.NFM鳍刷、PNN 則是通過改造向量積的方式來延遲FM的實(shí)現(xiàn)過程,在其中添加非線性成分來提升模型表現(xiàn)力俯抖;
4.AFM 更進(jìn)一步输瓜,直接通過子網(wǎng)絡(luò)來對嵌入向量的兩兩逐元素乘積進(jìn)行加權(quán)求和,以實(shí)現(xiàn)不同組合的差異化芬萍,也是一種延遲 FM 實(shí)現(xiàn)的方式;
5.DCN 則是將 FM 進(jìn)行高階特征組合的方向上進(jìn)行推廣尤揣,并結(jié)合 MLP 的全連接式的高階特征組合機(jī)制;
6.Wide&Deep 是兼容手工特征組合與 MLP 的特征組合方式柬祠,是許多模型的基礎(chǔ)框架北戏;
7.Deep Cross 是引入殘差網(wǎng)絡(luò)機(jī)制的前饋神經(jīng)網(wǎng)絡(luò),給高維的 MLP 特征組合增加了低維的特征組合形式漫蛔,啟發(fā)了 DCN嗜愈;
8.DIN 則是對用戶側(cè)的某歷史特征和廣告?zhèn)鹊耐I(lǐng)域特征進(jìn)行組合,組合成的權(quán)重反過來重新影響用戶側(cè)的該領(lǐng)域各歷史特征的求和過程惩猫;
9.多任務(wù)視角則是更加宏觀的思路芝硬,結(jié)合不同任務(wù)(而不僅是同任務(wù)的不同模型)對特征的組合過程,以提高模型的泛化能力轧房。
3.2. DNN
深度排序模型( embedding-神經(jīng)網(wǎng)絡(luò)),embedding+MLP 是對于分領(lǐng)域離散特征進(jìn)行深度學(xué)習(xí) CTR 預(yù)估的通用框架拌阴。深度學(xué)習(xí)在特征組合挖掘(特征學(xué)習(xí))方面具有很大的優(yōu)勢。比如以 CNN 為代表的深度網(wǎng)絡(luò)主要用于圖像奶镶、語音等稠密特征上的學(xué)習(xí)迟赃,以 W2V、RNN 為代表的深度網(wǎng)絡(luò)主要用于文本的同質(zhì)化厂镇、序列化高維稀疏特征的學(xué)習(xí)纤壁。CTR 預(yù)估的主要場景是對離散且有具體領(lǐng)域的特征進(jìn)行學(xué)習(xí),所以其深度網(wǎng)絡(luò)結(jié)構(gòu)也不同于 CNN 與 RNN捺信。
embedding+MLP 的過程如下:
- 對不同領(lǐng)域的 one-hot 特征進(jìn)行嵌入(embedding)酌媒,使其降維成低維度稠密特征。
- 然后將這些特征向量拼接(concatenate)成一個(gè)隱含層迄靠。
- 之后再不斷堆疊全連接層秒咨,也就是多層感知機(jī)(Multilayer Perceptron, MLP,有時(shí)也叫作前饋神經(jīng)網(wǎng)絡(luò))掌挚。
- 最終輸出預(yù)測的點(diǎn)擊率雨席。
3.3. Wide & Deep Network(連續(xù)特征->交叉特征+LR、離散特征->onehot->DNN)
Google 在 2016 年提出的寬度與深度模型(Wide&Deep)在深度學(xué)習(xí) CTR 預(yù)估模型中占有非常重要的位置吠式,它奠定了之后基于深度學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估模型的框架陡厘。 Wide&Deep將深度模型與線性模型進(jìn)行聯(lián)合訓(xùn)練抽米,二者的結(jié)果求和輸出為最終點(diǎn)擊率。其計(jì)算圖如下:
3.4. DeepFM
在Wide & Deep Network基礎(chǔ)上進(jìn)行的改進(jìn)糙置,DeepFM的Wide部分是 FM
3.5. Deep & Cross Network(特征->cross netword+LR云茸、DNN)
Ruoxi Wang 等在 2017 提出的深度與交叉神經(jīng)網(wǎng)絡(luò)(Deep & Cross Network,DCN)借鑒了FM的特征點(diǎn)擊交叉谤饭。DCN 的計(jì)算圖如下:
DCN 的特點(diǎn)如下:
1. Deep 部分就是普通的 MLP 網(wǎng)絡(luò)查辩,主要是全連接。
2. 與 DeepFM 類似网持,DCN 是由 embedding + MLP 部分與 cross 部分進(jìn)行聯(lián)合訓(xùn)練的。Cross 部分是對 FM 部分的推廣长踊。
3. Cross 部分的公式如下:
4. 可以證明功舀,cross 網(wǎng)絡(luò)是 FM 的過程在高階特征組合的推廣。完全的證明需要一些公式推導(dǎo)身弊,感興趣的同學(xué)可以直接參考原論文的附錄辟汰。
5. 而用簡單的公式證明可以得到一個(gè)很重要的結(jié)論:只有兩層且第一層與最后一層權(quán)重參數(shù)相等時(shí)的 Cross 網(wǎng)絡(luò)與簡化版 FM 等價(jià)。
6. 此處對應(yīng)簡化版的 FM 視角是將拼接好的稠密向量作為輸入向量阱佛,且不做領(lǐng)域方面的區(qū)分(但產(chǎn)生這些稠密向量的過程是考慮領(lǐng)域信息的帖汞,相對全特征維度的全連接層減少了大量參數(shù),可以視作稀疏鏈接思想的體現(xiàn))凑术。而且之后進(jìn)行 embedding 權(quán)重矩陣 W 只有一列——是退化成列向量的情形翩蘸。
7. 與 MLP 網(wǎng)絡(luò)相比,Cross 部分在增加高階特征組合的同時(shí)減少了參數(shù)的個(gè)數(shù)淮逊,并省去了非線性激活函數(shù)
3.6. DIN [Deep Interest Network]對同領(lǐng)域歷史信息引入注意力機(jī)制的MLP
以上神經(jīng)網(wǎng)絡(luò)對同領(lǐng)域離散特征的處理基本是將其嵌入后直接求和催首,這在一般情況下沒太大問題。但其實(shí)可以做得更加精細(xì)泄鹏。
由 Bahdanau et al. (2015) 引入的現(xiàn)代注意力機(jī)制郎任,本質(zhì)上是加權(quán)平均(權(quán)重是模型根據(jù)數(shù)據(jù)學(xué)習(xí)出來的),其在機(jī)器翻譯上應(yīng)用得非常成功备籽。受注意力機(jī)制的啟發(fā)舶治,Guorui Zhou 等在 2017 年提出了深度興趣網(wǎng)絡(luò)(Deep Interest Network,DIN)车猬。DIN 主要關(guān)注用戶在同一領(lǐng)域的歷史行為特征霉猛,如瀏覽了多個(gè)商家、多個(gè)商品等诈唬。DIN 可以對這些特征分配不同的權(quán)重進(jìn)行求和韩脏。其網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
- 此處采用原論文的結(jié)構(gòu)圖,表示起來更清晰铸磅。
- DIN 考慮對同一領(lǐng)域的歷史特征進(jìn)行加權(quán)求和赡矢,以加強(qiáng)其感興趣的特征的影響杭朱。
- 用戶的每個(gè)領(lǐng)域的歷史特征權(quán)重則由該歷史特征及其對應(yīng)備選廣告特征通過一個(gè)子網(wǎng)絡(luò)得到。即用戶歷史瀏覽的商戶特征與當(dāng)前瀏覽商戶特征對應(yīng)吹散,歷史瀏覽的商品特征與當(dāng)前瀏覽商品特征對應(yīng)弧械。
- 權(quán)重子網(wǎng)絡(luò)主要包括特征之間的元素級別的乘法、加法和全連接等操作空民。
- AFM 也引入了注意力機(jī)制刃唐。但是 AFM 是將注意力機(jī)制與 FM 同領(lǐng)域特征求和之后進(jìn)行結(jié)合,DIN 直接是將注意力機(jī)制與同領(lǐng)域特征求和之前進(jìn)行結(jié)合界轩。
3.7. FM -> FNN -> NFM -> PNN -> AFM
LR:
FM:
FNN:FM隱向量 + 拼接 + MLP
NFM:FM隱向量 + 特征交叉(逐元素向量乘法)+ 求和 + MLP
PNN:與NFM類似画饥,特征交叉法采用了向量積的方法 + 拼接 + mlp
AFM:基于NFM的改進(jìn),通過在逐元素乘法之后形成的向量進(jìn)行加權(quán)求和(Attention Net)浊猾,去除了MLP部分直接接一個(gè)softmax
3.8. 多任務(wù)學(xué)習(xí):同時(shí)學(xué)習(xí)多個(gè)任務(wù)
- 完全共享網(wǎng)絡(luò)層的參數(shù)
- 只共享embedding層參數(shù)
4.序列預(yù)測
循環(huán)神經(jīng)網(wǎng)絡(luò)(刻畫隱含狀態(tài)的關(guān)聯(lián)性抖甘,可以捕捉到整個(gè)序列的數(shù)據(jù)特征)
[19]Hidasi等人使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行基于session的推薦,該工作是對于RNN的一個(gè)直接應(yīng)用葫慎。
[20]Brébisson等人使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行解決2015年的ECML/PKDD 數(shù)據(jù)挑戰(zhàn)題目“出租車下一地點(diǎn)預(yù)測”衔彻,取得了該比賽第一名。在[20]中偷办,作者對于多種多層感知器模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比艰额,最后發(fā)現(xiàn)基于改進(jìn)后的多層感知器模型取得了最好的效果,比結(jié)構(gòu)化的循環(huán)神經(jīng)網(wǎng)絡(luò)的效果還要好椒涯。
在[21]中柄沮,Yang等人同時(shí)結(jié)合RNN及其變種GRU模型來分別刻畫用戶運(yùn)動軌跡的長短期行為模式,通過實(shí)驗(yàn)驗(yàn)證逐工,在“next location”推薦任務(wù)中取得了不錯(cuò)的效果铡溪。如圖5所示,給定一個(gè)用戶生成的軌跡序列泪喊,在預(yù)測下一個(gè)地點(diǎn)時(shí)棕硫,直接臨近的短期訪問背景和較遠(yuǎn)的長期訪問背景都同時(shí)被刻畫。
此外還有一些基于RNN的優(yōu)化模型[https:/zhuanlan.zhihu.com/p/30720579]
- GRU4REC[22]袒啼,使用GRU單元
- GRU4REC+item features[23]哈扮,加入內(nèi)容特征
- GRU4REC+sampling+Dwell Time[24], 將用戶在session中item上的停留時(shí)間長短考慮進(jìn)去
- Hierachical RNN[25],一種層次化的RNN模型,相比之前的工作蚓再,可以刻畫session中用戶個(gè)人的興趣變化滑肉,做用戶個(gè)性化的session推薦。
- GRU4REC+KNN[26], 將session 中的RNN模型摘仅,與KNN方法結(jié)合起來靶庙,能夠提高推薦的效果。
- Improvenment GRU4REC[27]娃属,基于GRU4REC的訓(xùn)練優(yōu)化
- GRU + attention[28]六荒,加入attention機(jī)制
原因:
- 原始的用戶物品二維矩陣框架(基于協(xié)同护姆,矩陣分解)不能完全刻畫復(fù)雜的推薦任務(wù)。
- 數(shù)據(jù)采集維度不夠掏击,特征太稀疏卵皂,影響用戶的上下文環(huán)境過于復(fù)雜
展望
- 結(jié)構(gòu)化神經(jīng)網(wǎng)絡(luò)RNN
- 深度強(qiáng)化學(xué)習(xí)
參考
[1].深度學(xué)習(xí)在推薦算法上的應(yīng)用進(jìn)展 (2017)
[2] Tomas Mikolov. Using Neural Networks for Modeling and Representing Natural Languages. COLING (Tutorials) 2014: 3-4
[3] Daoud Clarke. A Context-Theoretic Framework for Compositionality in Distributional Semantics. Computational Linguistics 38(1): 41-71 (2012)
[4] Ian Goodfellow, Yoshua Bengio and Aaron Courville. Deep Learning. Book. The MIT press.2016.
[5] Pengfei Wang, Jiafeng Guo, Yanyan Lan, Jun Xu, Shengxian Wan, Xueqi Cheng. Learning Hierarchical Representation Model for NextBasket Recommendation. SIGIR 2015: 403-412
[6] Wayne Xin Zhao, Sui Li, Yulan He, Edward Y. Chang, Ji-Rong Wen, Xiaoming Li. Connecting Social Media to E-Commerce: Cold-Start Product Recommendation Using Microblogging Information. IEEE Trans. Knowl. Data Eng. 28(5): 1147-1159 (2016)
[7] Ningnan Zhou Wayne Xin Zhao, Xiao Zhang, Ji-Rong Wen, Shan Wang.A General Multi-Context Embedding Model For Mining Human Trajectory Data. IEEE Trans. Knowl. Data Eng. :Online first, 2016.
[8] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, Larry P. Heck. Learning deep structured semantic models for web search using clickthrough data. CIKM 2013: 2333-2338
[9] Ali Mamdouh Elkahky, Yang Song, Xiaodong He. A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems. WWW 2015: 278-288
[10] Ruslan Salakhutdinov, Andriy Mnih, Geoffrey E. Hinton. Restricted Boltzmann machines for collaborative filtering. ICML 2007: 791-798
[11] Ruslan Salakhutdinov, Andriy Mnih. Probabilistic Matrix Factorization. NIPS 2007: 1257-1264
[12] Yin Zheng, Bangsheng Tang, Wenkui Ding, Hanning Zhou. A Neural Autoregressive Approach to Collaborative Filtering. CoRR abs/1605.09477 (2016)
[13] Yao Wu, Christopher DuBois, Alice X. Zheng, Martin Ester. Collaborative Denoising Auto-Encoders for Top-N Recommender Systems. WSDM 2016: 153-162
[14]Devooght R, Bersini H. Collaborative filtering with recurrent neural networks[J]. arXiv preprint arXiv:1608.07400, 2016.
[15]He X, Liao L, Zhang H, et al. Neural collaborative filtering[C]/Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2017: 173-182.
[16] Hao Wang, Naiyan Wang, Dit-Yan Yeung. Collaborative Deep Learning for Recommender Systems. KDD 2015: 1235-1244
[17] A?ron Van Den Oord, Sander Dieleman, Benjamin Schrauwen. Deep content-based music recommendation. NIPS 2013: 2643-2651
[18] Xinxi Wang, Ye Wang. Improving Content-based and Hybrid Music Recommendation using Deep Learning. ACM Multimedia 2014: 627-636
[19] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks. CoRR abs/1511.06939 (2015)
[20] Alexandre de Brébisson, étienne Simon, Alex Auvolat, Pascal Vincent, Yoshua Bengio. Artificial Neural Networks Applied to Taxi Destination Prediction. DC@PKDD/ECML 2015
[21] Cheng Yang, Maosong Sun, Wayne Xin Zhao, Zhiyuan Liu. A Neural Network Approach to Joint Modeling Social Networks and Mobile Trajectories. arXiv:1606.08154 (2016)
[22] Session-based recommendations with recurrent neural networks. (ICLR 2016)
[23] Parallel Recurrent Neural Network Architectures for Feature-rich Session-based
Recommendations. (RecSys 2016)
[24] Incorporating Dwell Time in Session-Based Recommendatons with Recurrent Neural Networks. (RecSys 2017)
[25] Personalizing Session-based Recommendations with Hierarchical Recurrent Neural Networks. (RecSys 2017)
[26] When Recurrent Neural Networks meet the Neighborhood for Session-Based
Recommendation. (RecSys 2017)
[27] Improved Recurrent Neural Networks for Session-based Recommendations. (DLRS 2016)
[28] Li J, Ren P, Chen Z, et al. Neural attentive session-based recommendation[C]/Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 2017: 1419-1428.