典型任務(wù)和算法(模型)
1.相似匹配(基于內(nèi)容)
1.1 標(biāo)簽匹配
1.2 LDA主題模型
2.評(píng)分預(yù)測(cè)
2.1.large scale 問(wèn)題嘴瓤。為什么不直接進(jìn)行回歸預(yù)測(cè)呢?
2.2.user or item based 協(xié)同過(guò)濾
以u(píng)ser-based協(xié)同過(guò)濾為例:找出與當(dāng)前User i最相似的N個(gè)User适篙,并根據(jù)N個(gè)User對(duì)Item的打分估計(jì) i 對(duì)該Item的打分。相似度采用jaccard similarity 或 Cosine Similarity:
2.3.矩陣分解(model-based 協(xié)同過(guò)濾):
矩陣分解相當(dāng)于:表示學(xué)習(xí)(用戶涣觉、物品)+相似匹配
2.3.1.SVD(PCA):
奇異值分解尝蠕,通過(guò)降維的方法來(lái)補(bǔ)全用戶-物品評(píng)分矩陣联喘,對(duì)矩陣中沒(méi)有出現(xiàn)的值進(jìn)行估計(jì)华蜒。缺點(diǎn)是分解前需補(bǔ)全R矩陣的缺失值(比如用全局平均值或用戶、物品平均值進(jìn)行補(bǔ)全)豁遭,耗費(fèi)存儲(chǔ)大叭喜;計(jì)算復(fù)雜度高。
2.3.2.ALS:
交替最小二乘梯度下降
求解方式固定X求Y蓖谢,固定Y求X
支持隱反饋數(shù)據(jù)(0,1)(加權(quán)的正則化矩陣分解)[1]
2.3.3.PMF
Probabilistic Matrix Factorization概率矩陣分解[2]
傳統(tǒng)的協(xié)同過(guò)濾方法既不能處理大數(shù)據(jù)量的推薦捂蕴,也不能處理只有很少評(píng)分的用戶。這篇論文提出了著名的概率矩陣分解的方法來(lái)解決這個(gè)問(wèn)題闪幽。概率矩陣分解的思想是以中線性因子模型啥辨,它使用與用戶相關(guān)的系數(shù),將用戶的偏好建模成一個(gè)一系列向量的線性組合盯腌。
2.3.4.BPMF
Bayesian Probabilistic Matrix Factorization貝葉斯概率矩陣分解[3]
本論文的模型和前文類似溉知,但在求解時(shí),是從貝葉斯角度而不是傳統(tǒng)概率角度出發(fā):不再把系統(tǒng)參數(shù)當(dāng)做一個(gè)固定值估計(jì)腕够,而是作為一個(gè)服從某種分布的隨機(jī)變量级乍,轉(zhuǎn)而估計(jì)該分布的參數(shù)。
2.4.基于特征+矩陣分解:
物品特征帚湘、用戶特征玫荣、用戶行為特征
2.4.1.SVD++(加入用戶偏執(zhí)的SVD)
2.4.2.SVDFeature[4]
SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11競(jìng)賽中開(kāi)發(fā)出來(lái)的工具包。它的目的是有效地解決基于特征的矩陣分解
三種激活函數(shù)(預(yù)測(cè)值的轉(zhuǎn)換)與損失函數(shù)大诸,可應(yīng)用于回歸與二分類捅厂。 TODO
2.4.3.FM
Factorization Machine 因子分解機(jī)[5]焙贷,解決稀疏數(shù)據(jù)下的特征組合問(wèn)題撵割,多種激活函數(shù)與損失函數(shù)可以應(yīng)用于比如回歸、分類盈厘、排序睁枕。 TODO
2.4.4.FFM[6]
在FM模型中官边,每一個(gè)特征會(huì)對(duì)應(yīng)一個(gè)隱變量沸手,但在FFM模型中,認(rèn)為應(yīng)該將特征分為多個(gè)field注簿,每個(gè)特征對(duì)應(yīng)每個(gè)field分別有一個(gè)隱變量契吉。也就是說(shuō),“Day=26/11/15”這個(gè)特征與“Country”特征和“Ad_type"特征進(jìn)行關(guān)聯(lián)的時(shí)候使用不同的隱向量诡渴,這與“Country”和“Ad_type”的內(nèi)在差異相符捐晶,也是FFM中“field-aware”的由來(lái)惑灵。
2.4.5 DPMF[7]
依賴輔助特征的矩陣分解Dependent Probabilistic Matrix Factorization
與PMF類似哮伟,加入了一些經(jīng)過(guò)高斯處理的特征信息
2.4.6.Collaborative Topic Modeling(LDA+協(xié)同)(內(nèi)容+行為)[8]
基于協(xié)同的推薦只會(huì)推薦舊的物品池凄,不能泛化到新物品。因此該模型結(jié)合內(nèi)容與行為提高模型的泛化能力尤慰。
在[8]中,作者通過(guò)引入隱含變量將主題模型與矩陣分解(PMF)相結(jié)合蕉饼,將item的隱變量替換成了item主題向量與隱向量的加和,其中隱向量決定了推薦對(duì)新舊物品的偏執(zhí)
3.排序
3.1.評(píng)估:CTR(點(diǎn)擊率)、CVR(轉(zhuǎn)化率)、停留時(shí)長(zhǎng)趾代、Rank笙什、...
3.2.模型:
LR芽隆、GBDT、GBDT+LR、xgboost、LGBM代虾、FM / FFM ...
4.序列預(yù)測(cè)
上述皆是基于用戶與物品的點(diǎn)對(duì)推薦模式学辱,并沒(méi)有充分考慮物品的時(shí)序關(guān)系
4.1.基于session的特征:
短期偏好衙傀、意圖識(shí)別,
4.2.基于session的模型(可作召回或端到端推薦):
馬爾科夫決策過(guò)程[9]、隱馬爾科夫、條件隨機(jī)場(chǎng)
[1] Hu Y, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets[C] Mining, 2008. ICDM'08. Eighth IEEE International Conference on. Ieee, 2008: 263-272.
[2] R. Salakhutdinov and A. Mnih. Probabilistic matrix factorization. Advances in Neural Information Processing Systems, 20:1257–1264, 2008.
[3] Salakhutdinov R, Mnih A. Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]/Proceedings of the 25th international conference on Machine learning. ACM, 2008: 880-887.
[4] Chen T, Zhang W, Lu Q, et al. SVDFeature: a toolkit for feature-based collaborative filtering[J]. Journal of Machine Learning Research, 2012, 13(Dec): 3619-3622.
[5] Rendle S. Factorization machines with libfm[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(3): 57.
[6] Juan Y, Zhuang Y, Chin W S, et al. Field-aware factorization machines for CTR prediction[C]/Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 43-50.
[7] Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating
side information in probabilistic matrix factorization with gaussian
processes.” arXiv preprint arXiv:1003.4944 (2010).
[8] Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]/Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011: 448-456.
[9] Markov decision Processes (MDPs)(Shani et al., 2002)