個(gè)性化推薦典型任務(wù)與傳統(tǒng)算法

典型任務(wù)和算法(模型)

1.相似匹配(基于內(nèi)容)

1.1 標(biāo)簽匹配

1.2 LDA主題模型

2.評(píng)分預(yù)測(cè)

2.1.large scale 問(wèn)題嘴瓤。為什么不直接進(jìn)行回歸預(yù)測(cè)呢?

2.2.user or item based 協(xié)同過(guò)濾

以u(píng)ser-based協(xié)同過(guò)濾為例:找出與當(dāng)前User i最相似的N個(gè)User适篙,并根據(jù)N個(gè)User對(duì)Item的打分估計(jì) i 對(duì)該Item的打分。相似度采用jaccard similarity 或 Cosine Similarity:

\qquad sim(x,y) = \frac {r_x \cap r_y}{r_x \cup r_y}

\qquad sim(x,y) = 1- cosine(x,y) = 1 - \frac{ A \cdot B}{\mid\mid A\mid\mid \ \mid\mid B\mid\mid}

2.3.矩陣分解(model-based 協(xié)同過(guò)濾):

矩陣分解相當(dāng)于:表示學(xué)習(xí)(用戶涣觉、物品)+相似匹配

2.3.1.SVD(PCA):

奇異值分解尝蠕,通過(guò)降維的方法來(lái)補(bǔ)全用戶-物品評(píng)分矩陣联喘,對(duì)矩陣中沒(méi)有出現(xiàn)的值進(jìn)行估計(jì)华蜒。缺點(diǎn)是分解前需補(bǔ)全R矩陣的缺失值(比如用全局平均值或用戶、物品平均值進(jìn)行補(bǔ)全)豁遭,耗費(fèi)存儲(chǔ)大叭喜;計(jì)算復(fù)雜度高。

\qquad R' = U_{m\times m}S_{m\times n}V_{n \times n}^T

svd.png

2.3.2.ALS:

交替最小二乘梯度下降

als算法.png

\qquad R' = X_{m \times k}Y_{n \times k}^T
\qquad L_{exp} = \sum\limits_{u,i \in S}(r_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i})^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}

求解方式固定X求Y蓖谢,固定Y求X

\qquad x_u=(Y^TY+\lambda I)^{?1}Y^Tr(u)
\qquad y_i=(X^TX+\lambda I)^{?1}X^Tr(i)

支持隱反饋數(shù)據(jù)(0,1)(加權(quán)的正則化矩陣分解)[1]

\qquad L_{WRMF} = \sum\limits_{u,i}c_{ui} \big( p_{ui} - \textbf{x}_{u}^{\intercal} \cdot{} \textbf{y}_{i} \big) ^{2} + \lambda_{x} \sum\limits_{u} \left\Vert \textbf{x}_{u} \right\Vert^{2} + \lambda_{y} \sum\limits_{u} \left\Vert \textbf{y}_{i} \right\Vert^{2}
\qquad c_{ui} = 1 + \alpha d_{ui}
\qquad x_{u} = (Y^{T}C^{u}Y + \lambda I )^{ - 1 }Y^{T}C^{u}r(u)
\qquad y_{i} = (X^{T}C^{i}X + \lambda I )^{ - 1 }X^{T}C^{i}r(i)

2.3.3.PMF

Probabilistic Matrix Factorization概率矩陣分解[2]

傳統(tǒng)的協(xié)同過(guò)濾方法既不能處理大數(shù)據(jù)量的推薦捂蕴,也不能處理只有很少評(píng)分的用戶。這篇論文提出了著名的概率矩陣分解的方法來(lái)解決這個(gè)問(wèn)題闪幽。概率矩陣分解的思想是以中線性因子模型啥辨,它使用與用戶相關(guān)的系數(shù),將用戶的偏好建模成一個(gè)一系列向量的線性組合盯腌。

博文

2.3.4.BPMF

Bayesian Probabilistic Matrix Factorization貝葉斯概率矩陣分解[3]

本論文的模型和前文類似溉知,但在求解時(shí),是從貝葉斯角度而不是傳統(tǒng)概率角度出發(fā):不再把系統(tǒng)參數(shù)當(dāng)做一個(gè)固定值估計(jì)腕够,而是作為一個(gè)服從某種分布的隨機(jī)變量级乍,轉(zhuǎn)而估計(jì)該分布的參數(shù)。

2.4.基于特征+矩陣分解:

物品特征帚湘、用戶特征玫荣、用戶行為特征
2.4.1.SVD++(加入用戶偏執(zhí)的SVD)
\qquad R' = B_i + B_u + X_{m \times k}Y_{n \times k}^T

2.4.2.SVDFeature[4]

SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11競(jìng)賽中開(kāi)發(fā)出來(lái)的工具包。它的目的是有效地解決基于特征的矩陣分解

三種激活函數(shù)(預(yù)測(cè)值的轉(zhuǎn)換)與損失函數(shù)大诸,可應(yīng)用于回歸與二分類捅厂。 TODO
\qquad R' = \mu + (\sum_{j}b_j^{(g)} \gamma_j + \sum_{j}b_j^{(u)} \alpha_j + \sum_{j}b_j^{(i)} \beta_j) + (\sum_j p_j)^T (\sum_j q_j\beta _j), \qquad \alpha表示用戶特征贯卦,\beta表示商品特征,\gamma表示全局特征

2.4.3.FM

Factorization Machine 因子分解機(jī)[5]焙贷,解決稀疏數(shù)據(jù)下的特征組合問(wèn)題撵割,多種激活函數(shù)與損失函數(shù)可以應(yīng)用于比如回歸、分類盈厘、排序睁枕。 TODO
\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_i,V_j>x_i x_j

2.4.4.FFM[6]

在FM模型中官边,每一個(gè)特征會(huì)對(duì)應(yīng)一個(gè)隱變量沸手,但在FFM模型中,認(rèn)為應(yīng)該將特征分為多個(gè)field注簿,每個(gè)特征對(duì)應(yīng)每個(gè)field分別有一個(gè)隱變量契吉。也就是說(shuō),“Day=26/11/15”這個(gè)特征與“Country”特征和“Ad_type"特征進(jìn)行關(guān)聯(lián)的時(shí)候使用不同的隱向量诡渴,這與“Country”和“Ad_type”的內(nèi)在差異相符捐晶,也是FFM中“field-aware”的由來(lái)惑灵。
\qquad R' = w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n<V_{i,f_j},V_{j,f_i}>x_i x_j

2.4.5 DPMF[7]

依賴輔助特征的矩陣分解Dependent Probabilistic Matrix Factorization

與PMF類似哮伟,加入了一些經(jīng)過(guò)高斯處理的特征信息

2.4.6.Collaborative Topic Modeling(LDA+協(xié)同)(內(nèi)容+行為)[8]

基于協(xié)同的推薦只會(huì)推薦舊的物品池凄,不能泛化到新物品。因此該模型結(jié)合內(nèi)容與行為提高模型的泛化能力尤慰。

在[8]中,作者通過(guò)引入隱含變量將主題模型與矩陣分解(PMF)相結(jié)合蕉饼,將item的隱變量替換成了item主題向量\theta_j與隱向量\xi_j的加和v_j = \theta_j + \xi_j,其中隱向量決定了推薦對(duì)新舊物品的偏執(zhí)

3.排序

3.1.評(píng)估:CTR(點(diǎn)擊率)、CVR(轉(zhuǎn)化率)、停留時(shí)長(zhǎng)趾代、Rank笙什、...

3.2.模型:

LR芽隆、GBDT、GBDT+LR、xgboost、LGBM代虾、FM / FFM ...

4.序列預(yù)測(cè)

上述皆是基于用戶與物品的點(diǎn)對(duì)推薦模式学辱,并沒(méi)有充分考慮物品的時(shí)序關(guān)系

4.1.基于session的特征:

短期偏好衙傀、意圖識(shí)別,

4.2.基于session的模型(可作召回或端到端推薦):

馬爾科夫決策過(guò)程[9]、隱馬爾科夫、條件隨機(jī)場(chǎng)

[1] Hu Y, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets[C] Mining, 2008. ICDM'08. Eighth IEEE International Conference on. Ieee, 2008: 263-272.

[2] R. Salakhutdinov and A. Mnih. Probabilistic matrix factorization. Advances in Neural Information Processing Systems, 20:1257–1264, 2008.

[3] Salakhutdinov R, Mnih A. Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]/Proceedings of the 25th international conference on Machine learning. ACM, 2008: 880-887.

[4] Chen T, Zhang W, Lu Q, et al. SVDFeature: a toolkit for feature-based collaborative filtering[J]. Journal of Machine Learning Research, 2012, 13(Dec): 3619-3622.

[5] Rendle S. Factorization machines with libfm[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(3): 57.

[6] Juan Y, Zhuang Y, Chin W S, et al. Field-aware factorization machines for CTR prediction[C]/Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 43-50.

[7] Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating
side information in probabilistic matrix factorization with gaussian
processes.” arXiv preprint arXiv:1003.4944 (2010).

[8] Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]/Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011: 448-456.

[9] Markov decision Processes (MDPs)(Shani et al., 2002)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末见秽,一起剝皮案震驚了整個(gè)濱河市返顺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件踱承,死亡現(xiàn)場(chǎng)離奇詭異倡缠,居然都是意外死亡米母,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門毡琉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)铁瞒,“玉大人,你說(shuō)我怎么就攤上這事桅滋』鬯#” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵丐谋,是天一觀的道長(zhǎng)芍碧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)号俐,這世上最難降的妖魔是什么泌豆? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮吏饿,結(jié)果婚禮上踪危,老公的妹妹穿的比我還像新娘。我一直安慰自己猪落,他們只是感情好贞远,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著笨忌,像睡著了一般蓝仲。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上官疲,一...
    開(kāi)封第一講書(shū)人閱讀 51,155評(píng)論 1 299
  • 那天袱结,我揣著相機(jī)與錄音,去河邊找鬼途凫。 笑死垢夹,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的颖榜。 我是一名探鬼主播棚饵,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼掩完!你這毒婦竟也來(lái)了噪漾?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤且蓬,失蹤者是張志新(化名)和其女友劉穎欣硼,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體恶阴,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诈胜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年豹障,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片焦匈。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡血公,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缓熟,到底是詐尸還是另有隱情累魔,我是刑警寧澤,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布够滑,位于F島的核電站垦写,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏彰触。R本人自食惡果不足惜梯投,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望况毅。 院中可真熱鬧分蓖,春花似錦、人聲如沸俭茧。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)母债。三九已至,卻和暖如春尝抖,著一層夾襖步出監(jiān)牢的瞬間毡们,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工昧辽, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留衙熔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓搅荞,卻偏偏與公主長(zhǎng)得像红氯,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子咕痛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容