1.簡介
個性化推薦是解決信息超載問題最有效的工具之一薛躬。本文對經(jīng)典的個性化推薦算法做了簡單的介紹,并且討論了這些算法的優(yōu)缺點秉剑。本文主要介紹了:協(xié)同過濾系統(tǒng)泛豪;基于內(nèi)容的推薦系統(tǒng);混合推薦系統(tǒng)以及基于用戶——產(chǎn)品二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦系統(tǒng)侦鹏。
2.推薦系統(tǒng)簡介
一個完整的推薦系統(tǒng)由 3 個部分組成:收集用戶信息的行為記錄模塊诡曙, 分析用戶喜好的模型分析模塊和推薦算法模塊。行為記錄模塊負(fù)責(zé)記錄用戶的喜好行為略水,例如問答价卤、評分、購買渊涝、下載慎璧、瀏覽等,問答和打分的信息相對好收集跨释,然而有的用戶不愿意向系統(tǒng)提供這些信息胸私, 那么就需要通過其他方式對用戶的行為進行分析,例如購買鳖谈、下載岁疼、瀏覽等行為;通過這些用戶的行為記錄分析用戶的潛在喜好產(chǎn)品和喜歡程度缆娃,這就是模型分析模塊要完成的工作捷绒;模型分析模塊的功能能夠?qū)τ脩舻男袨橛涗涍M行分析,建立合適的模型來描述用戶的喜好信息贯要。最后是推薦算法模塊暖侨, 利用后臺的推薦算法,實時地從產(chǎn)品集合中篩選出用戶感興趣的產(chǎn)品進行推薦崇渗。其中字逗,推薦算法模塊是推薦系統(tǒng)中最為核心的部分.。
3.協(xié)同過濾系統(tǒng)
協(xié)同過濾系統(tǒng)是第一代被提出并得到廣泛應(yīng)用的推薦系統(tǒng)宅广。其核心思想可以分為兩部分:首先葫掉,是利用用戶的歷史信息計算用戶之間的相似性;然后乘碑,利用與目標(biāo)用戶相似性較高的鄰居對其他產(chǎn)品的評價來預(yù)測目標(biāo)用戶對特定產(chǎn)品的喜好程度挖息。系統(tǒng)根據(jù)這一喜好程度來對目標(biāo)用戶進行推薦金拒。
協(xié)同過濾推薦系統(tǒng)的算法可以分為兩類:基于記憶的和基于模型的算法 兽肤。其中套腹,基于記憶的算法根據(jù)系統(tǒng)中所有被打過分的產(chǎn)品信息進行預(yù)測∽收。基于模型的算法是收集打分?jǐn)?shù)據(jù)進行學(xué)習(xí)并推斷用戶行為模型电禀,進而對某個產(chǎn)品進行預(yù)測打分;基于模型的協(xié)同過濾算法和基于記憶的算法的不同在于, 基于模型的方法不是基于一些啟發(fā)規(guī)則進行預(yù)測計算, 而是基于對已有數(shù)據(jù)應(yīng)用統(tǒng)計和機器學(xué)習(xí)得到的模型進行預(yù)測笤休;基于模型的協(xié)同過濾推薦系統(tǒng)有概率相關(guān)模型尖飞,極大熵模型,線性回歸店雅,基于聚類的 Gibbs 抽樣算法政基,Bayes 模型等等。
協(xié)同過濾系統(tǒng)有以下的優(yōu)點:(1)具有推薦新信息的能力闹啦,可以發(fā)現(xiàn)用戶潛在的但自己尚未覺察的興趣偏好沮明。(2)能夠推薦藝術(shù)品、音樂窍奋、電影等難以進行內(nèi)容分析的產(chǎn)品荐健。
它也面臨很多問題:(1)如何對新用戶進行推薦或如何推薦新產(chǎn)品給用戶(冷啟動問題);(2)打分稀疏性問題琳袄;(3)算法可擴展性問題江场;(4)隨著用戶數(shù)量的增多,計算量成線性加大窖逗,其性能會越來越差址否。
4.基于內(nèi)容的推薦系統(tǒng)
最初的基于內(nèi)容的推薦是協(xié)同過濾技術(shù)的延續(xù)與發(fā)展,它不需要依據(jù)用戶對項目的評價意見滑负,而是依據(jù)用戶已經(jīng)選擇的產(chǎn)品內(nèi)容信息計算用戶之間的相似性在张,進而進行相應(yīng)的推薦。隨著機器學(xué)習(xí)等技術(shù)的完善矮慕,現(xiàn)在的基于內(nèi)容的推薦系統(tǒng)可以分別對用戶和產(chǎn)品建立配置文件帮匾,通過分析已經(jīng)購買(或瀏覽) 過的內(nèi)容,建立或更新用戶的配置文件痴鳄。系統(tǒng)可以比較用戶與產(chǎn)品配置文件的相似度瘟斜,并直接向用戶推薦與其配置文件最相似的產(chǎn)品』狙埃基于內(nèi)容的推薦算法的根本在于信息獲取和信息過濾螺句,因為在文本信息獲取與過濾方面的研究較為成熟,現(xiàn)有很多基于內(nèi)容的推薦系統(tǒng)都是通過分析產(chǎn)品的文本信息進行推薦橡类。
基于內(nèi)容推薦的優(yōu)點有:(1)可以處理新用戶和新產(chǎn)品問題(冷啟動)蛇尚。由于新用戶沒有選擇信息,新產(chǎn)品沒有被選信息顾画,因此協(xié)同過濾推薦系統(tǒng)無法處理這類問題取劫。但是基于內(nèi)容的推薦系統(tǒng)可以根據(jù)用戶和產(chǎn)品的配置文件 進行相應(yīng)的推薦匆笤。(2)實際系統(tǒng)中用戶對產(chǎn)品的打分信息非常少,協(xié)同過濾系統(tǒng)由于打分稀疏性的問題谱邪,受到很大的限制炮捧。基于內(nèi)容的推薦系統(tǒng)可以不受打分稀疏性問題的約束惦银。(3)能推薦新出現(xiàn)的產(chǎn)品和非流行的產(chǎn)品咆课,能夠發(fā)現(xiàn)隱藏的“暗信息”。 (4)通過列出推薦項目的內(nèi)容特征扯俱,可以解釋為什么推薦這些產(chǎn)品书蚪,使用戶在使用系統(tǒng)的時候具有很好的用戶體驗。
5.基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法
基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法不考慮用戶和產(chǎn)品的內(nèi)容特征迅栅,而僅僅把它們看成抽象的節(jié)點善炫,所有算法利用的信息都藏在用戶和產(chǎn)品的選擇關(guān)系之中。
5.1 基于二部分圖資源分配的推薦算法
考慮一個由個用戶和
個產(chǎn)品構(gòu)成的推薦系統(tǒng)库继,其中如果用戶
選擇過產(chǎn)品
箩艺, 就在
和
之間連接一條邊
宪萄,否則
艺谆。由此, 這個系統(tǒng)可以用一個具有
個節(jié)點的二部分圖表示。對于任意目標(biāo)用戶
拜英,推薦算法的目的是把所有
沒有選擇過的產(chǎn)品按照
喜歡的程度進行排序静汤,并且把排名靠前的那些產(chǎn)品推薦給
。
在該推薦算法中居凶,要提高算法的準(zhǔn)確性有以下幾種方法: 在同樣的用戶喜好程度下虫给,推薦的產(chǎn)品度越小越好;可以通過去除重復(fù)屬性獲得高精確度的算法 侠碧;可以通過引入耦合閾值提高算法精確性并降低算法復(fù)雜性抹估。
5.2 基于傳播的用戶相似性度量
傳統(tǒng)的協(xié)同過濾算法是利用皮爾遜系數(shù)來計算用戶相似度,這里基于傳播的用戶相似性度量算法的主要思想是利用資源分配原理計算用戶之間的相似性弄兜,進而利用協(xié)同過濾算法向用戶進行個性化推薦药蜻。這里假設(shè)所有產(chǎn)品的貢獻是一樣的,也就是說被1000個人選中和被1個人選中的產(chǎn)品的影響力是一樣的(同一個產(chǎn)品)替饿。這個算法驗證了產(chǎn)品的度信息確實影響了推薦的準(zhǔn)確率语泽,降低大度節(jié)點的影響力有利于提高推薦的準(zhǔn)確度。
6.混合推薦系統(tǒng)
協(xié)同過濾视卢,基于內(nèi)容踱卵,以及基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法在投入實際運營的時候都有各自的缺陷,因此實際的推薦系統(tǒng)大多把不同的推薦算法進行結(jié)合据过,提出了混合推薦算法惋砂。
6.1 獨立系統(tǒng)相互結(jié)合的推薦系統(tǒng)
建立混合推薦系統(tǒng)的方法之一即是獨立地應(yīng)用協(xié)同過濾蔬充、基于內(nèi)容和基于網(wǎng)絡(luò)結(jié)構(gòu)的算法進行推薦;然后將兩種或多種系統(tǒng)的推薦結(jié)果結(jié)合起來班利,利用預(yù)測打分的線性組合進行推薦;又或者榨呆,只推薦某一時刻在某一個評價指標(biāo)下表現(xiàn)更好的算法的結(jié)果罗标。
6.2 在協(xié)同過濾系統(tǒng)中加入基于內(nèi)容的算法
該算法是利用用戶的配置文件進傳統(tǒng)的協(xié)同過濾計算;用戶的相似度通過基于內(nèi)容的配置文件計算而得积蜻,而非共同打過分的產(chǎn)品的信息闯割;這樣可以克服協(xié)同過濾系統(tǒng)中的稀疏性問題;這個方法的另一個好處就是不僅僅當(dāng)產(chǎn)品被配置文件相似的用戶打了分才能被推薦竿拆,如果產(chǎn)品與用戶的配置文件很相似也會被直接推薦宙拉。
7.其他推薦算法
(1)關(guān)聯(lián)規(guī)則分析:關(guān)聯(lián)規(guī)則關(guān)注用戶行為的關(guān)聯(lián)模式。例如丙笋,購買香煙的人大都會購買打火機谢澈,因此可以在香煙和打火機之間 建立關(guān)聯(lián)關(guān)系,通過這種關(guān)聯(lián)關(guān)系向用戶推薦其他產(chǎn)品御板。
(2)基于社會網(wǎng)絡(luò)分析的推薦算法:利用用戶的購買行為建立用戶對產(chǎn)品的偏好相似性锥忿,并依此向用戶推薦產(chǎn)品并預(yù)測產(chǎn)品的出售情況,從而增加用戶的黏著性怠肋。
8.結(jié)論
本文主要介紹的協(xié)同過濾系統(tǒng)敬鬓,基于內(nèi)容的推薦系統(tǒng),混合推薦系統(tǒng)以及基于用戶—產(chǎn)品二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦系統(tǒng)笙各。其中協(xié)同過濾算法和基于網(wǎng)絡(luò)結(jié)構(gòu)的算法都存在冷啟動問題钉答,無法對新用戶和新產(chǎn)品進行推薦¤厩溃基于內(nèi)容的推薦算法對獲取的數(shù)據(jù)要求較高数尿,無法處理多媒體數(shù)據(jù)。
注:本篇總結(jié)簡要概括了本論文所介紹的推薦算法惶楼。原文中的介紹更加詳細(xì)砌创,可點擊論文鏈接參考學(xué)習(xí)。