本篇的思維導(dǎo)圖如下:
1囤采、用戶行為數(shù)據(jù)
用戶行為數(shù)據(jù)在網(wǎng)站上最簡單的存在形式就是日志需曾,比如用戶在電子商務(wù)網(wǎng)站中的網(wǎng)頁瀏覽慧起、購買菇晃、點擊、評分和評論等活動蚓挤。
用戶行為在個性化推薦系統(tǒng)中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋 行為(implicit feedback)磺送。顯性反饋行為包括用戶明確表示對物品喜好的行為。網(wǎng)站中收集顯性反饋的主要方式就是評分和喜歡/不喜歡灿意。隱性反饋行為指的是那些不能明確反應(yīng)用戶喜好 的行為估灿。最具代表性的隱性反饋行為就是頁面瀏覽行為。
按照反饋的明確性分缤剧,用戶行為數(shù)據(jù)可以分為顯性反饋和隱性反饋馅袁,但按照反饋的方向分, 又可以分為正反饋和負(fù)反饋荒辕。正反饋指用戶的行為傾向于指用戶喜歡該物品汗销,而負(fù)反饋指用戶的 行為傾向于指用戶不喜歡該物品。在顯性反饋中抵窒,很容易區(qū)分一個用戶行為是正反饋還是負(fù)反饋弛针, 而在隱性反饋行為中,就相對比較難以確定李皇。
2削茁、用戶行為分析
在利用用戶行為數(shù)據(jù)設(shè)計推薦算法之前,研究人員首先需要對用戶行為數(shù)據(jù)進(jìn)行分析掉房,了解 數(shù)據(jù)中蘊含的一般規(guī)律付材,這樣才能對算法的設(shè)計起到指導(dǎo)作用。
2.1 用戶活躍度和物品流行度
很多關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)的研究發(fā)現(xiàn)圃阳,互聯(lián)網(wǎng)上的很多數(shù)據(jù)分布都滿足一種稱為Power Law3的分布厌衔,這個分布在互聯(lián)網(wǎng)領(lǐng)域也稱長尾分布。
如果定義物品的流行度K為被K個用戶產(chǎn)生過行為捍岳,而用戶的活躍度K定義為對K個物品產(chǎn)生過行為富寿,那么二者的分布大概如下圖所示(橫軸代表物品的流行度/用戶的活躍度睬隶,縱軸代表物品數(shù)/用戶數(shù)):
可以看到,不管是物品的流行度還是用戶的活躍度页徐,都近似于長尾分布苏潜。
2.2 用戶活躍度和物品流行度的關(guān)系
一般認(rèn)為,新用戶傾向于瀏覽熱門的物品变勇,因為他 們對網(wǎng)站還不熟悉恤左,只能點擊首頁的熱門物品,而老用戶會逐漸開始瀏覽冷門的物品搀绣。如果用橫坐標(biāo)表示用戶活躍度飞袋,縱坐標(biāo)表示具有某個活躍度的所有用戶評過分的物品的平均流行度。圖中曲線呈明顯下 降的趨勢链患,這表明用戶越活躍巧鸭,越傾向于瀏覽冷門的物品。
僅僅基于用戶行為數(shù)據(jù)設(shè)計的推薦算法一般稱為協(xié)同過濾算法麻捻。學(xué)術(shù)界對協(xié)同過濾算法進(jìn)行了深入研究纲仍,提出了很多方法,比如基于鄰域的方法(neighborhood-based)贸毕、隱語義模型 (latent factor model)郑叠、基于圖的隨機(jī)游走算法(random walk on graph)等。在這些方法中明棍, 最著名的锻拘、在業(yè)界得到最廣泛應(yīng)用的算法是基于鄰域的方法,而基于鄰域的方法主要包含下
面兩種算法击蹲。
1署拟、基于用戶的協(xié)同過濾算法:這種算法給用戶推薦和他興趣相似的其他用戶喜歡的物品。
2歌豺、? 基于物品的協(xié)同過濾算法: 這種算法給用戶推薦和他之前喜歡的物品相似的物品推穷。
3、基于鄰域的算法
基于鄰域的算法是推薦系統(tǒng)中最基本的算法类咧,該算法不僅在學(xué)術(shù)界得到了深入研究馒铃,而且在 業(yè)界得到了廣泛應(yīng)用『弁铮基于鄰域的算法分為兩大類区宇,一類是基于用戶的協(xié)同過濾算法,另一類是 基于物品的協(xié)同過濾算法≈荡粒現(xiàn)在我們所說的協(xié)同過濾议谷,基本上就就是指基于用戶或者是基于物品的協(xié)同過濾算法,因此堕虹,我們可以說基于鄰域的算法即是我們常說的協(xié)同過濾算法卧晓。
3.1 基于用戶的協(xié)同過濾算法(UserCF)
基于用戶的協(xié)同過濾算法的基本思想是:在一個在線個性化推薦系統(tǒng)中芬首,當(dāng)一個用戶A需要個性化推薦 時,可以先找到和他有相似興趣的其他用戶逼裆,然后把那些用戶喜歡的郁稍、而用戶A沒有聽說過的物品推薦給A。
從上面的描述中可以看到胜宇,基于用戶的協(xié)同過濾算法主要包括兩個步驟耀怜。
(1) 找到和目標(biāo)用戶興趣相似的用戶集合。
(2) 找到這個集合中的用戶喜歡的桐愉,且目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶财破。
這里,步驟1的關(guān)鍵是計算兩個用戶的興趣相似度仅财,協(xié)同過濾算法主要利用行為的相似度計算興趣的相似度。給定用戶u和用戶v碗淌,令N(u)表示用戶u曾經(jīng)有過正反饋的物品集合盏求,令N(v) 為用戶v曾經(jīng)有過正反饋的物品集合。那么我們可以通過以下兩種方法計算用戶的相似度:
余弦相似度為什么是上面這種寫法呢亿眠,因為這里碎罚,我們并不是用的用戶對物品的評分,而是用的0-1表示纳像,所以對兩個集合做交集荆烈,相當(dāng)于進(jìn)行了點乘。如果我們的矩陣是用戶對物品的評分竟趾,那么計算余弦相似度的時候可以利用用戶的具體評分而不是0-1值憔购。
如果簡單的基于余弦相似度,顯得過于粗糙岔帽,以圖書為例玫鸟,如果兩個用戶都曾經(jīng)買過《新華字典》,這絲毫不能說明他們興趣相似犀勒, 因為絕大多數(shù)中國人小時候都買過《新華字典》屎飘。但如果兩個用戶都買過《數(shù)據(jù)挖掘?qū)д摗罚强?以認(rèn)為他們的興趣比較相似贾费,因為只有研究數(shù)據(jù)挖掘的人才會買這本書钦购。換句話說,兩個用戶對冷門物品采取過同樣的行為更能說明他們興趣的相似度褂萧,因此押桃,我們可以基于物品的流行度對熱門物品進(jìn)行一定的懲罰:
得到用戶之間的興趣相似度后,UserCF算法會給用戶推薦和他興趣最相似的K個用戶喜歡的 物品导犹。如下的公式度量了UserCF算法中用戶u對物品i的感興趣程度:
其中怨规,S(u, K)包含和用戶u興趣最接近的K個用戶陌宿,N(i)是對物品i有過行為的用戶集合,wuv 是用戶u和用戶v的興趣相似度波丰,rvi代表用戶v對物品i的興趣.
3.2 基于物品的協(xié)同過濾算法(ItemCF)
UserCF在一些網(wǎng)站(如Digg)中得到了應(yīng)用壳坪,但該算法有一些缺點。首先掰烟, 隨著網(wǎng)站的用戶數(shù)目越來越大爽蝴,計算用戶興趣相似度矩陣將越來越困難,其運算時間復(fù)雜度和空間復(fù)雜度的增長和用戶數(shù)的增長近似于平方關(guān)系纫骑。其次蝎亚,基于用戶的協(xié)同過濾很難對推薦結(jié)果作出解釋。因此先馆,著名的電子商務(wù)公司亞馬遜提出了另一個算法——基于物品的協(xié)同過濾算法发框。
基于物品的協(xié)同過濾算法(簡稱ItemCF)給用戶推薦那些和他們之前喜歡的物品相似的物品。 比如煤墙,該算法會因為你購買過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機(jī)器學(xué)習(xí)》梅惯。不過,ItemCF算法并不利用物品的內(nèi)容屬性計算物品之間的相似度仿野,它主要通過分析用戶的行為記錄計算物品之間的相似度铣减。該算法認(rèn)為,物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大都也喜歡物品 B脚作。
基于物品的協(xié)同過濾算法主要分為兩步葫哗。
(1) 計算物品之間的相似度。
(2) 根據(jù)物品的相似度和用戶的歷史行為給用戶生成推薦列表球涛。
ItemCF的第一步是計算物品之間的相似度劣针,在網(wǎng)站中,我們經(jīng)骋诒猓看到這么一句話:Customers Who Bought This Item Also Bought酿秸,那么從這句話的定義出發(fā),我們可以用下面的公式定義物品相似度:
這里魏烫,分母|N(i)|是喜歡物品i的用戶數(shù)辣苏,而分子 N(i)?N(j) 是同時喜歡物品i和物品j的用戶 數(shù)。因此哄褒,上述公式可以理解為喜歡物品i的用戶中有多少比例的用戶也喜歡物品j稀蟋。但是卻存在一個問題。如果物品j很熱門呐赡,很多人都喜歡退客,
那么Wij就會很大,接近1。因此萌狂,該公式會造成任何物品都會和熱門的物品有很大的相似度档玻,這 對于致力于挖掘長尾信息的推薦系統(tǒng)來說顯然不是一個好的特性。為了避免推薦出熱門的物品茫藏,可以用下面的公式:
這里由于還是0-1的原因误趴,我們的余弦相似度可以寫成上面的形式。但是务傲,是不是每個用戶的貢獻(xiàn)都相同呢? 假設(shè)有這么一個用戶凉当,他是開書店的,并且買了當(dāng)當(dāng)網(wǎng)上80%的書準(zhǔn)備用來自己賣售葡。那么看杭, 他的購物車?yán)锇?dāng)當(dāng)網(wǎng)80%的書。假設(shè)當(dāng)當(dāng)網(wǎng)有100萬本書挟伙,也就是說他買了80萬本楼雹。從前面 對ItemCF的討論可以看到,這意味著因為存在這么一個用戶尖阔,有80萬本書兩兩之間就產(chǎn)生了相似度贮缅。這個用戶雖然活躍,但是買這些書并非都是出于自身的興趣诺祸,而且這些書覆 蓋了當(dāng)當(dāng)網(wǎng)圖書的很多領(lǐng)域携悯,所以這個用戶對于他所購買書的兩兩相似度的貢獻(xiàn)應(yīng)該遠(yuǎn)遠(yuǎn)小于一個只買了十幾本自己喜歡的書的文學(xué)青年祭芦。因此筷笨,我們要對這樣的用戶進(jìn)行一定的懲罰,John S. Breese在論文1中提出了一個稱為IUF(Inverse User Frequence)龟劲,即用戶活躍度對數(shù)的 倒數(shù)的參數(shù)胃夏,他也認(rèn)為活躍用戶對物品相似度的貢獻(xiàn)應(yīng)該小于不活躍的用戶,他提出應(yīng)該增加IUF參數(shù)來修正物品相似度的計算公式:
在得到物品之間的相似度后昌跌,ItemCF通過如下公式計算用戶u對一個物品j的興趣:
這里N(u)是用戶喜歡的物品的集合仰禀,S(j,K)是和物品j最相似的K個物品的集合,wji是物品j和i 的相似度蚕愤,rui是用戶u對物品i的興趣答恶。
3.3 UserCF和ItemCF的比較
首先我們提出一個問題,為什么新聞網(wǎng)站一般使用UserCF萍诱,而圖書悬嗓、電商網(wǎng)站一般使用ItemCF呢?
首先回顧一下UserCF算法和ItemCF算法的推薦原理裕坊。UserCF給用戶推薦那些和他有共同興 趣愛好的用戶喜歡的物品包竹,而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算 法的原理可以看到,UserCF的推薦結(jié)果著重于反映和用戶興趣相似的小群體的熱點周瞎,而ItemCF 的推薦結(jié)果著重于維系用戶的歷史興趣苗缩。換句話說,UserCF的推薦更社會化声诸,反映了用戶所在的小型興趣群體中物品的熱門程度酱讶,而ItemCF的推薦更加個性化,反映了用戶自己的興趣傳承双絮。
在新聞網(wǎng)站中浴麻,用戶的興趣不是特別細(xì)化,絕大多數(shù)用戶都喜歡看熱門的新聞囤攀。個性化新聞推薦更加強(qiáng)調(diào)抓住 新聞熱點软免,熱門程度和時效性是個性化新聞推薦的重點,而個性化相對于這兩點略顯次要焚挠。因 此膏萧,UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞,這樣在抓住熱 點和時效性的同時蝌衔,保證了一定程度的個性化榛泛。同時,在新聞網(wǎng)站中噩斟,物品的更新速度遠(yuǎn)遠(yuǎn)快于新用戶的加入速度曹锨,而且 對于新用戶,完全可以給他推薦最熱門的新聞剃允,因此UserCF顯然是利大于弊沛简。
但是,在圖書斥废、電子商務(wù)和電影網(wǎng)站椒楣,比如亞馬遜、豆瓣牡肉、Netflix中捧灰,ItemCF則能極大地發(fā) 揮優(yōu)勢。首先统锤,在這些網(wǎng)站中毛俏,用戶的興趣是比較固定和持久的。一個技術(shù)人員可能都是在購買 技術(shù)方面的書饲窿,而且他們對書的熱門程度并不是那么敏感煌寇,事實上越是資深的技術(shù)人員,他們看 的書就越可能不熱門免绿。此外唧席,這些系統(tǒng)中的用戶大都不太需要流行度來輔助他們判斷一個物品的 好壞,而是可以通過自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此淌哟,這些網(wǎng)站中個性化推薦的 任務(wù)是幫助用戶發(fā)現(xiàn)和他研究領(lǐng)域相關(guān)的物品迹卢。因此,ItemCF算法成為了這些網(wǎng)站的首選算法徒仓。 此外腐碱,這些網(wǎng)站的物品更新速度不會特別快,一天一次更新物品相似度矩陣對它們來說不會造成 太大的損失掉弛,是可以接受的症见。同時,從技術(shù)上考慮殃饿,UserCF需要維護(hù)一個用戶相似度的矩陣谋作,而ItemCF需要維護(hù)一個物品 相似度矩陣。從存儲的角度說乎芳,如果用戶很多遵蚜,那么維護(hù)用戶興趣相似度矩陣需要很大的空間, 同理奈惑,如果物品很多吭净,那么維護(hù)物品相似度矩陣代價較大。
下表是對二者的一個全面的比較:
4肴甸、隱語義模型
隱語義模型是最近幾年推薦系統(tǒng)領(lǐng)域最為熱門的研究話題寂殉,它的核心思想是通過隱含特征 (latent factor)聯(lián)系用戶興趣和物品。
使用隱語義模型的基本思路是:對于某個用戶原在,首先得到他的興趣分類友扰,然后從分類中挑選他可能喜歡的物品。那么這個方法大概需要解決三個問題:
1晤斩、? 如何給物品進(jìn)行分類?
2焕檬、? 如何確定用戶對哪些類的物品感興趣姆坚,以及感興趣的程度?
3澳泵、? 對于一個給定的類,選擇哪些屬于這個類的物品推薦給用戶兼呵,以及如何確定這些物品在一個類中的權(quán)重?
隱含語義分析技術(shù)從誕生到今天產(chǎn)生了很多著名的模型和方法兔辅,其中和該技術(shù)相關(guān)且耳熟能 詳?shù)拿~有pLSA、LDA击喂、隱含類別模型(latent class model)维苔、隱含主題模型(latent topic model)、 矩陣分解(matrix factorization)懂昂。這些技術(shù)和方法在本質(zhì)上是相通的介时,其中很多方法都可以用于 個性化推薦系統(tǒng)。我們將以LFM為例介紹隱含語義分析技術(shù)在推薦系統(tǒng)中的應(yīng)用。
LFM通過如下公式計算用戶u對物品i的興趣:
這個公式中 pu,k 和 qi,k 是模型的參數(shù)沸柔,其中 pu,k 度量了用戶u的興趣和第k個隱類的關(guān)系循衰,而 qi,k 度量了第k個隱類和物品i之間的關(guān)系。那么褐澎,下面的問題就是如何計算這兩個參數(shù)会钝。
對最優(yōu)化理論或者機(jī)器學(xué)習(xí)有所了解的讀者,可能對如何計算這兩個參數(shù)都比較清楚工三。這兩 個參數(shù)是從數(shù)據(jù)集中計算出來的迁酸。要計算這兩個參數(shù),需要一個訓(xùn)練集俭正,對于每個用戶u奸鬓,訓(xùn)練 集里都包含了用戶u喜歡的物品和不感興趣的物品,通過學(xué)習(xí)這個數(shù)據(jù)集掸读,就可以獲得上面的模型參數(shù)全蝶。我們可以通過最小化下面的損失函數(shù)來得到最合適的p和q:
上面的式子中,后面的兩項是為了防止過擬合的正則化項寺枉,求解上面的式子可以使用隨機(jī)梯度下降來得到抑淫,這里就不再贅述。
LFM模型在實際使用中有一個困難姥闪,那就是它很難實現(xiàn)實時的推薦始苇。經(jīng)典的LFM模型 每次訓(xùn)練時都需要掃描所有的用戶行為記錄,這樣才能計算出用戶隱類向量(pu)和物品隱類向 量(qi)筐喳。而且LFM的訓(xùn)練需要在用戶行為記錄上反復(fù)迭代才能獲得比較好的性能催式。
5、基于圖的模型
用戶行為很容易用二分圖表示避归,因此很多圖的算法都可以用到推薦系統(tǒng)中荣月。
令G(V,E)表示用戶物品二分圖梳毙,其中V ?VU ?VI 由用戶頂點集合VU 和物品頂點集合VI 組成哺窄。對于數(shù)據(jù)集中每一個二元組(u, i),圖中都有一套對應(yīng)的邊 e(vu ,vi ) 账锹,其中 vu∈?VU 是用戶u 對應(yīng)的頂點∈vi ?VI 是物品i對應(yīng)的頂點萌业。下圖是一個簡單的用戶物品二分圖模型,其中圓形節(jié) 3 點代表用戶奸柬,方形節(jié)點代表物品生年,圓形節(jié)點和方形節(jié)點之間的邊代表用戶對物品的行為。比如圖 中用戶節(jié)點A和物品節(jié)點a廓奕、b抱婉、d相連档叔,說明用戶A對物品a、b蒸绩、d產(chǎn)生過行為蹲蒲。
在得到二分圖之后,推薦的任務(wù)就變?yōu)槎攘坑脩繇旤c vu和與vu沒有邊直接相連的物品節(jié)點在圖上的相關(guān)性侵贵,相關(guān)性越高的物品在推薦列表中的權(quán)重就越高届搁。圖中兩個頂點的相關(guān)性主要取決于下面三個因素:
1、? 兩個頂點之間的路徑數(shù);
2窍育、 兩個頂點之間路徑的長度;
3卡睦、? 兩個頂點之間的路徑經(jīng)過的頂點。
而相關(guān)性高的一對頂點一般具有如下特征:
1漱抓、? 兩個頂點之間有很多路徑相連;
2表锻、? 連接兩個頂點之間的路徑長度都比較短;
3、? 連接兩個頂點之間的路徑不會經(jīng)過出度比較大的頂點乞娄。
基于上面3個主要因素恬偷,本節(jié)介紹的是一種基于隨機(jī)游走的PersonalRank算法:假設(shè)要給用戶u進(jìn)行個性化推薦熙掺,可以從用戶u對應(yīng)的節(jié)點vu開始在用戶物品二分圖上進(jìn)行隨 機(jī)游走。游走到任何一個節(jié)點時,首先按照概率α決定是繼續(xù)游走筛璧,還是停止這次游走并從vu節(jié) 點開始重新游走稻据。如果決定繼續(xù)游走矾利,那么就從當(dāng)前節(jié)點指向的節(jié)點中按照均勻分布隨機(jī)選擇一 個節(jié)點作為游走下次經(jīng)過的節(jié)點脓杉。這樣,經(jīng)過很多次隨機(jī)游走后到旦,每個物品節(jié)點被訪問到的概率 會收斂到一個數(shù)旨巷。最終的推薦列表中物品的權(quán)重就是物品節(jié)點的訪問概率。如果將上面的描述表示成公式添忘,可以得到如下公式: