論文學(xué)習(xí):A new user similarity model to improve the accuracy of collaborative filtering

一.概要

本文重點介紹基于內(nèi)存的協(xié)同過濾算法的推薦性能,提出了一種改進的啟發(fā)式相似性度量模型价认,旨在提高預(yù)測精度油挥。本文共分為五節(jié),第一節(jié)簡要介紹了協(xié)同過濾方法暇检;第二節(jié)提出了協(xié)同過濾現(xiàn)存的一些問題以及已有的解決方案浩村;第三節(jié)首先分析了現(xiàn)有相似性度量的弊端,然后介紹了所提出的相似性度量方法的動機和假設(shè)占哟,最后給出了所提出的相似性度量方法的數(shù)學(xué)形式化心墅;第四節(jié)引入實驗驗證了所提出的改進的啟發(fā)式相似性度量模型的優(yōu)越性;第五節(jié)得出結(jié)論榨乎。

二.協(xié)同過濾現(xiàn)存問題

協(xié)同過濾(CF)作為一種個性化推薦技術(shù)怎燥,已在許多領(lǐng)域得到廣泛使用。但是蜜暑,協(xié)同過濾還存在一些問題铐姚,例如冷啟動問題,數(shù)據(jù)稀疏性和可伸縮性等肛捍;會降低協(xié)同過濾推薦的準(zhǔn)確性隐绵。為了提高準(zhǔn)確性,許多研究人員提出了一些新的相似性度量拙毫。(具體方法及內(nèi)容在此不再介紹依许,可點擊論文下載鏈接及相關(guān)參考文獻進行學(xué)習(xí))

三.改進的啟發(fā)式相似性度量模型

1.現(xiàn)存的相似性度量的弊端

(1)無論兩個用戶的評分如何,相似度都較低缀蹄。
(2)無論兩個用戶的評分之間有何差異峭跳,都高度相似。
(3)忽略共同評分的比例會導(dǎo)致準(zhǔn)確度低缺前。
(4)放棄評分的絕對值將很難區(qū)分不同的用戶蛀醉。
(5)Jaccard和均方差(MSD)的結(jié)合只能解決部分問題。

2.改進的啟發(fā)式相似性度量方法的動機

初始啟發(fā)式相似性度量
此啟發(fā)式相似性度量由以下三個因素組成:相似度衅码、影響力和受歡迎度拯刁。因此,確定名為PIP逝段。
其中第一個因素是相似度垛玻,它不僅計算兩個評分之間的絕對差異割捅,而且還考慮這些評分是否一致,從而對不一致的評分進行懲罰夭谤;影響力表示用戶不喜歡某個項目的程度棺牧,如果兩個用戶對一個項目的評分為5,它將顯示出比4更強烈的偏好朗儒,我們注意到颊乘,當(dāng)兩個評分不一致時,它在計算相似度和影響力時會反復(fù)受到懲罰醉锄;最后一個因素是受歡迎程度乏悄,它表示兩個用戶的評分有多普遍。如果兩個用戶的平均評分與總用戶的平均評分相差較大恳不,則兩個評分可以提供更多關(guān)于兩個用戶相似性的信息檩小。用戶u和v之間的PIP相似度可以計算為:sim(u,v)^{PIP}=\sum_{p\in I}{PIP(r_{u,p},r_{v,p})} 其中PIP(r_{u,p},r_{v,p})是用戶u和v在項目P上的兩個評分r_{u,p}r_{v,p}的PIP值,PIP(r_{u,p},r_{v,p})定義如下:PIP(r_{u,p},r_{v,p})=Proximity(r_{u,p},r_{v,p})*Impact(r_{u,p},r_{v,p})*Popularity(r_{u,p},r_{v,p})以上三個因素的詳細計算可在論文原文的參考文獻中學(xué)習(xí)烟勋。
改進的啟發(fā)式相似性度量方法的動機
(1)相似性度量不僅考慮絕對評分规求,而且考慮共同評分的比例。
(2)相似性不僅取決于本地上下文卵惦,還取決于用戶行為的全局偏好阻肿。
(3)相似性度量應(yīng)被規(guī)范化,并易于與其他相似性度量結(jié)合沮尿。

3.改進的啟發(fā)式相似性度量方法的數(shù)學(xué)形式化

在上節(jié)中給出的PIP相似性公式過于復(fù)雜且無法標(biāo)準(zhǔn)化丛塌。為了懲罰不良相似性并獎勵良好相似性,我們在模型中采用了非線性函數(shù)畜疾。那就是S形函數(shù)赴邻。此外,我們將改進的PIP度量稱為PSS(相似度啡捶,重要性姥敛,奇異性)。用戶PSS相似度可以計算如下:sim(u,v)^{PSS}=\sum_{p\in I}{PSS(r_{u,p},r_{v,p})} 其中PSS(r_{u,p},r_{v,p})是用戶u和v在項目P上的兩個評分r_{u,p}r_{v,p}的PSS值届慈,PSS(r_{u,p},r_{v,p})定義如下:PSS(r_{u,p},r_{v,p})=Proximity(r_{u,p},r_{v,p})*Significance(r_{u,p},r_{v,p})*Singularity(r_{u,p},r_{v,p}) 可以看出徒溪,PSS測度由相似度,重要性和奇異性三個因素構(gòu)成金顿。相似度與PlP的類似,然而鲤桥,它只考慮了兩個評級之間的距離揍拆;第二個因素是重要性,我們假設(shè)茶凳,如果兩個評分離中間評級越遠嫂拴,評分的重要性就越大播揪,例如,如果兩個用戶將兩個項目評為(4,4)或(2,2)比評為(5,3)或(4,2)更重要筒狠;第三個因素叫做奇異性猪狈,這一因素反映了兩個評分與其他評分的不同之處。這三個因素的形成定義如下:Proximity(r_{u,p},r_{v,p})=1-\frac{1}{1+exp(-|r_{u,p}-r_{v,p}|)} Significance(r_{u,p},r_{v,p})=\frac{1}{1+exp(-|r_{u,p}-r_{med}|*|r_{v,p}-r_{med}|)} Singularity (r_{u,p},r_{v,p})=1-\frac{1}{1+exp(-|\frac{r_{u,p}+r_{v,p}}{2}-\mu_{p}|)} 其中\mu_p是項目p的平均評分辩恼,r_{u,p}是用戶u對項目p的評分雇庙,與初始PIP的三個因素不同,這里每個因素都屬于(0,1)灶伊。
共同評分是一個非常重要的因素疆前,在這個模型中,我們修改了公式以懲罰一小部分共同評分聘萨,定義如下:sim(u,v)^{Jaccard^{,}}= \frac{|I_u\cap{I_v}|}{|I_u|\times|I_v|} 我們可以將PSS與修改后的Jaccard結(jié)合起來作為新的相似性度量竹椒,稱為JPSS。形式化如下:sim(u,v)^{JPSS}=sim(u,v)^{PSS}*sim(u,v)^{Jaccard^{,}} 此外米辐,我們應(yīng)該考慮每個用戶的偏好胸完,不同的用戶具有不同的評分標(biāo)準(zhǔn),一些用戶更喜歡給予很高的評價翘贮。一些用戶傾向于評價低價值赊窥,為了反映這種行為偏好,我們采用評分的均值和方差來模擬用戶偏好择膝∈那恚基于相似性度量的用戶評級偏好可以定義如下:sim(u,v)^{URP}=1-\frac{1}{1+exp(-|\mu_{u}-\mu_{v}|*|\sigma_u-\sigma_v|)} 其中\mu_u\mu_v分別是用戶u和v的平均評分,并且\mu_u=\sum_{p\in I_u}r_{u,p}/|I_u|. \sigma_u\sigma_v分別表示用戶u和v的評分標(biāo)準(zhǔn)差肴捉,并且\sigma_u=\sqrt{\sum_{p\in I_u}(r_{u,p}-\overline{r}_u)^2/|I_u|}.
則最終改進的啟發(fā)式相似性公式表示為:sim(u,v)^{NHSM}=sim(u,v)^{JPSS}*sim(u,v)^{URP}

四.結(jié)論

本文首先分析了現(xiàn)有相似性度量方法的弊端腹侣。為了克服這些不足,提出了一種新的基于PIP測度的相似度測度方法齿穗。初始的PIP相似度未標(biāo)準(zhǔn)化且計算復(fù)雜傲隶,因此,本文提出了一種新的相似模型來克服這些不足窃页,而且跺株,改進的相似性度量考慮了兩個用戶之間的共同評分的比例,考慮到不同的用戶具有不同的評級偏好脖卖,本文使用均值和方差評分等級以描述用戶的評分偏好乒省。本文在最后引入實驗,驗證了NHSM方法的有效性畦木,并且可以克服傳統(tǒng)相似性度量的缺點袖扛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蛆封,更是在濱河造成了極大的恐慌唇礁,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惨篱,死亡現(xiàn)場離奇詭異盏筐,居然都是意外死亡,警方通過查閱死者的電腦和手機砸讳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門琢融,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绣夺,你說我怎么就攤上這事吏奸。” “怎么了陶耍?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵奋蔚,是天一觀的道長。 經(jīng)常有香客問我烈钞,道長泊碑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任毯欣,我火速辦了婚禮馒过,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘酗钞。我一直安慰自己腹忽,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布砚作。 她就那樣靜靜地躺著窘奏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪葫录。 梳的紋絲不亂的頭發(fā)上着裹,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機與錄音米同,去河邊找鬼骇扇。 笑死,一個胖子當(dāng)著我的面吹牛面粮,可吹牛的內(nèi)容都是我干的少孝。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼熬苍,長吁一口氣:“原來是場噩夢啊……” “哼韭山!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冷溃,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤钱磅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后似枕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盖淡,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年凿歼,在試婚紗的時候發(fā)現(xiàn)自己被綠了褪迟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡答憔,死狀恐怖味赃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情虐拓,我是刑警寧澤心俗,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站蓉驹,受9級特大地震影響城榛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜态兴,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一狠持、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瞻润,春花似錦喘垂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至楚午,卻和暖如春昭齐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背矾柜。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工阱驾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人怪蔑。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓里覆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親缆瓣。 傳聞我的和親對象是個殘疾皇子喧枷,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容