一.概要
本文重點介紹基于內(nèi)存的協(xié)同過濾算法的推薦性能,提出了一種改進的啟發(fā)式相似性度量模型价认,旨在提高預(yù)測精度油挥。本文共分為五節(jié),第一節(jié)簡要介紹了協(xié)同過濾方法暇检;第二節(jié)提出了協(xié)同過濾現(xiàn)存的一些問題以及已有的解決方案浩村;第三節(jié)首先分析了現(xiàn)有相似性度量的弊端,然后介紹了所提出的相似性度量方法的動機和假設(shè)占哟,最后給出了所提出的相似性度量方法的數(shù)學(xué)形式化心墅;第四節(jié)引入實驗驗證了所提出的改進的啟發(fā)式相似性度量模型的優(yōu)越性;第五節(jié)得出結(jié)論榨乎。
二.協(xié)同過濾現(xiàn)存問題
協(xié)同過濾(CF)作為一種個性化推薦技術(shù)怎燥,已在許多領(lǐng)域得到廣泛使用。但是蜜暑,協(xié)同過濾還存在一些問題铐姚,例如冷啟動問題,數(shù)據(jù)稀疏性和可伸縮性等肛捍;會降低協(xié)同過濾推薦的準(zhǔn)確性隐绵。為了提高準(zhǔn)確性,許多研究人員提出了一些新的相似性度量拙毫。(具體方法及內(nèi)容在此不再介紹依许,可點擊論文下載鏈接及相關(guān)參考文獻進行學(xué)習(xí))
三.改進的啟發(fā)式相似性度量模型
1.現(xiàn)存的相似性度量的弊端
(1)無論兩個用戶的評分如何,相似度都較低缀蹄。
(2)無論兩個用戶的評分之間有何差異峭跳,都高度相似。
(3)忽略共同評分的比例會導(dǎo)致準(zhǔn)確度低缺前。
(4)放棄評分的絕對值將很難區(qū)分不同的用戶蛀醉。
(5)Jaccard和均方差(MSD)的結(jié)合只能解決部分問題。
2.改進的啟發(fā)式相似性度量方法的動機
初始啟發(fā)式相似性度量
此啟發(fā)式相似性度量由以下三個因素組成:相似度衅码、影響力和受歡迎度拯刁。因此,確定名為PIP逝段。
其中第一個因素是相似度垛玻,它不僅計算兩個評分之間的絕對差異割捅,而且還考慮這些評分是否一致,從而對不一致的評分進行懲罰夭谤;影響力表示用戶不喜歡某個項目的程度棺牧,如果兩個用戶對一個項目的評分為5,它將顯示出比4更強烈的偏好朗儒,我們注意到颊乘,當(dāng)兩個評分不一致時,它在計算相似度和影響力時會反復(fù)受到懲罰醉锄;最后一個因素是受歡迎程度乏悄,它表示兩個用戶的評分有多普遍。如果兩個用戶的平均評分與總用戶的平均評分相差較大恳不,則兩個評分可以提供更多關(guān)于兩個用戶相似性的信息檩小。用戶u和v之間的PIP相似度可以計算為: 其中
是用戶u和v在項目P上的兩個評分
和
的PIP值,
定義如下:
以上三個因素的詳細計算可在論文原文的參考文獻中學(xué)習(xí)烟勋。
改進的啟發(fā)式相似性度量方法的動機
(1)相似性度量不僅考慮絕對評分规求,而且考慮共同評分的比例。
(2)相似性不僅取決于本地上下文卵惦,還取決于用戶行為的全局偏好阻肿。
(3)相似性度量應(yīng)被規(guī)范化,并易于與其他相似性度量結(jié)合沮尿。
3.改進的啟發(fā)式相似性度量方法的數(shù)學(xué)形式化
在上節(jié)中給出的PIP相似性公式過于復(fù)雜且無法標(biāo)準(zhǔn)化丛塌。為了懲罰不良相似性并獎勵良好相似性,我們在模型中采用了非線性函數(shù)畜疾。那就是S形函數(shù)赴邻。此外,我們將改進的PIP度量稱為PSS(相似度啡捶,重要性姥敛,奇異性)。用戶PSS相似度可以計算如下: 其中
是用戶u和v在項目P上的兩個評分
和
的PSS值届慈,
定義如下:
可以看出徒溪,PSS測度由相似度,重要性和奇異性三個因素構(gòu)成金顿。相似度與PlP的類似,然而鲤桥,它只考慮了兩個評級之間的距離揍拆;第二個因素是重要性,我們假設(shè)茶凳,如果兩個評分離中間評級越遠嫂拴,評分的重要性就越大播揪,例如,如果兩個用戶將兩個項目評為(4,4)或(2,2)比評為(5,3)或(4,2)更重要筒狠;第三個因素叫做奇異性猪狈,這一因素反映了兩個評分與其他評分的不同之處。這三個因素的形成定義如下:
其中
是項目p的平均評分辩恼,
是用戶u對項目p的評分雇庙,與初始PIP的三個因素不同,這里每個因素都屬于(0,1)灶伊。
共同評分是一個非常重要的因素疆前,在這個模型中,我們修改了公式以懲罰一小部分共同評分聘萨,定義如下: 我們可以將PSS與修改后的Jaccard結(jié)合起來作為新的相似性度量竹椒,稱為JPSS。形式化如下:
此外米辐,我們應(yīng)該考慮每個用戶的偏好胸完,不同的用戶具有不同的評分標(biāo)準(zhǔn),一些用戶更喜歡給予很高的評價翘贮。一些用戶傾向于評價低價值赊窥,為了反映這種行為偏好,我們采用評分的均值和方差來模擬用戶偏好择膝∈那恚基于相似性度量的用戶評級偏好可以定義如下:
其中
和
分別是用戶u和v的平均評分,并且
.
和
分別表示用戶u和v的評分標(biāo)準(zhǔn)差肴捉,并且
.
則最終改進的啟發(fā)式相似性公式表示為:
四.結(jié)論
本文首先分析了現(xiàn)有相似性度量方法的弊端腹侣。為了克服這些不足,提出了一種新的基于PIP測度的相似度測度方法齿穗。初始的PIP相似度未標(biāo)準(zhǔn)化且計算復(fù)雜傲隶,因此,本文提出了一種新的相似模型來克服這些不足窃页,而且跺株,改進的相似性度量考慮了兩個用戶之間的共同評分的比例,考慮到不同的用戶具有不同的評級偏好脖卖,本文使用均值和方差評分等級以描述用戶的評分偏好乒省。本文在最后引入實驗,驗證了NHSM方法的有效性畦木,并且可以克服傳統(tǒng)相似性度量的缺點袖扛。