??本章講的是評分預(yù)測問題轰枝,也就是如何通過已知的用戶歷史評分記錄預(yù)測未知的用戶評分記錄谎替。
評測算法
1. 平均值
??取平均值作為預(yù)測結(jié)果是最簡單有效的一種統(tǒng)計方法签舞,取平均值的方式有:全局平均值且预、用戶評分平均值收奔、物品評分平均值和用戶分類對物品分類的平均值(同類用戶對同類物品的評分平均值)荧飞。
2. 基于鄰域的方法
??基于用戶的鄰域方法認(rèn)為預(yù)測一個用戶對一個物品的評分凡人,需要參考和這個用戶相似的用戶對該物品的評分。用戶之間的相似度計算可以通過皮爾遜系數(shù)計算:而基于物品的鄰域算法則是在預(yù)測用戶對物品的評分時會參考用戶對和物品相似的其他物品的評分叹阔,此時物品之間的相似度可以用3種衡量方式:余弦相似度挠轴、皮爾遜系數(shù)和帶修正的余弦相似度。3種衡量方式的公式對比如下圖:
隱語義模型和矩陣分解模型
??這兩種方法其實都是通過降維的方法將評分矩陣補全耳幢。怎么樣補全才算是對矩陣擾動最小呢岸晦?一般認(rèn)為如果補全后矩陣的特征值和補全前矩陣的特征值相差不大,就算是擾動比較小睛藻。SVD分解是早期常用的矩陣分解方法启上,其缺點在于計算復(fù)雜度很高,而且占用很大的存儲空間店印。隱語義模型(LFM)就是將大的稀疏矩陣用兩個小的矩陣相乘來表示冈在,此時就不需要用大量存儲空間來保存原始評分矩陣,此時兩個小的矩陣一般使用隨機數(shù)填充按摘,根據(jù)經(jīng)驗隨機數(shù)需要1/sqrt(F)成正比(F就是隱類的個數(shù))包券。LFM通過隱類將用戶和物品聯(lián)系在一起纫谅。但是一般來說,一個評分系統(tǒng)有些固有屬性和用戶物品無關(guān)溅固,而用戶也有屬性和物品無關(guān)付秕,物品也有屬性和用戶無關(guān)。此時就需要對三者加上偏置侍郭,即:询吴,其中
、
亮元、
就分別代表了系統(tǒng)猛计、用戶和物品的固有屬性。
??當(dāng)然還可以對LFM繼續(xù)改進苹粟,比如考慮鄰域影響有滑,其實就是在上面公式(2)的基礎(chǔ)上再加上Item CF預(yù)測的評分結(jié)果跃闹,不過此時這個評分結(jié)果不是統(tǒng)計的嵌削,而是利用可學(xué)習(xí)的參數(shù)計算出來的。此時新的優(yōu)化公式如下:N(u)就是和物品相似的物品集合望艺,公式后面這一部分就體現(xiàn)出了鄰域物品的影響苛秕。而且上面公式對鄰域影響矩陣進行分解,從而大大降低了參數(shù)的數(shù)量和存儲空間找默。
加入時間信息
??有兩種方式加入時間信息艇劫,一種是基于鄰域的模型融合時間信息,一般是將時間信息融合到基于物品的鄰域模型中惩激,其實就是對相似物品的評分貢獻(xiàn)加上時間權(quán)重店煞。之前可以視為所有的相似物品評分貢獻(xiàn)權(quán)重都是1,但是考慮了時間因素后就需要提高用戶最近的評分行為對推薦結(jié)果的影響风钻,也就是加大近期行為物品的評分貢獻(xiàn)權(quán)重顷蟀。
??另一種是基于矩陣分解的模型融合時間信息,此時用戶評分矩陣不再是一個二維矩陣骡技,而是變成了一個三維矩陣鸣个。三維矩陣的分解可以參考這篇論文,評分優(yōu)化公式如下:書上說的是
建模了用戶興趣隨時間影響的效應(yīng)布朦。