什么是推薦系統(tǒng)
推薦系統(tǒng)是用來(lái)聯(lián)系用戶和信息缀皱,解決信息過(guò)載,挖掘長(zhǎng)尾信息的一種系統(tǒng)绑咱。
如何評(píng)價(jià)一個(gè)推薦系統(tǒng)
通常來(lái)說(shuō)評(píng)價(jià)一個(gè)推薦系統(tǒng)好壞是通過(guò)以下指標(biāo)來(lái)進(jìn)行的:
準(zhǔn)確度
召回率
覆蓋率
新穎性
多樣性
健壯性
信任度
實(shí)時(shí)性
推薦系統(tǒng)的常用架構(gòu)
所以對(duì)這三種推薦系統(tǒng)做一下抽象的話,推薦系統(tǒng)本質(zhì)上都是一個(gè)用戶—特征—物品的系統(tǒng),所以推薦系統(tǒng)的任務(wù)只拆解成了兩部分瓤介。一個(gè)是如何給用戶生成特征,一個(gè)是如何根據(jù)特征找到物品赘那。
推薦系統(tǒng)的常用方法
推薦系統(tǒng)有非常多的方法刑桑,比較基礎(chǔ)比較通用的是以下幾種:
1.基于內(nèi)容的推薦
2.基于物品的協(xié)同過(guò)濾推薦
3.基于用戶的協(xié)同過(guò)濾推薦
4.基于標(biāo)簽的推薦
1.基于內(nèi)容的推薦:
基于內(nèi)容的推薦是比較基礎(chǔ)的一種推薦策略。如果你瀏覽或購(gòu)買過(guò)某種類型的內(nèi)容募舟,則給你推薦這種類型下的其他內(nèi)容祠斧。如果內(nèi)容是文本信息類,就需要先通過(guò)自然語(yǔ)言技術(shù)抽取關(guān)鍵詞拱礁,建立關(guān)鍵詞向量琢锋。
計(jì)算內(nèi)容相似度的方法:
將關(guān)鍵詞計(jì)算空間向量模型,量化物品內(nèi)容的相似度觅彰。
基于內(nèi)容推薦的優(yōu)點(diǎn):
新穎性較高吩蔑,當(dāng)用戶的行為強(qiáng)烈受某一內(nèi)容屬性影響時(shí),內(nèi)容過(guò)濾算法精度上可超過(guò)協(xié)同過(guò)濾算法
基于內(nèi)容推薦的缺點(diǎn):
內(nèi)容過(guò)濾算法 忽視了用戶行為填抬,物品流行度及用戶行為中包含的規(guī)律,精度比較低隧期。
2.基于物品的協(xié)同過(guò)濾推薦
基于物品的協(xié)同過(guò)濾與傳統(tǒng)的基于內(nèi)容過(guò)濾直接分析內(nèi)容進(jìn)行推薦不同飒责,協(xié)同過(guò)濾會(huì)分析系統(tǒng)已有數(shù)據(jù)赘娄,并結(jié)合用戶表現(xiàn)的數(shù)據(jù),對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)宏蛉。
計(jì)算基于物品的協(xié)同過(guò)濾推薦的方法
這里N(u)表示用戶有關(guān)聯(lián)的商品的集合遣臼,Wji表示物品j和i的相似度,Rui表示用戶u對(duì)物品i的打分拾并。打分規(guī)則,往往由業(yè)務(wù)來(lái)確定即可,物品相似度規(guī)則往往是使用“對(duì)物品j發(fā)生正向反饋的用戶和對(duì)物品i 發(fā)生正向反饋的用戶交集除以對(duì)物品i發(fā)生正向反饋的用戶”贮聂,但這里通常還需要對(duì)熱門物品降權(quán)揭北,活躍用戶降權(quán)等等。
3.基于用戶的協(xié)同過(guò)濾推薦
基于用戶的協(xié)同過(guò)濾之碗,通過(guò)用戶對(duì)不同內(nèi)容的行為蝙眶,來(lái)評(píng)測(cè)用戶之間的相似性,基于用戶之間的相似性做出推薦褪那。這部分推薦本質(zhì)上是給相似的用戶推薦其他用戶喜歡的內(nèi)容幽纷。
計(jì)算基于用戶的協(xié)同過(guò)濾推薦的方法
這里N(i)表示對(duì)物品i有過(guò)行為的用戶集合,Wuv使用用戶u和用戶v的相似度博敬,Rvi表示用戶v對(duì)物品i的打分友浸。同理,打分規(guī)則由業(yè)務(wù)來(lái)確定即可偏窝,計(jì)算用戶之間的相似度可以使用“用戶u發(fā)生正反饋的物品與用戶v發(fā)生正反饋的物品交集除以兩者的并集”尾菇,同樣需要考慮對(duì)熱門物品,活躍用戶降權(quán)的問(wèn)題囚枪。
4.基于標(biāo)簽的推薦
基于標(biāo)簽的推薦派诬,主要是通過(guò)標(biāo)簽這種特征形式去聯(lián)系用戶和物品,給用戶推薦那些具有用戶喜歡的特征的物品链沼。所以計(jì)算標(biāo)簽推薦的方法是建立用戶和標(biāo)簽之間的關(guān)聯(lián)度默赂,再計(jì)算標(biāo)簽與物品之間的關(guān)聯(lián)度,兩者相乘即為用戶對(duì)某物品的感興趣程度括勺。
關(guān)于物品和用戶的協(xié)同過(guò)濾對(duì)比
性能
userCF(基于用戶的協(xié)同過(guò)濾) 適用于用戶較少的場(chǎng)景缆八,否則計(jì)算用戶相似度矩陣代價(jià)很大
itemCF(基于物品的協(xié)同過(guò)濾) 物品數(shù)明顯小于用戶數(shù)的場(chǎng)合,否則物品相似度矩陣代價(jià)很大
領(lǐng)域
userCF 時(shí)效性較強(qiáng)疾捍,適用于用戶個(gè)性化興趣沒(méi)有那么明顯的領(lǐng)域奈辰。
itemCF 適合長(zhǎng)尾物品豐富,用戶個(gè)性化需求更強(qiáng)烈的領(lǐng)域
實(shí)時(shí)性
userCF用戶有新行為乱豆,不一定使推薦結(jié)果立即變化
itemCF用戶有新行為奖恰,一定會(huì)導(dǎo)致推薦結(jié)果的實(shí)時(shí)變化
冷啟動(dòng)
新物品上線:
userCF新物品上線后,只要有用戶對(duì)其產(chǎn)生了行為,那該新物品就能夠推薦給相似的用戶
itemCF 不更新物品相似度表的情況下無(wú)法將新物品推薦給用戶
新用戶上線:
userCF 新用戶一開(kāi)始對(duì)物品產(chǎn)生行為瑟啃,無(wú)法對(duì)其進(jìn)行推薦
itemCF 新用戶對(duì)物品產(chǎn)生行為论泛,就能推薦跟該物品相似的其他物品給用戶
寫在最后
推薦系統(tǒng)的大概知識(shí)就介紹到這里了,還有一些基于時(shí)間上下文的協(xié)同過(guò)濾推薦蛹屿,隱語(yǔ)義模型屁奏,基于社交網(wǎng)絡(luò)的推薦等等就沒(méi)再介紹。推薦系統(tǒng)是一個(gè)典型的知易行難的領(lǐng)域错负,不同的公司不同的業(yè)務(wù)在實(shí)際應(yīng)用中會(huì)有各種各樣的坑坟瓢,這些坑不會(huì)寫在書/論文里,通用的方法不經(jīng)打磨很難在實(shí)際場(chǎng)景中應(yīng)用犹撒,而建立個(gè)性化推薦系統(tǒng)也未必比部分的人工規(guī)則有多大的優(yōu)勢(shì)折联。