一热鞍、書籍介紹
《推薦系統(tǒng)實(shí)踐》項(xiàng)亮編著,陳義衔彻、王益審校薇宠,人民郵電出版社。
本篇讀書筆記主要針對該書的第三章內(nèi)容艰额。
二澄港、結(jié)構(gòu)概覽
三、主要內(nèi)容
大量的用戶行為數(shù)據(jù)是推薦系統(tǒng)的重要組成部分和先決條件柄沮。
1.冷啟動(dòng)問題簡介
(1)用戶冷啟動(dòng):給新用戶做個(gè)性化推薦
(2)物品冷啟動(dòng):將新物品推薦給感興趣的人
(3)系統(tǒng)冷啟動(dòng):新開發(fā)的系統(tǒng)(沒有用戶)
2.利用用戶注冊信息——解決用戶冷啟動(dòng)問題
(1)如利用用戶注冊時(shí)填寫的年齡回梧、性別等數(shù)據(jù),主要包含以下三種:
a)人口統(tǒng)計(jì)學(xué)信息
b)用戶興趣描述-讓用戶描述他們的興趣
c)從其他網(wǎng)站導(dǎo)入的用戶站外行為數(shù)據(jù):比如用新浪微博等賬號(hào)登錄祖搓,可以在得到用戶同意的情況下獲取用戶的一些行為數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)狱意。
基于注冊信息的個(gè)性化推薦流程基本如下:
a)獲取用戶的注冊信息;b)根據(jù)用戶的注冊信息對用戶分類拯欧;c)給用戶推薦他所屬分類中用戶喜歡的物品详囤。
(2)算法:
核心問題在于計(jì)算每種特征的用戶喜歡的物品。
3.選擇合適的物品啟動(dòng)用戶的興趣——解決用戶冷啟動(dòng)的問題
給用戶提供一些物品镐作,讓用戶反饋他們對這些物品的興趣藏姐。
用來啟動(dòng)用戶興趣的物品需要具有的特點(diǎn):
a)比較熱門;b)具有代表性和區(qū)分性该贾;c)啟動(dòng)物品集合需要多樣性
4.利用物品的內(nèi)容信息——解決物品冷啟動(dòng)問題
利用向量空間模型羔杨,將物品表示成一個(gè)關(guān)鍵詞向量,計(jì)算物品內(nèi)容的相似度靶庙。
可以采用余弦相似度公式計(jì)算相似度问畅,但這種算法時(shí)間復(fù)雜度很高娃属,在實(shí)際應(yīng)用中,可以通過建立關(guān)鍵詞-物品到排表加速這一計(jì)算過程护姆。
使用內(nèi)容相似度的內(nèi)容過濾算法矾端,由于這種算法忽略了用戶行為,從而也忽視了物品的流行度以及用戶行為中所包含的規(guī)律卵皂,所以準(zhǔn)確率和召回率較低秩铆,但結(jié)果的新穎度比較高。但這也不是絕對的灯变,如果用戶的行為強(qiáng)烈受某一內(nèi)容屬性的影響殴玛,那么內(nèi)容過濾算法也可以在精度上超過協(xié)同過濾算法√砘觯——如果能融合內(nèi)容過濾算法和協(xié)同過濾算法滚粟,效果更好。
5.發(fā)揮專家的作用——解決系統(tǒng)冷啟動(dòng)問題
專家對各個(gè)維度進(jìn)行標(biāo)注刃泌。
除以上方法外凡壤,也可以提供先提供非個(gè)性化的方案,如熱門排行榜耙替,等到用戶數(shù)據(jù)收集到一定的時(shí)候亚侠,再切換為個(gè)性化推薦。