冷啟動問題的出現(xiàn)
如果在一開始的階段就希望有個性化推薦應(yīng)用的網(wǎng)站,在沒有大量用戶數(shù)據(jù)的情況下設(shè)計個性化推薦系統(tǒng)并且讓用戶對推薦結(jié)果滿意從而愿意使用推薦系統(tǒng)
冷啟動問題的分類
- 1 用戶冷啟動
新用戶無行為數(shù)據(jù),無法根據(jù)新用戶的歷史行為預(yù)測其興趣的問題 - 2 物品冷啟動
新的物品入庫的時候推薦給對該物品感興趣的用戶的問題 - 3 系統(tǒng)冷啟動
一個新開發(fā)的網(wǎng)站(無用戶劝贸、無用戶行為,只有物品信息) 的情況下設(shè)計個性化推薦系統(tǒng)
針對以上三種物品冷啟動問題,可參考如下解決方法:
- 一:提供非個性化的推薦侨嘀,簡單例子為熱門排行妨猩,等到用戶數(shù)據(jù)收集到一定的時候,再切換為個性化推薦
- 二:利用用戶注冊時提供的年齡遭笋、性別等數(shù)據(jù)做粗粒度的個性化
- 三:利用用戶的社交賬號登陸坝冕,導(dǎo)入用戶在社交網(wǎng)站上的好友信息,然后推薦給用戶推薦其好友喜歡的物品
- 四:要求用戶在登錄時對一些物品進(jìn)行反饋瓦呼,搜集用戶的興趣信息喂窟,然后給用戶推薦和物品相似的物品
- 五:對于新加入的物品酥泞,可以利用內(nèi)容信息类垦,將它們推薦給喜歡過和它們相似的物品的用戶
- 六:在系統(tǒng)冷啟動時,可以引入專家的知識笔宿,通過一定的高效的方式迅速建立起物品的相關(guān)度表
針對冷啟動給出的某些方案
(一)利用用戶注冊信息
用戶的注冊信息分3種:
1 人口統(tǒng)計學(xué)信息:用戶年齡质和、性別稳摄、職業(yè)、民族饲宿、學(xué)歷和居住地
2 用戶興趣的描述:讓用戶用文字描述他們的興趣
3 從其他網(wǎng)站導(dǎo)入用戶站外行為數(shù)據(jù):比如:豆瓣厦酬、新浪微博
基于注冊信息的個性化推薦流程基本如下:
(1) 獲取用戶的注冊信息;
(2) 根據(jù)用戶的注冊信息對用戶分類瘫想;
(3) 給用戶推薦他所屬分類中用戶喜歡的物品
(二)選擇合適的物品啟動用戶的興趣
在新用戶第一次訪問推薦系統(tǒng)時弃锐,不立即給用戶展示推 薦結(jié)果,而是給用戶提供一些物品殿托,讓用戶反饋他們對這些物品的興趣霹菊,然后根據(jù)用戶反饋給提供個性化推薦。
一般來說,能夠用來啟動用戶興趣的物品需要有以下特點(diǎn):
(1) 比較熱門旋廷;
(2)具有代表性和區(qū)分性鸠按;
(3)啟動物品集合需要有多樣性;
(三)利用物品的內(nèi)容信息
基于物品的內(nèi)容信息主要介紹了兩種主要的推薦算法:UserCF和ItemCF
UserCF針對物品冷啟動問題并不敏感
饶碘,UserCF在給用戶進(jìn)行推薦時目尖,會首先找到和用戶興趣 相似的一群用戶,然后給用戶推薦這一群用戶喜歡的物品扎运。在很多網(wǎng)站中瑟曲,推薦列表并不是給用 戶展示內(nèi)容的唯一列表,那么當(dāng)一個新物品加入時豪治,總會有用戶從某些途徑看到這些物品洞拨,對這 些物品產(chǎn)生反饋。那么负拟,當(dāng)一個用戶對某個物品產(chǎn)生反饋后烦衣,和他歷史興趣相似的其他用戶的推 薦列表中就有可能出現(xiàn)這一物品,從而更多的人就會對這個物品產(chǎn)生反饋掩浙,導(dǎo)致更多的人的推薦 列表中會出現(xiàn)這一物品花吟,因此該物品就能不斷地擴(kuò)散開來,從而逐步展示到對它感興趣用戶的推 薦列表中
ItemCF針對物品冷啟動問題算一個嚴(yán)重的問題
因為ItemCF算法的原理是給用戶 推薦和他之前喜歡的物品相似的物品厨姚。ItemCF算法會每隔一段時間利用用戶行為計算物品相似度 表(一般一天計算一次)衅澈,在線服務(wù)時ItemCF算法會將之前計算好的物品相關(guān)度矩陣放在內(nèi)存中。 因此谬墙,當(dāng)新物品加入時今布,內(nèi)存中的物品相關(guān)表中不會存在這個物品,從而ItemCF算法無法推薦新 的物品芭梯。解決這一問題的辦法是頻繁更新物品相似度表险耀,但基于用戶行為計算物品相似度是非常 耗時的事情弄喘,主要原因是用戶行為日志非常龐大玖喘。而且,新物品如果不展示給用戶蘑志,用戶就無法 對它產(chǎn)生行為累奈,通過行為日志計算是計算不出包含新物品的相關(guān)矩陣的。為此急但,我們只能利用物 品的內(nèi)容信息計算物品相關(guān)表澎媒,并且頻繁地更新相關(guān)表(比如半小時計算一次)
(四)發(fā)揮專家的作用
針對電影系統(tǒng),我們可以讓專家對電影進(jìn)行標(biāo)記波桩,每 個電影都有大約50個基因戒努,這些基因來自大約1000個基因庫。然后镐躲,在專家標(biāo)記一定的樣本后储玫, Jinni會使用自然語言理解和機(jī)器學(xué)習(xí)技術(shù)侍筛,通過分析用戶對電影的評論和電影的一些內(nèi)容屬性對 電影(特別是新電影)進(jìn)行自己的標(biāo)記。同時撒穷,Jinni也設(shè)計了讓用戶對基因進(jìn)行反饋的界面匣椰,希 望通過用戶反饋不斷改進(jìn)電影基因系統(tǒng)。
總結(jié)的有些粗淺端礼,更多更詳細(xì)的可以翻看《推薦系統(tǒng)實(shí)踐》