1. 什么是推薦系統(tǒng)
information overload
代表性解決方案: 分類目錄/搜索引擎
long tail
以看電影為例: social recommendation(朋友铐炫、專家提供)/content-based filtering/collaborative filtering
SUM TO: 推薦系統(tǒng)是自動(dòng)聯(lián)系用戶和物品的一種工具
2. 個(gè)性化推薦系統(tǒng)應(yīng)用舉例
個(gè)性化推薦系統(tǒng)需要依賴用戶的行為數(shù)據(jù)
個(gè)性化推薦系統(tǒng)主要作用是:分析大量用戶行為日志,給不同用戶提供不同的個(gè)性化頁面展示提高網(wǎng)站的點(diǎn)擊率和轉(zhuǎn)化率
總而言之蔗坯,基本由3個(gè)部分組成:前臺(tái)的展示頁面磕仅,后臺(tái)的日志系統(tǒng)和推薦算法系統(tǒng)
2.1 電子商務(wù)
Amazon為例:
1.歷史行為(可以對(duì)結(jié)果進(jìn)行反饋金踪、展示推薦原因)基本基于物品(item-based method)
2.FaceBook 好友推薦
- 相關(guān)推薦列表 (在亞馬遜購買產(chǎn)品時(shí)會(huì)在信息下面展示相關(guān)商品)(最重要的是打包銷售cross selling)
2.2 電影和視頻網(wǎng)站
Netflix為例:
展示界面:電影標(biāo)題和poster + 用戶反饋模塊(PLAY/rate/not interested) + 推薦理由
YouTube為例:
基于物品的推薦算法:給用戶推薦和他們曾經(jīng)喜歡的電影相似的電影
2.3 個(gè)性化音樂網(wǎng)絡(luò)電臺(tái)
個(gè)性化推薦應(yīng)用所需兩個(gè)條件:1.信息過載铛碑;2.用戶大部分啥時(shí)候沒有明確的需求
Pandora: 基于內(nèi)容(專家對(duì)歌曲的不同特性進(jìn)行標(biāo)注滩褥,成為gene;根據(jù)gene進(jìn)行內(nèi)容相似度計(jì)算)
Last.fm: 基于用戶歷史行為
2.4 社交網(wǎng)絡(luò)
社交網(wǎng)絡(luò)中的個(gè)性化推薦技術(shù)主要應(yīng)用在:
- 利用用戶的社交網(wǎng)絡(luò)信息對(duì)用戶進(jìn)行個(gè)性化的物品推薦
- 信息流的會(huì)話推薦
- 給用戶推薦好友
最寶貴的數(shù)據(jù)包括:用戶之間的社交網(wǎng)絡(luò)關(guān)系;用戶的偏好信息(Instant Personalization API)
2.5 個(gè)性化廣告(目前對(duì)業(yè)務(wù)有效的方面)
Ad Targeting
廣告推薦著重于幫助廣告找到可能對(duì)他們感興趣的用戶
目前技術(shù)主要有三種:
1.上下文廣告(分析用戶正在瀏覽的網(wǎng)頁內(nèi)容调违,投放相關(guān)廣告
2.搜索廣告(分析用戶在當(dāng)前會(huì)話中的搜索記錄判斷搜索目的投放相關(guān)廣告
3.個(gè)性化展示廣告
3. 推薦系統(tǒng)評(píng)測
完整的推薦系統(tǒng)訊在3個(gè)參與方:用戶窟哺、物品提供者、提供推薦系統(tǒng)的網(wǎng)站
最重要的指標(biāo):預(yù)測準(zhǔn)確度
3.1 推薦系統(tǒng)試驗(yàn)方法
主要有3種評(píng)測推薦效果的試驗(yàn)方法:
1.offline experiment
通過日志系統(tǒng)獲得用戶行為數(shù)據(jù)技肩,并按照一定格式生成標(biāo)準(zhǔn)數(shù)據(jù)集
將數(shù)據(jù)集按照一定的規(guī)則分成訓(xùn)練集和測試集
在訓(xùn)練集上訓(xùn)練用戶興趣模型且轨,在測試集上進(jìn)行預(yù)測
通過實(shí)現(xiàn)定義的離線指標(biāo)評(píng)測算法在測試集上的預(yù)測效果
缺點(diǎn):無法計(jì)算商業(yè)上關(guān)心的指標(biāo)(點(diǎn)擊率轉(zhuǎn)化率等)
離線試驗(yàn)指標(biāo)和商業(yè)指標(biāo)存在差距
2.user study
離線指標(biāo)和實(shí)際商業(yè)指標(biāo)存在差距(預(yù)測準(zhǔn)確率和用戶滿意度之間存在很大差別)
線上測試具有較高的風(fēng)險(xiǎn),為此一般需要做一次用戶調(diào)查測試
缺點(diǎn): 成本很高虚婿;難以舉行大規(guī)模的用戶調(diào)查(一方面需要控制成本旋奢,一方面需要保證結(jié)果的統(tǒng)計(jì)學(xué)意義
測試用戶不能隨便選擇,需要盡量保證測試用戶的分布和真實(shí)用戶分布相同(sex,age,activity level)
用戶調(diào)查盡量進(jìn)行雙盲實(shí)驗(yàn)
3.online experiment
上線進(jìn)行AB測試
AB測試是一種很常用對(duì)的在線評(píng)測算法的試驗(yàn)方法:通過一定的規(guī)則將用戶隨機(jī)分成幾組然痊,并對(duì)不同組的用戶采用不同的算法然后通過統(tǒng)計(jì)不同組用戶的不同評(píng)測指標(biāo)比較不同算法(統(tǒng)計(jì)不同組用戶的點(diǎn)擊率等)
一般不會(huì)使用測試測試所有算法至朗,只用來測試在離線實(shí)驗(yàn)和用戶調(diào)查中表現(xiàn)很好的算法
在大型網(wǎng)站上,因?yàn)榧軜?gòu)的多重性玷过,需要進(jìn)行流量切分(不同層需要從一個(gè)統(tǒng)一的地方獲得自己AB測試的流量爽丹,并且不同層之間的流量應(yīng)當(dāng)是正交的)
3.2 評(píng)測指標(biāo)
1.用戶滿意度(不能離線,只能用戶調(diào)查或者在線實(shí)驗(yàn))
購買率/用戶反饋界面等等
2.預(yù)測準(zhǔn)確度(可以離線)辛蚊。包括:
1. 評(píng)分預(yù)測:
一般使用RMSE和MAE
優(yōu)缺點(diǎn)為:RMSE加大了對(duì)預(yù)測不準(zhǔn)的用戶物品評(píng)分的懲罰(平方項(xiàng)),過于嚴(yán)苛
如果評(píng)分系統(tǒng)是基于整數(shù)建立的粤蝎,則MAE的誤差會(huì)一定程度上減小
2. TopN推薦
一般使用(precision/recall)進(jìn)行度量
有的時(shí)候?yàn)槿嬖u(píng)測TopN的準(zhǔn)確率和召回率,需要選取不同的推薦列表長度N袋马,計(jì)算一組準(zhǔn)確率/召回率初澎,然后畫出precision/recall curve
3.TopN推薦更符合實(shí)際的應(yīng)用需求
3.覆蓋率(coverage)
主要針對(duì)長尾挖掘能力
通過研究物品在推薦列表中出現(xiàn)次數(shù)的分布描述推薦系統(tǒng)挖掘長尾的能力。如果分布比較平虑凛,那么說明推薦系統(tǒng)的覆蓋率較高
1. information Shannon
2. Gini Index (系統(tǒng)流行度平均碑宴,SA偏小,從而基尼系數(shù)很猩5)
推薦系統(tǒng)的初衷是消除馬太效應(yīng)延柠。計(jì)算初始用戶行為中的物品流行度基尼系數(shù)G1和推薦列表中得到的物品流行度基尼系數(shù)G2.如果G2>G1,說明推薦算法具有馬太效應(yīng)
4.多樣性
5.新穎性
使用推薦結(jié)果的平均流行度锣披,如果物品越不熱門贞间,用戶越覺得新穎
多樣性和新穎性越來越受到推薦系統(tǒng)改善方向的關(guān)注
6.驚喜度(serendipity)
如果推薦結(jié)果和用戶的歷史興趣不相似卻讓用戶覺得滿意,驚喜度就很高
7.信任度(trust)
度量只能使用問卷調(diào)查的方式雹仿,詢問用戶是否信任推薦系統(tǒng)的推薦結(jié)果
提高trust主要有兩種方法:1.增加推薦系統(tǒng)的透明度增热;2.考慮用戶的社交網(wǎng)絡(luò)信息
8.實(shí)時(shí)性
9.健壯性
實(shí)際做法包括:1盡量使用代價(jià)比較高的用戶行為,包括購買等;2.在使用數(shù)據(jù)前進(jìn)行攻擊檢測
3.3 評(píng)測維度
用戶維度:人口統(tǒng)計(jì)學(xué)信息,活躍度库菲,是否是新用戶
物品維度:屬性信息磷斧,流行度、average昨凡、是否新加入用品
時(shí)間維度:季節(jié),工作日,周末豆同,白天或者晚上等
如果能夠在推薦系統(tǒng)評(píng)測報(bào)告中包含不同維度下的系統(tǒng)評(píng)測指標(biāo),可以更全面的了解推薦系統(tǒng)性能