推薦系統(tǒng)(一):推薦系統(tǒng)實(shí)戰(zhàn)第一章

什么是推薦系統(tǒng)

信息過(guò)載:information overload

推薦系統(tǒng)任務(wù)

聯(lián)系用戶和信息筋量,一方面幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的信息
另一方面讓信息能夠展現(xiàn)在對(duì)它感興趣的用戶面前坝茎,從而實(shí)現(xiàn)信息消費(fèi)者和信息生產(chǎn)者的雙贏

推薦系統(tǒng)不需要用戶提供明確的需求,通過(guò)分析用戶的歷史行為給用戶的興趣建模,從而主動(dòng)給用戶推薦能夠滿足他們興趣和需求的信息

搜索引擎滿足了用戶有明確目的主動(dòng)查找需求噩翠,而推薦系統(tǒng)能夠在用戶沒(méi)有明確目的的時(shí)候幫助他們發(fā)現(xiàn)感興趣的新內(nèi)容

社會(huì)化推薦(social recommendation)

讓好友給自己推薦物品

基于內(nèi)容的推薦 (content-based filtering)

分析用戶曾經(jīng)看過(guò)的電影找到用戶喜歡的演員和導(dǎo)演,然后給用戶推薦這些演員或者導(dǎo)演的其他電影

基于協(xié)同過(guò)濾(collaborative filtering)的推薦

找到和自己歷史興趣相似的一群用戶绎秒,看看他們最近在看什么電影,那么結(jié)果可能比寬泛的熱門排行榜更能符合自己的興趣


個(gè)性化推薦系統(tǒng)的應(yīng)用

電子商務(wù)

亞馬遜:

個(gè)性化推薦列表

基于物品的推薦算法(item-based method)/Facebook的好友關(guān)系

相關(guān)推薦列表(打包銷售(cross selling))

買了這個(gè)商品的用戶也經(jīng)常購(gòu)買的其他商品
瀏覽過(guò)這個(gè)商品的用戶經(jīng)常購(gòu)買的其他商品

電影和視頻網(wǎng)站

Netflix/YouTube/Hulu:基于物品的推薦算法

個(gè)性化音樂(lè)網(wǎng)絡(luò)電臺(tái)

Pandora

基于內(nèi)容(音樂(lè)基因工程)

Last.fm

利用用戶行為計(jì)算歌曲的相似度

個(gè)性化推薦的成功應(yīng)用需要兩個(gè)條件:

  • 信息過(guò)載
  • 用戶大部分時(shí)候沒(méi)有特別明確的需求

音樂(lè)推薦的特點(diǎn):

  • 物品空間大
  • 消費(fèi)每首歌的代價(jià)很小
  • 物品種類豐富
  • 聽(tīng)一首歌耗時(shí)很少
  • 物品重用率很高
  • 用戶充滿激情
  • 上下文相關(guān)
  • 次序很重要
  • 很多播放列表資源
  • 不需要用戶全神貫注
  • 高度社會(huì)化

音樂(lè)是一種非常適合用來(lái)推薦的物品
很多推薦系統(tǒng)都是作為一個(gè)應(yīng)用存在于網(wǎng)站中(亞馬遜的商品推薦和Netflix的電影推薦)
音樂(lè)推薦可以支持獨(dú)立的個(gè)性化推薦網(wǎng)站(Pandora见芹、Last.fm和豆瓣網(wǎng)絡(luò)電臺(tái))

社交網(wǎng)絡(luò)

社交網(wǎng)絡(luò)中的個(gè)性化推薦技術(shù)主要應(yīng)用

1.利用用戶的社交網(wǎng)絡(luò)信息對(duì)用戶進(jìn)行個(gè)性化的物品推薦;
2.信息流的會(huì)話推薦蠢涝;
3.給用戶推薦好友玄呛。

個(gè)性化閱讀

Google Reader

用戶關(guān)注自己感興趣的人,然后看到所關(guān)注用戶分享的文章

Zite

收集用戶對(duì)文章的偏好信息

Digg

根據(jù)用戶的Digg歷史計(jì)算用戶之間的興趣相似度和二,然后給用戶推薦和他興趣相似的用戶喜歡的文章

基于位置的服務(wù)

位置是一種很重要的上下文信息徘铝,基于位置給用戶推薦離他近的且他感興趣的服務(wù),用戶就更有可能去消費(fèi)

個(gè)性化郵件

Tapestry

通過(guò)分析用戶閱讀郵件的歷史行為和習(xí)慣對(duì)新郵件進(jìn)行重新排序惯吕,從而提高用戶的工作效率

個(gè)性化廣告

<dt>

個(gè)性化廣告投放 狹義個(gè)性化推薦
以用戶為核心 以廣告為核心

廣告定向投放(Ad Targeting)

計(jì)算廣告學(xué)

個(gè)性化廣告投放技術(shù)

  • 上下文廣告
  • 搜索廣告
  • 個(gè)性化展示廣告

推薦系統(tǒng)評(píng)測(cè)

圖片.png

好的推薦系統(tǒng)惕它,三方共贏

預(yù)測(cè)準(zhǔn)確度是推薦系統(tǒng)領(lǐng)域的重要指標(biāo),準(zhǔn)確的預(yù)測(cè)并不代表好的推薦废登。對(duì)于用戶來(lái)說(shuō)淹魄,他會(huì)覺(jué)得這個(gè)推薦結(jié)果很不新穎。

好的推薦系統(tǒng)不僅僅能夠準(zhǔn)確預(yù)測(cè)用戶的行為堡距,而且能夠擴(kuò)展用戶的視野甲锡,幫助用戶發(fā)現(xiàn)那些他們可能會(huì)感興趣。

推薦系統(tǒng)的試驗(yàn)方法

獲得推薦系統(tǒng)指標(biāo)的方法

離線實(shí)驗(yàn)(offline experiment)
用戶調(diào)查(user study)
在線實(shí)驗(yàn)(online experiment)

離線實(shí)驗(yàn)

  1. 通過(guò)日志系統(tǒng)獲得用戶行為數(shù)據(jù)羽戒,并按照一定格式生成一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集缤沦;
  2. 將數(shù)據(jù)集按照一定的規(guī)則分成訓(xùn)練集和測(cè)試集;
  3. 在訓(xùn)練集上訓(xùn)練用戶興趣模型易稠,在測(cè)試集上進(jìn)行預(yù)測(cè)缸废;
  4. 通過(guò)事先定義的離線指標(biāo)評(píng)測(cè)算法在測(cè)試集上的預(yù)測(cè)結(jié)果。
優(yōu)點(diǎn) 缺點(diǎn)
不需要有對(duì)實(shí)際系統(tǒng)的控制權(quán) 無(wú)法計(jì)算商業(yè)上關(guān)心的指標(biāo)
不需要用戶參與實(shí)驗(yàn) 離線實(shí)驗(yàn)的指標(biāo)和商業(yè)指標(biāo)存在差距
速度快驶社,可以測(cè)試大量算法

用戶調(diào)查

  1. 用戶調(diào)查需要有一些真實(shí)用戶呆奕,讓他們?cè)谛枰獪y(cè)試的推薦系統(tǒng)上完成一些任務(wù);
  2. 在他們完成任務(wù)時(shí)衬吆,我們需要觀察和記錄他們的行為梁钾,并讓他們回答一些問(wèn)題;
  3. 我們需要通過(guò)分析他們的行為和答案了解測(cè)試系統(tǒng)的性能逊抡。
優(yōu)點(diǎn) 缺點(diǎn)
獲得很多體現(xiàn)用戶主觀感受的指標(biāo) 招募測(cè)試用戶代價(jià)較大
相對(duì)在線實(shí)驗(yàn)風(fēng)險(xiǎn)很低姆泻,出現(xiàn)錯(cuò)誤后很容易彌補(bǔ) 設(shè)計(jì)雙盲實(shí)驗(yàn)非常困難

在線實(shí)驗(yàn)

AB測(cè)試是一種很常用的在線評(píng)測(cè)算法的實(shí)驗(yàn)方法</dt>

AB測(cè)試

它通過(guò)一定的規(guī)則將用戶隨機(jī)分成幾組并對(duì)不同組的用戶采用不同的算法,然后通過(guò)統(tǒng)計(jì)不同組用戶的各種不同的評(píng)測(cè)指標(biāo)比較不同算法

優(yōu)點(diǎn) 缺點(diǎn)
公平獲得不同算法實(shí)際在線時(shí)的性能指標(biāo) 周期比較長(zhǎng)
大型網(wǎng)站的AB測(cè)試系統(tǒng)的設(shè)計(jì)也是一項(xiàng)復(fù)雜的工程
圖片.png

一個(gè)新的推薦算法最終上線冒嫡,需要完成上面所說(shuō)的3個(gè)實(shí)驗(yàn)

  1. 通過(guò)離線實(shí)驗(yàn)證明它在很多離線指標(biāo)上優(yōu)于現(xiàn)有的算法拇勃。
  2. 通過(guò)用戶調(diào)查確定它的用戶滿意度不低于現(xiàn)有的算法。
  3. 通過(guò)在線的AB測(cè)試確定它在我們關(guān)心的指標(biāo)上優(yōu)于現(xiàn)有的算法方咆。

評(píng)測(cè)指標(biāo)

用戶滿意度

用戶滿意度沒(méi)有辦法離線計(jì)算瓣赂,只能通過(guò)用戶調(diào)查或者在線實(shí)驗(yàn)獲得。

用戶調(diào)查

用戶調(diào)查獲得用戶滿意度主要是通過(guò)調(diào)查問(wèn)卷的形式</dd>

在線實(shí)驗(yàn)

用戶滿意度主要通過(guò)一些對(duì)用戶行為的統(tǒng)計(jì)得到

預(yù)測(cè)準(zhǔn)確度

預(yù)測(cè)準(zhǔn)確度

度量一個(gè)推薦系統(tǒng)或者推薦算法預(yù)測(cè)用戶行為的能力妓肢。

這個(gè)指標(biāo)是最重要的推薦系統(tǒng)離線評(píng)測(cè)指標(biāo)

不同的研究方向介紹它們的預(yù)測(cè)準(zhǔn)確度指標(biāo)

1.評(píng)分預(yù)測(cè)

圖片.png

覆蓋率

圖片.png

多樣性

圖片.png

新穎性

新穎的推薦是指給用戶推薦那些他們以前沒(méi)有聽(tīng)說(shuō)過(guò)的物品

驚喜度

如果推薦結(jié)果和用戶的歷史興趣不相似,但卻讓用戶覺(jué)得滿意喊废,那么就可以說(shuō)推薦結(jié)果的驚喜度很高污筷,而推薦的新穎性僅僅取決于用戶是否聽(tīng)說(shuō)過(guò)這個(gè)推薦結(jié)果颓屑。

目前并沒(méi)有什么公認(rèn)的驚喜度指標(biāo)定義方式

信任度

兩個(gè)推薦系統(tǒng)耿焊,盡管他們的推薦結(jié)果相同罗侯,但用戶卻可能產(chǎn)生不同的反應(yīng),這就是因?yàn)橛脩魧?duì)他們有不同的信任度纫塌。

度量推薦系統(tǒng)的信任度只能通過(guò)問(wèn)卷調(diào)查的方式

提高推薦系統(tǒng)的信任度主要有兩種方法

  • 增加推薦系統(tǒng)的透明度(transparency)
  • 利用用戶的好友信息給用戶做推薦

實(shí)時(shí)性

  • 推薦系統(tǒng)需要實(shí)時(shí)地更新推薦列表來(lái)滿足用戶新的行為變化
  • 推薦系統(tǒng)需要能夠?qū)⑿录尤胂到y(tǒng)的物品推薦給用戶

健壯性

指標(biāo)衡量了一個(gè)推薦系統(tǒng)抗擊作弊的能力措左。

提高系統(tǒng)的健壯性

  • 選擇健壯性高的算法
  • 設(shè)計(jì)推薦系統(tǒng)時(shí)盡量使用代價(jià)比較高的用戶行為
  • 在使用數(shù)據(jù)前怎披,進(jìn)行攻擊檢測(cè)凉逛,從而對(duì)數(shù)據(jù)進(jìn)行清理

商業(yè)目標(biāo)

最本質(zhì)的商業(yè)目標(biāo)就是平均一個(gè)用戶給公司帶來(lái)的盈利

總結(jié)

圖片.png

在給定覆蓋率状飞、多樣性诬辈、新穎性等限制條件下,盡量?jī)?yōu)化預(yù)測(cè)準(zhǔn)確度凝化。

評(píng)測(cè)維度

增加評(píng)測(cè)維度的目的就是知道一個(gè)算法在什么情況下性能最好

  • 用戶維度:主要包括用戶的人口統(tǒng)計(jì)學(xué)信息酬荞、活躍度以及是不是新用戶等混巧。
  • 物品為度:包括物品的屬性信息咧党、流行度陨亡、平均分以及是不是新加入的物品等
  • 時(shí)間維度:包括季節(jié)负蠕,是工作日還是周末,是白天還是晚上等
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末绣的,一起剝皮案震驚了整個(gè)濱河市屡江,隨后出現(xiàn)的幾起案子惩嘉,更是在濱河造成了極大的恐慌文黎,老刑警劉巖畴椰,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件斜脂,死亡現(xiàn)場(chǎng)離奇詭異帚戳,居然都是意外死亡儡首,警方通過(guò)查閱死者的電腦和手機(jī)蔬胯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門氛濒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)舞竿,“玉大人骗奖,你說(shuō)我怎么就攤上這事醒串。” “怎么了仰挣?”我有些...
    開(kāi)封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵椎木,是天一觀的道長(zhǎng)香椎。 經(jīng)常有香客問(wèn)我畜伐,道長(zhǎng)躺率,這世上最難降的妖魔是什么悼吱? 我笑而不...
    開(kāi)封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任后添,我火速辦了婚禮,結(jié)果婚禮上馅精,老公的妹妹穿的比我還像新娘洲敢。我一直安慰自己,他們只是感情好睦优,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布刨秆。 她就那樣靜靜地躺著忆畅,像睡著了一般家凯。 火紅的嫁衣襯著肌膚如雪绊诲。 梳的紋絲不亂的頭發(fā)上褪贵,一...
    開(kāi)封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天脆丁,我揣著相機(jī)與錄音,去河邊找鬼跟压。 笑死震蒋,一個(gè)胖子當(dāng)著我的面吹牛躲庄,可吹牛的內(nèi)容都是我干的噪窘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼荡短,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼哆键!你這毒婦竟也來(lái)了籍嘹?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤泪掀,失蹤者是張志新(化名)和其女友劉穎异赫,沒(méi)想到半個(gè)月后塔拳,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體峡竣,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡适掰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了载城。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片戚宦。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡垦搬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出猴贰,到底是詐尸還是另有隱情河狐,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布栅干,位于F島的核電站,受9級(jí)特大地震影響桑李,放射性物質(zhì)發(fā)生泄漏贵白。R本人自食惡果不足惜崩泡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望呛伴。 院中可真熱鬧磷蜀,春花似錦百炬、人聲如沸污它。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至镇辉,卻和暖如春贴捡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背屹逛。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工罕模, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人淑掌。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓诈悍,卻偏偏與公主長(zhǎng)得像兽埃,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舷夺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容