【閱讀筆記】項(xiàng)亮前輩的《推薦系統(tǒng)實(shí)戰(zhàn)》

推薦系統(tǒng)是個(gè)有意思的方向贤姆。項(xiàng)亮前輩的《推薦系統(tǒng)實(shí)戰(zhàn)》來(lái)當(dāng)作入門(mén)的第一本書(shū)還是很合適的榆苞,這段時(shí)間在斷斷續(xù)續(xù)的抽空閱讀了一遍。本書(shū)寫(xiě)的淺顯易懂霞捡,很好的勾勒出了推薦引擎十年前的主流算法坐漏,以及工業(yè)推薦系統(tǒng)是如何打磨的。從這個(gè)角度講碧信,項(xiàng)亮前輩很好地完成了”讓學(xué)生了解如何將自己了解的算法實(shí)現(xiàn)到一個(gè)工業(yè)系統(tǒng)中去“這一寫(xiě)作目標(biāo)赊琳。

看書(shū)的過(guò)程中簡(jiǎn)單記錄了一些內(nèi)容,夾雜著自己突然產(chǎn)生的一些想法砰碴。用以過(guò)段時(shí)間后的來(lái)重新復(fù)習(xí)消化本書(shū)躏筏。

原文發(fā)布于個(gè)人博客(好望角),并在博客持續(xù)修改更新呈枉,此處可能更新不及時(shí)趁尼。


序&前言

隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展埃碱,我們逐漸從信息匱乏的時(shí)代進(jìn)入了信息過(guò)載(information overload)的時(shí)代。在這種情況下酥泞,不論是對(duì)于想要快速找到目標(biāo)信息的消費(fèi)者砚殿,還是想要讓自己的信息脫穎而出的生產(chǎn)者,都是嚴(yán)峻的考驗(yàn)婶博。推薦系統(tǒng)正是在這種環(huán)境下有了生長(zhǎng)的土壤瓮具,它一方面可以提高用戶獲取有效信息的能力,另一方面可以提升高質(zhì)量信息的曝光度凡人,實(shí)現(xiàn)雙贏名党。但不可避免地,也會(huì)產(chǎn)生信息蠶房這樣的桎梏挠轴。我們?cè)摵稳鐦?gòu)建一個(gè)高效的信息推薦系統(tǒng)呢传睹?我們?cè)撊牒稳绫苊庑畔⑿Q房的桎梏呢?

在寫(xiě)一本書(shū)前岸晦,應(yīng)該思考這樣幾個(gè)問(wèn)題欧啤。其實(shí)不論做什么事情都是一樣的道理。

  • 為什么要寫(xiě)這本書(shū)启上?

  • 寫(xiě)給誰(shuí)看邢隧?

  • 有幾種角度去寫(xiě)這本書(shū)?

推薦系統(tǒng)的應(yīng)用前景早在2010年的時(shí)候就已經(jīng)被挖掘出來(lái)冈在,并且開(kāi)始被總結(jié)成書(shū)……雖然最早提出是在上世紀(jì)90年代倒慧。那么下一個(gè)重要領(lǐng)域是什么?強(qiáng)化學(xué)習(xí)嗎?

評(píng)價(jià)推薦系統(tǒng)

什么是推薦系統(tǒng)

在互聯(lián)網(wǎng)經(jīng)濟(jì)初興之時(shí)包券,信息還沒(méi)有那么的爆炸纫谅。一些公司可以人為地收集一些熱門(mén)網(wǎng)站,對(duì)于信息分類組織溅固,方便人們找到自己想要的信息付秕。這個(gè)商機(jī)造就了第一代互聯(lián)網(wǎng)巨頭,美國(guó)有雅虎侍郭,中國(guó)有騰訊新浪搜狐網(wǎng)易四大門(mén)戶询吴。當(dāng)技術(shù)發(fā)展,人們?cè)诿鞔_知道自己的需求的時(shí)候亮元,可以通過(guò)搜索功能尋找信息汰寓,這樣的商機(jī)成就了Google、百度這樣的第二代互聯(lián)網(wǎng)巨頭苹粟。而很多時(shí)候,人們并沒(méi)有明確的需求跃闹,僅僅是想要從海量信息中找到一些自己感興趣的信息來(lái)進(jìn)行消遣嵌削。這個(gè)時(shí)候毛好,能夠通過(guò)歷史數(shù)據(jù)準(zhǔn)確捕捉用戶興趣的千人千面推薦系統(tǒng)就派上了用途,第三代巨頭字節(jié)跳動(dòng)崛起苛秕。

搜索系統(tǒng)什么時(shí)候比較有用呢肌访?當(dāng)信息過(guò)載,且用戶有明確需求的的時(shí)候艇劫。但如果用戶只是想消遣一下吼驶,并沒(méi)有明確的需求該怎么辦?你需要一個(gè)人或者一個(gè)工具來(lái)幫你對(duì)于過(guò)載的信息進(jìn)行篩選店煞,給出一些建議供你選擇蟹演。然而人力總是昂貴且不是是實(shí)時(shí)可得的,這個(gè)時(shí)候個(gè)性化推薦系統(tǒng)就派上了用場(chǎng)顷蟀。它就是一個(gè)能夠自動(dòng)聯(lián)系物品和用戶的工具酒请。

推薦系統(tǒng)的應(yīng)用

推薦系統(tǒng)嚴(yán)重依賴于用戶的歷史行為數(shù)據(jù),因此并不能向搜索引擎那樣獨(dú)立存在鸣个,往往內(nèi)嵌于各個(gè)領(lǐng)域之中羞反,成為一個(gè)提高網(wǎng)站/APP用戶存留,活躍度的利器囤萤。

推薦系統(tǒng)的應(yīng)用包括不限于

  • 電子商務(wù)商品推薦(例如淘寶有好貨)

    • 基于購(gòu)物記錄的推薦昼窗;基于好友信息的推薦;當(dāng)前購(gòu)買物品的相關(guān)推薦(打包銷售策略)
  • 視頻 / 電影推薦

    • 基于以往看過(guò) / 喜歡的電影記錄進(jìn)行推薦
  • 音樂(lè)推薦

    • 標(biāo)注歌曲計(jì)算歌曲之間的相似度推給用戶涛舍;根據(jù)用戶行為計(jì)算歌曲相似度的推薦
  • 社交網(wǎng)絡(luò)好友推薦

    • 利用社交網(wǎng)絡(luò)推薦物品澄惊;根據(jù)社交關(guān)系給用戶推薦好友;信息流會(huì)話的排序推薦
  • 個(gè)性化閱讀推薦

    • 手動(dòng)關(guān)注特定人 / 領(lǐng)域的推薦(Google reader)做盅; 基于文章特征的推薦(Zite / 頭條)缤削;基于協(xié)同過(guò)濾的推薦
  • LBS 基于位置的服務(wù)(各種網(wǎng)上預(yù)訂服務(wù))

  • 個(gè)性化郵件

    • 根據(jù)用戶的使用歷史,對(duì)每天處理的大量郵件進(jìn)行整理分類推薦
  • 個(gè)性化廣告推薦系統(tǒng)––––計(jì)算廣告學(xué)(互聯(lián)網(wǎng)公司命根子)

    • 廣告推薦系統(tǒng)是幫助廣告找到對(duì)它感興趣的用戶吹榴,而普通的推薦是幫助用戶找到感興趣的信息亭敢,這是它們之間的根本差別。

    • 搜索廣告:根據(jù)用戶的搜索歷史图筹,判斷用戶的搜索目的帅刀,投放相關(guān)目的的廣告。

    • 上下文廣告:根據(jù)用戶當(dāng)前瀏覽的網(wǎng)頁(yè)內(nèi)容推薦相關(guān)內(nèi)容的廣告远剩。

盡管推薦系統(tǒng)用于不同的領(lǐng)域扣溺,但是他們的內(nèi)在構(gòu)造邏輯卻基本一致。都是由前臺(tái)的展示頁(yè)面(要設(shè)計(jì)用戶的反饋機(jī)制瓜晤,以不斷迭代調(diào)整后臺(tái)的算法)锥余,后臺(tái)算法,以及日志系統(tǒng)這三部分組成痢掠。

為什么淘寶不建造會(huì)員之間添加好友的功能驱犹,這樣小白用戶就可以跟著購(gòu)物達(dá)人去消費(fèi)嘲恍。可能是考慮隱私問(wèn)題雄驹?因?yàn)樘詫毜脑u(píng)論也都是默認(rèn)匿名佃牛。

為什么音樂(lè)電臺(tái)的個(gè)性化推薦這個(gè)商機(jī)早就存在,網(wǎng)易云音樂(lè)(2013)能用推薦系統(tǒng)將它做火医舆?我覺(jué)得是因?yàn)樗鼧?gòu)造了一個(gè)音樂(lè)社區(qū)俘侠,讓大家抒發(fā)出獲得新奇的音樂(lè)推薦的感受,引起用戶之間的共鳴蔬将,增強(qiáng)產(chǎn)品的使用粘性(聽(tīng)歌之前先看評(píng)論已經(jīng)變成了病……)爷速。推薦引擎也可以通過(guò)用戶的這些評(píng)論反饋用NLU技術(shù)作為提取強(qiáng)特征去優(yōu)化推薦算法,不知道豬場(chǎng)有沒(méi)有做……應(yīng)該做了吧……

未來(lái)社交網(wǎng)絡(luò)的廣告的發(fā)展空間大概率會(huì)超過(guò)搜索廣告娃胆,微信QQ他們沉淀了太多有用的用戶數(shù)據(jù)了遍希!鵝廠的部門(mén)墻導(dǎo)致數(shù)據(jù)的利用率太低了!不知道架構(gòu)調(diào)整之后有沒(méi)有點(diǎn)起色……微信朋友圈現(xiàn)在全面開(kāi)放第三條廣告商業(yè)化不知道是不是為時(shí)已晚里烦?現(xiàn)在用戶的朋友圈使用時(shí)間是不是都快被抖音快手吸干了……

據(jù)說(shuō)淘寶系現(xiàn)在的推薦凿蒜、搜索流量比是六比四?

推薦系統(tǒng)評(píng)測(cè)

推薦系統(tǒng)本質(zhì)上是想要消除搜素引擎帶來(lái)的信息馬太效應(yīng)胁黑。但其實(shí)基于協(xié)同過(guò)濾算法的也會(huì)在一定程度上造成馬太效應(yīng)废封。

評(píng)測(cè)方法

一個(gè)完整的推薦系統(tǒng)有三個(gè)參與方:用戶,信息生產(chǎn)者丧蘸,推薦平臺(tái)漂洋。

推薦系統(tǒng)是幫助用戶挖掘那些他們可能感興趣卻又不那么容易發(fā)現(xiàn)的內(nèi)容(那些埋沒(méi)在長(zhǎng)尾中的信息內(nèi)容),而不是去一昧的追求高的預(yù)測(cè)準(zhǔn)確率力喷,去預(yù)測(cè)很多沒(méi)有新意的東西刽漂。(比如:明天太陽(yáng)一定從東方升起)因?yàn)楦哳A(yù)測(cè)準(zhǔn)確率并不等于高的用戶滿意度。

通常來(lái)說(shuō)弟孟,一個(gè)新的推薦系統(tǒng)上線需要走過(guò)以下的三個(gè)流程:

  • 離線測(cè)試贝咙,通過(guò)日志系統(tǒng)存留的用戶數(shù)據(jù)對(duì)新模型進(jìn)行離線指標(biāo)的評(píng)測(cè),與現(xiàn)有算法的離線指標(biāo)比較拂募。

  • 用戶調(diào)查庭猩,選取一部分用戶(注意要與真實(shí)用戶的分布一致)進(jìn)行雙盲測(cè)評(píng)(實(shí)驗(yàn)人員和用戶都不知道測(cè)試目標(biāo)),盡量保證用戶和實(shí)驗(yàn)人員在評(píng)測(cè)中不參雜主觀性陈症。

  • 在線AB test蔼水,用控制變量的方法,將新系統(tǒng)和原有系統(tǒng)分別給用戶成分相似的兩個(gè)用戶組使用录肯,觀察兩個(gè)用戶組不同的表現(xiàn)情況趴腋,需要長(zhǎng)時(shí)間的實(shí)驗(yàn)才能得到關(guān)于新舊系統(tǒng)對(duì)比的可靠實(shí)驗(yàn)結(jié)果。

評(píng)測(cè)指標(biāo)

用戶滿意度

這是推薦系統(tǒng)最重要的指標(biāo)。但是這個(gè)指標(biāo)只能在用戶調(diào)查和在線實(shí)驗(yàn)中獲得优炬。最常用的離線實(shí)驗(yàn)中無(wú)法使用疏叨。

預(yù)測(cè)準(zhǔn)確度

推薦系統(tǒng)離線測(cè)評(píng)中最重要的指標(biāo)。

評(píng)分預(yù)測(cè)

作為一個(gè)回歸問(wèn)題穿剖,常用以下兩種評(píng)測(cè)指標(biāo),均方根誤差 ?卦溢,以及平均絕對(duì)值誤差 ?糊余。相比較之下,RMSE對(duì)于預(yù)測(cè)不準(zhǔn)確的評(píng)分懲罰更大单寂,是一個(gè)更加苛刻的評(píng)測(cè)指標(biāo)贬芥。

Top N推薦

推薦的真實(shí)應(yīng)用場(chǎng)景是給用戶一個(gè)推薦列表,我們對(duì)這個(gè)列表中的結(jié)果進(jìn)行準(zhǔn)確率和召回率的計(jì)算宣决。有些時(shí)候會(huì)選取不同的推薦列表長(zhǎng)度N蘸劈,計(jì)算一組評(píng)測(cè)結(jié)果,畫(huà)出準(zhǔn)確率 / 召回率曲線尊沸。因?yàn)槲覀兏雨P(guān)心的是用戶會(huì)不會(huì)選取我們推薦列表中的內(nèi)容威沫,而沒(méi)有那么關(guān)心用戶對(duì)于選取內(nèi)容的評(píng)價(jià)。因此TopN推薦是我們更加關(guān)注的一個(gè)指標(biāo)洼专。

覆蓋率

描述推薦系統(tǒng)對(duì)于物品長(zhǎng)尾的挖掘能力棒掠,這是一個(gè)內(nèi)容生產(chǎn)者極為關(guān)心的目標(biāo)。簡(jiǎn)單的想屁商,每個(gè)內(nèi)容至少被推薦給用戶一下烟很,證明了推薦系統(tǒng)挖掘長(zhǎng)尾的能力。但實(shí)際情況下蜡镶,不同物品的流行度極為不同雾袱,因?yàn)橥ㄟ^(guò)研究所有物品的流行度分布可以證明推薦系統(tǒng)長(zhǎng)尾信息挖掘能力的差異。物品流行度分布越是平整官还,這種能力越強(qiáng)芹橡,覆蓋率也就越高。

信息論中的信息熵的概念可以評(píng)價(jià)覆蓋率妻枕,?僻族,分布越均勻的時(shí)候,信息熵越大屡谐,覆蓋率越大述么。

經(jīng)濟(jì)學(xué)中的基尼系數(shù)也可以評(píng)價(jià)覆蓋率,? 是按照物品流行度從小到大排列愕掏。 ?度秘, 分布越平均,基尼系數(shù)越小(趨近于零)剑梳,覆蓋率越大唆貌。

多樣性

用戶的興趣不是單一的,而是多樣的垢乙。盡管用戶的興趣在較長(zhǎng)的跨度中是不一樣的锨咙,但是具體到用戶訪問(wèn)系統(tǒng)的某一個(gè)時(shí)刻,這個(gè)時(shí)刻的興趣點(diǎn)是確定的追逮。理想化的推薦列表中的內(nèi)容應(yīng)該是和用戶的興趣同分布的酪刀。

相似性和多樣性是一個(gè)相對(duì)應(yīng)的概念。假設(shè)?定義了物品i钮孵,j之間的相似性骂倘,那么 用戶u 的推薦列表R(u)的多樣性定義如下:

?

新穎性

推薦系統(tǒng)提高推薦內(nèi)容新穎性方法很簡(jiǎn)單,直接過(guò)濾掉用戶已經(jīng)關(guān)注過(guò)的內(nèi)容就好巴席。但是這種方法不能排除掉用戶通過(guò)其他途徑獲得過(guò)的信息历涝。另一個(gè)想法是,如果推薦物品中的平均流行度更低漾唉,那么其對(duì)于用戶的新穎性是更大的荧库。這很容易做到,其難點(diǎn)在于如何在不犧牲推薦精度的情況下提升推薦內(nèi)容的多樣性和新穎度毡证。

驚喜度

驚喜度這個(gè)指標(biāo)乍一看和新穎性關(guān)聯(lián)性很強(qiáng)电爹。但這只是英文翻譯成中文后詞語(yǔ)之間的相似性對(duì)于我們帶來(lái)的困擾。

當(dāng)推薦的一個(gè)內(nèi)容與用戶以往的使用記錄相關(guān)性很低料睛,卻又使用戶很滿意的時(shí)候丐箩,用戶是驚喜的。這就是驚喜度的定性定義恤煞。換個(gè)角度思考屎勘,為了提高用戶的驚喜度,需要首先降低推薦內(nèi)容與用戶以往使用記錄的相關(guān)性居扒,另一方面需要提升用戶的滿意度概漱。由于第一方面因素的限制,是的驚喜度成為了一個(gè)推薦系統(tǒng)比較難以提高的指標(biāo)喜喂。并且瓤摧,提高這個(gè)指標(biāo)還會(huì)冒著相對(duì)較大的風(fēng)險(xiǎn),因?yàn)橐粋€(gè)與用戶以往使用記錄不類似的內(nèi)容不可控因素也會(huì)更大玉吁。但是這個(gè)點(diǎn)倒是可以和強(qiáng)化學(xué)習(xí)的“探索”結(jié)合起來(lái)照弥,進(jìn)一步優(yōu)化系統(tǒng)。

信任度

在電商的推薦場(chǎng)景下进副,這是一個(gè)很重要的指標(biāo)这揣。當(dāng)用戶信任推薦系統(tǒng)的推薦和不信任時(shí)做出的選擇是完全不同的。一般來(lái)說(shuō)有以下兩種方式:

  • 提供推薦內(nèi)容的解釋信息;

  • 根據(jù)用戶的好友信息進(jìn)行推薦给赞,博得用戶的信任感机打。

實(shí)時(shí)性

在某些場(chǎng)景下,信息的時(shí)效性是非常重要的片迅。比如:新聞的推薦残邀。推薦系統(tǒng)的實(shí)效性一般來(lái)說(shuō)分為兩個(gè)方面。

  • 實(shí)時(shí)的更新推薦列表萊曼需用戶新的變化行為柑蛇。這可以通過(guò)推薦列表的變化速率來(lái)進(jìn)行測(cè)評(píng)罐旗。如果推薦列表在用戶有行為后變化不大或者沒(méi)有變化,說(shuō)明其實(shí)時(shí)性不夠高唯蝶。

  • 實(shí)時(shí)的將新加入系統(tǒng)的內(nèi)容推薦給感興趣的用戶,這主要考驗(yàn)了系統(tǒng)的冷啟動(dòng)能力遗嗽≌澄遥可以通過(guò)記錄用戶的推薦列表中有多大比例的物品是當(dāng)天新加入的來(lái)判斷這個(gè)方面的實(shí)時(shí)性。

健壯性

任何一個(gè)能帶來(lái)利益的算法都會(huì)被人攻擊痹换,反作弊能力這個(gè)時(shí)候就至關(guān)重要了征字,也就是系統(tǒng)的魯棒性。算法健壯性的檢測(cè)主要依靠模擬攻擊娇豫。用常用的攻擊方法是向推薦系統(tǒng)中注入噪聲匙姜,比較攻擊前后兩次系統(tǒng)生成的推薦列表的內(nèi)容差異,如果沒(méi)有太大變化冯痢,證明系統(tǒng)比較魯棒氮昧。

另外,在算法設(shè)計(jì)的時(shí)候浦楣,盡量主要考慮使用代價(jià)比較高的用戶行為特征袖肥。這樣的數(shù)據(jù)由于攻擊代價(jià)較高,因此更不容易受到攻擊振劳;另一方面椎组,由于攻擊代價(jià)較高,這樣的數(shù)據(jù)中本身的混有的噪聲也更少历恐。

商業(yè)目標(biāo)

對(duì)于公司而言寸癌,推薦系統(tǒng)是為了提高公司的營(yíng)收額,本質(zhì)上是想要提高每個(gè)用戶為公司帶來(lái)的營(yíng)收額弱贼。而這種計(jì)算指標(biāo)計(jì)算一次的代價(jià)過(guò)于高昂蒸苇,不同的公司根據(jù)其具體情況設(shè)計(jì)了不同的商業(yè)目標(biāo)。有的是商品消費(fèi)額哮洽,有的是廣告點(diǎn)擊總數(shù)填渠,有的是廣告展示總數(shù)等等。

評(píng)測(cè)維度

推薦系統(tǒng)不存在銀彈,我們需要根據(jù)我們的數(shù)據(jù)狀況氛什,以及實(shí)際的應(yīng)用背景選擇合適的推薦系統(tǒng)莺葫。這就需要我們從多個(gè)維度全面的考慮算法的優(yōu)劣。一般來(lái)說(shuō)枪眉,分為如下三個(gè)方面:

  • 用戶維度:新舊用戶捺檬,活躍度,用戶的人口統(tǒng)計(jì)學(xué)信息贸铜。

  • 物品維度:物品屬性堡纬、流行度、新舊程度

  • 時(shí)間維度:季節(jié)蒿秦,白天 / 晚上烤镐,工作日 / 周末

利用用戶行為數(shù)據(jù)

用戶的行為數(shù)據(jù)分為兩大類,一類是通過(guò)設(shè)計(jì)的用戶反饋模塊返回的顯性反饋棍鳖,通常這類數(shù)據(jù)數(shù)量較小炮叶,產(chǎn)生代價(jià)更高,對(duì)于用戶畫(huà)像的描述貢獻(xiàn)更大渡处;另一類是用戶在網(wǎng)站上的一般性操作(例如瀏覽)返回的隱性反饋镜悉。這類數(shù)據(jù)并不會(huì)十分明確地表達(dá)出用戶的喜好,但數(shù)據(jù)量比較大医瘫,對(duì)于推薦系統(tǒng)的構(gòu)造也起到了不可忽視的作用侣肄。

隱形數(shù)據(jù)中的大量噪音如何消除?(例如用戶被虛假標(biāo)題誘導(dǎo)的錯(cuò)誤點(diǎn)擊醇份,或者交互不合理導(dǎo)致的錯(cuò)誤點(diǎn)擊)

基于鄰域的算法

基于用戶的協(xié)同過(guò)濾算法

基于鄰域的用戶協(xié)同過(guò)濾算法是最古老的推薦算法之一稼锅。這個(gè)算法有兩個(gè)關(guān)鍵任務(wù)。

  • 如何找到與目標(biāo)用戶興趣相似的用戶集合僚纷?

    • 兩個(gè)用戶有過(guò)正反饋的物品集合越大說(shuō)明兩個(gè)用戶的相似性越大缰贝,但很明顯,所有物品在這個(gè)方法下的權(quán)重不應(yīng)該是相同的畔濒,需要對(duì)熱門(mén)的物品的權(quán)重進(jìn)行一個(gè)懲罰剩晴。
  • 何如找到這個(gè)集合中用戶喜歡的,且目標(biāo)用戶沒(méi)有聽(tīng)說(shuō)過(guò)的物品推薦給用戶(新奇)侵状。

    • 是否推薦一個(gè)物品有兩方面因素決定赞弥,一方面這個(gè)集合中的用戶有多少個(gè)對(duì)這個(gè)物品有過(guò)正反饋操作?另一方面趣兄,這些有正反饋操作的用戶與目標(biāo)用戶的興趣相似度有多大绽左?

基于物品的協(xié)同過(guò)濾算法

這是2010年左右業(yè)界最常用的算法。用以解決基于用戶的協(xié)同過(guò)濾算法的兩個(gè)弊端艇潭。第一拼窥,基于用戶的協(xié)同過(guò)濾算法要探究所有用用戶之間的相似性戏蔑,那么隨著用戶的增加,用戶相似度矩陣將越來(lái)越大鲁纠。時(shí)間復(fù)雜度和空間復(fù)雜度也以平方的級(jí)別增加总棵,矩陣難以維護(hù)。其次改含,基于用戶的協(xié)同過(guò)濾算法做出推薦的時(shí)候沒(méi)有辦法做出推薦解釋情龄,用戶的信任度比較低。

基于物品的協(xié)同過(guò)濾算法有兩個(gè)關(guān)鍵任務(wù)捍壤。

  • 何如獲取物品之間的相似度骤视?

    • 物品的相似性用后驗(yàn)概率來(lái)表示,喜歡物品A的用戶中有多少人同時(shí)喜歡B鹃觉,人數(shù)越多专酗,說(shuō)明兩個(gè)物品的相似度越高。(這里需要對(duì)特別活躍的用戶降權(quán)重)
  • 何如根據(jù)物品相似度和用戶的歷史行為給用戶生成推薦列表盗扇。

    • 某物品與目標(biāo)用戶歷史上正反饋的的物品的相似度越高越容易被推薦笼裳。相似度歸一化可以提高性能。

UserCF 與 ItemCF之間的比較

UserCF的推薦結(jié)果更加著重于反應(yīng)和用戶興趣相似的小群體的熱點(diǎn)粱玲,也就是說(shuō)大家都關(guān)心的東西就推薦給新用戶,新用戶也大概率會(huì)關(guān)心拜轨;ItemCF 的推薦結(jié)果更著重于維系用戶的歷史興趣抽减,不同用戶也有自己所關(guān)心的領(lǐng)域。

UserCF ItemCF
性能 適用于用戶較少的場(chǎng)合橄碾,如果用戶很多卵沉,計(jì)算用戶相似度矩陣代價(jià)很大 適用于物品數(shù)明顯小于用戶數(shù)的場(chǎng)合,如果物品很多(網(wǎng)頁(yè))法牲,計(jì)算物品相似度矩陣代價(jià)很大
領(lǐng)域 時(shí)效性較強(qiáng)史汗,用戶個(gè)性化興趣不太明顯的領(lǐng)域 長(zhǎng)尾物品豐富,用戶個(gè)性化需求強(qiáng)烈的領(lǐng)域
實(shí)時(shí)性 用戶有新行為拒垃,不一定造成推薦結(jié)果的立即變化 用戶有新行為停撞,一定會(huì)導(dǎo)致推薦結(jié)果的實(shí)時(shí)變化
冷啟動(dòng) 在新用戶對(duì)很少的物品產(chǎn)生行為后,不能立即對(duì)他進(jìn)行個(gè)性化推薦悼瓮,因?yàn)橛脩粝嗨贫缺硎敲扛粢欢螘r(shí)間離線計(jì)算的 新用戶只要對(duì)一個(gè)物品產(chǎn)生行為戈毒,就可以給他推薦和該物品相關(guān)的其他物品
新物品上線后一段時(shí)間,一旦有用戶對(duì)物品產(chǎn)生為横堡,就可以將新物品推薦給和對(duì)它產(chǎn)生行為的用 但沒(méi)有辦法在不離線更新物品相似度表的情況下將新物品推薦給用戶
推薦理由 很難提供令用戶信服的推薦解釋 利用用戶的歷史行為給用戶做推薦解釋埋市,可以令用戶比較信服

沒(méi)有“銀彈”,在不同的業(yè)務(wù)場(chǎng)景下命贴,在不同的數(shù)據(jù)背景下道宅。算法的表現(xiàn)不盡相同食听,真實(shí)的推薦結(jié)果往往是揚(yáng)長(zhǎng)避短,多種推薦算法的集成污茵。

一個(gè)推薦系統(tǒng)可不可以用戶連續(xù)的使用時(shí)長(zhǎng)為標(biāo)準(zhǔn)切換不同的算法樱报。例如抖音,用戶剛登陸可以用UserCF推薦一波熱點(diǎn)視頻省咨,隨著用戶連續(xù)使用的時(shí)常增加肃弟,可以逐步平滑的切換到ItemCF實(shí)時(shí)變化,推薦更多興趣化的內(nèi)容零蓉。

隱語(yǔ)義算法

就是文本挖掘領(lǐng)域中的主題模型(LSI笤受、pLSA、LDA等)敌蜂。一方面提取待推薦物品的主題向量箩兽,另一方面提取目標(biāo)用戶的興趣主題向量。當(dāng)兩個(gè)向量相似度越高說(shuō)明越合適被推薦章喉。

這里有個(gè)構(gòu)造負(fù)樣本的點(diǎn)需要注意汗贫。應(yīng)該選取那些比較熱門(mén)但是用戶卻沒(méi)有行為的樣本作為負(fù)樣本。

這類方法有個(gè)弊端就是很難做到較高的實(shí)時(shí)性秸脱。因?yàn)橛?jì)算用戶隱向量的時(shí)候需要掃描用戶之前的所有的操作記錄落包,很耗時(shí)。在實(shí)時(shí)性要求比較高的新聞推薦領(lǐng)域不適合使用這種方法摊唇。

基于圖的模型

基于圖的推薦算法算法是構(gòu)造基于用戶和物品的二分圖咐蝇,用基于大數(shù)據(jù)量統(tǒng)計(jì)的隨機(jī)游走算法(PersonalRank)來(lái)衡量頂點(diǎn)之間的相似性,進(jìn)而選擇推薦的物品巷查。頂點(diǎn)之間的相似性需要從以下三個(gè)方面衡量

  • 兩個(gè)頂點(diǎn)之間的路徑數(shù)(相關(guān)性高的兩個(gè)節(jié)點(diǎn)之間的路徑數(shù)多)

  • 兩個(gè)頂點(diǎn)之間的路徑長(zhǎng)度(相關(guān)性高的兩個(gè)節(jié)點(diǎn)之間的路徑長(zhǎng)度短)

  • 兩個(gè)頂點(diǎn)之間的路徑經(jīng)過(guò)的頂點(diǎn)(相關(guān)性高的兩個(gè)節(jié)點(diǎn)之間的路徑不會(huì)經(jīng)過(guò)出度比較大的節(jié)點(diǎn))

隨機(jī)游走算法就是每次從目標(biāo)點(diǎn)出發(fā)有序,按照特定的概率?決定是繼續(xù)走下去還是返回起始點(diǎn)。如果繼續(xù)走下去岛请,就按照均勻分布的方式隨機(jī)選擇下一個(gè)節(jié)點(diǎn)作為下次需要經(jīng)過(guò)的結(jié)點(diǎn)旭寿。循環(huán)往復(fù)這個(gè)過(guò)程。但是隨機(jī)游走算法需要多次迭代才能收斂崇败,只能用早椭殉疲或者構(gòu)造轉(zhuǎn)移概率矩陣的方式求解。

推薦系統(tǒng)冷啟動(dòng)

推薦系統(tǒng)冷啟動(dòng)就是如何淘來(lái)第一桶金的問(wèn)題后室。根據(jù)對(duì)象的不同分為三個(gè)方面微渠。

  • 用戶的冷啟動(dòng)

  • 物品的冷啟動(dòng)

  • 系統(tǒng)的冷啟動(dòng)

用戶的冷啟動(dòng)

用戶的冷啟動(dòng)指的是一個(gè)新用戶剛加入網(wǎng)站后沒(méi)有對(duì)應(yīng)的歷史行為數(shù)據(jù),如何為他推薦物品咧擂。

首先可以考慮從用戶的注冊(cè)信息破局逞盆。其實(shí)從引入額外信息的角度考慮,用戶的冷啟動(dòng)越來(lái)越是個(gè)偽問(wèn)題松申。隨著每個(gè)用戶再互聯(lián)網(wǎng)上留下的蛛絲馬跡越來(lái)越多云芦,冷啟動(dòng)問(wèn)題也就越來(lái)越不是個(gè)問(wèn)題了俯逾。

用戶的注冊(cè)信息分為以下三種:

  • 人口統(tǒng)計(jì)學(xué)特征:年齡,性別舅逸、職業(yè)桌肴、民族、學(xué)歷琉历、居住地等等一系列坠七。

  • 用戶興趣描述:新用戶注冊(cè)界面可以給之以少許的標(biāo)簽(或者典型物品)選擇來(lái)讓用戶表述自己的興趣。

  • 建立賬號(hào)體系:從其它網(wǎng)站導(dǎo)流(社交網(wǎng)站為最佳旗笔,可以借助社交推薦的力量)彪置。

可以根據(jù)已有的信息,選擇用樹(shù)狀結(jié)構(gòu)對(duì)用戶進(jìn)行分組蝇恶,對(duì)新用戶進(jìn)行粗粒度的個(gè)性化推薦拳魁。或者輔以最熱門(mén)物品的加權(quán)推薦撮弧。

物品冷啟動(dòng)

UserCF算法對(duì)于物品的冷啟動(dòng)是不敏感的潘懊。要知道,目標(biāo)用戶獲取新推薦物品的方式是根據(jù)相似人群喜歡的物品贿衍,知道將新物品加入到系統(tǒng)中授舟,只要被一個(gè)用戶有正反饋就必然會(huì)逐步擴(kuò)散開(kāi)來(lái)。

對(duì)于ItemCF算法來(lái)說(shuō)贸辈,新物品的冷啟動(dòng)顯然更加的困難释树。我們想要將一個(gè)物品推薦給用戶需要先找到與其相似的物品,但是在沒(méi)有物品使用記錄的時(shí)候就無(wú)法更新物品的相關(guān)性表裙椭。這時(shí)候可以根據(jù)物品不同類型的特征構(gòu)造特征向量,運(yùn)用向量的相似性度量方法去尋找相似物品(內(nèi)容過(guò)濾算法)署浩。但是這樣的方法卻沒(méi)有考慮到用戶行為揉燃,也忽略了物品流行度,精確性就相對(duì)差一些筋栋。

系統(tǒng)冷啟動(dòng)

在一個(gè)新系統(tǒng)一窮二白的時(shí)候可以先用熱門(mén)排行榜(這也是一種推薦方法)的方式積累原始數(shù)據(jù)炊汤。或者用大的代價(jià)請(qǐng)專家迅速建立起現(xiàn)有物品的相關(guān)性表弊攘,就可以初始時(shí)候就采用ItemCF的推薦方式抢腐。

利用用戶標(biāo)簽數(shù)據(jù)

推薦系統(tǒng)中的用戶標(biāo)簽數(shù)據(jù)是重要的用戶反饋。相比于用戶的行為數(shù)據(jù)襟交,這樣的顯性反饋對(duì)于捕捉用戶的興趣準(zhǔn)確性會(huì)更高迈倍。但是再或者標(biāo)簽數(shù)據(jù)的時(shí)候,也要關(guān)注如何獲得更高質(zhì)量的數(shù)據(jù)捣域,顯然給用戶推薦他可能選擇的標(biāo)簽可以顯著降低用戶反饋的成本啼染,同時(shí)也能提高反饋標(biāo)簽的質(zhì)量(用戶自己寫(xiě)新標(biāo)簽可能寫(xiě)錯(cuò)宴合,或者新構(gòu)造出了與現(xiàn)有某標(biāo)簽的同義標(biāo)簽)。因此迹鹅,關(guān)于這個(gè)點(diǎn)主要有以下兩個(gè)問(wèn)題需要解決卦洽。

  • 如何利用標(biāo)簽數(shù)據(jù)為用戶更好的推薦物品?

  • 如何為用戶推薦標(biāo)簽斜棚,以提高標(biāo)簽數(shù)據(jù)的質(zhì)量阀蒂?

以用戶反饋標(biāo)簽構(gòu)造推薦算法,最簡(jiǎn)單的想法弟蚀。首先可以找到用戶最喜歡用的若干標(biāo)簽蚤霞,然后找到擁有這些標(biāo)簽最多的對(duì)應(yīng)物品,將這些物品推薦給用戶粗梭。這個(gè)算法會(huì)非常傾向于熱門(mén)標(biāo)簽對(duì)應(yīng)的熱門(mén)物品争便,為了提高推薦系統(tǒng)的新穎性,可以通過(guò)TF-IDF的方法去降低熱門(mén)標(biāo)簽的權(quán)重断医,甚至同時(shí)懲罰熱門(mén)物品滞乙。

復(fù)雜一點(diǎn)的算法,可以將用戶鉴嗤,標(biāo)簽斩启,物品三部分分別分開(kāi),構(gòu)造成圖結(jié)構(gòu)的三部分頂點(diǎn)醉锅,然后同樣用隨機(jī)游走算法去推薦物品兔簇。基于標(biāo)簽的系統(tǒng)還有一個(gè)優(yōu)點(diǎn)就是可以很好的根據(jù)標(biāo)簽生成推薦理由硬耍,增加用戶的信任度垄琐,從而提高點(diǎn)擊通過(guò)率。

為用戶推薦標(biāo)簽的算法可以簡(jiǎn)單到只有一行代碼经柴,因?yàn)閮H是一個(gè)排序算法狸窘。第一種,可以推薦系統(tǒng)中最常出現(xiàn)的標(biāo)簽坯认;第二種方法翻擒,可以推薦給用戶其本身最喜歡用的標(biāo)簽;第三種牛哺,推薦給用戶的標(biāo)簽是待打標(biāo)簽物品最經(jīng)常被打的標(biāo)簽陋气。然后,還可以進(jìn)一步地將它們線性加權(quán)起來(lái)使用引润。當(dāng)然還可以用圖結(jié)構(gòu)下的隨機(jī)游走算法確定所推薦的標(biāo)簽巩趁。

利用上下文信息

一個(gè)好的推薦系統(tǒng)往往要考慮多方面的信息。前面所述的所有推薦算法都可以增加關(guān)于用戶時(shí)間信息淳附,地理信息晶渠,用戶心情信息等等上下文信息來(lái)輔助進(jìn)行推薦凰荚。

以時(shí)間效應(yīng)為例,我們?cè)谥苤兴阉鞯膬?nèi)容往往是工作相關(guān)的內(nèi)容褒脯,周末搜索的往往是個(gè)人興趣便瑟,呈現(xiàn)出強(qiáng)周期性;我們?cè)诙煜胍I的鞋子顯然和夏天想要買的鞋子不是一樣的種類番川;一個(gè)體育新聞只有剛發(fā)生時(shí)才是用戶想要的到涂,時(shí)間越久用戶對(duì)于他的興趣是越低的。如果能夠基于此能夠特定調(diào)整推薦系統(tǒng)的推薦內(nèi)容颁督,相信會(huì)提高用戶的滿意度践啄。加上時(shí)間信息之后,推薦系統(tǒng)就相當(dāng)于多了一個(gè)時(shí)間的維度沉御,成為一個(gè)時(shí)變系統(tǒng)屿讽。

推薦系統(tǒng)的時(shí)效性分為近期和遠(yuǎn)期兩種。這需要算法平衡用戶近期行為和遠(yuǎn)期行為吠裆。既要讓推薦列表反映出用戶近期行為所體現(xiàn)出的興趣變化伐谈,又不能讓推薦列表完全受用戶近期行為的影響,保證推薦列表對(duì)用戶興趣的預(yù)測(cè)延續(xù)性试疙。

另一方面诵棵,推薦系統(tǒng)應(yīng)該在時(shí)間維度上體現(xiàn)出多樣性這一特點(diǎn)。這要求加入用戶有一段時(shí)間沒(méi)有操作祝旷,推薦列表也能表現(xiàn)出一些變化履澳。要做到這一點(diǎn)比較容易,大體有以下三種方法:

  • 推薦算法生成的時(shí)候本身就加入一些隨機(jī)性怀跛。比如最后展示的是個(gè)結(jié)果是從排名前二十的結(jié)果中隨機(jī)采樣獲取的距贷。

  • 對(duì)之前看到過(guò)的內(nèi)容進(jìn)行降權(quán)。減小再次生成的概率吻谋。

  • 推薦系統(tǒng)集成若干種算法忠蝗,可以根據(jù)時(shí)間信息,采取不同的算法推薦滨溉。

如果從地理信息的位置信息考慮個(gè)性化推薦系統(tǒng)什湘,有一種金字塔模型的集成算法思路长赞。根據(jù)用戶的地理位置信息進(jìn)行樹(shù)結(jié)構(gòu)的劃分晦攒,可以劃分若干層〉枚撸基于每一層的位置信息進(jìn)行推薦內(nèi)容的生成脯颜,最后展示的推薦信息是每一層信息的加權(quán)結(jié)合。心情信息也可以參照此思路采取類似的算法贩据。

利用社交網(wǎng)絡(luò)信息

根據(jù)社交網(wǎng)絡(luò)的推薦給推薦系統(tǒng)帶來(lái)最大的好處就是可以增加用戶的信任度栋操,其實(shí)是可以輔助解決新用戶的冷啟動(dòng)問(wèn)題闸餐。推薦系統(tǒng)的根本目的是提高用戶點(diǎn)擊率(滿意度),而提升推薦物品的被信任程度和提升被推薦物品的準(zhǔn)確度(驚喜度)是同時(shí)存在的兩種實(shí)現(xiàn)方式矾芙。這種社會(huì)化推薦對(duì)于提升用戶的廣告接受度有著非常強(qiáng)烈的作用舍沙。

基于社交網(wǎng)絡(luò)的推薦

最主要的社交網(wǎng)絡(luò)信息從用戶的注冊(cè)郵件 / 手機(jī)通信錄來(lái)獲得,當(dāng)然了剔宪,如果用戶愿意綁定 自己的社交帳號(hào)到新網(wǎng)站拂铡。新網(wǎng)站有可能會(huì)獲取用戶的在社交網(wǎng)絡(luò)中的關(guān)系以及興趣點(diǎn),以實(shí)現(xiàn)根據(jù)社交網(wǎng)絡(luò)關(guān)系的推薦葱绒。

社交網(wǎng)絡(luò)的數(shù)據(jù)一般分為三種感帅,基于社區(qū)(小組)的弱關(guān)聯(lián)社交關(guān)系佃迄;基于單向關(guān)注的社交關(guān)系(例如微博)娶耍;基于雙向確認(rèn)的強(qiáng)社交關(guān)系(例如微信)。

社交推薦同樣可以采用基于鄰域的推薦方法霸奕,以及基于圖的推薦方法帮毁。值得注意的是实苞,同熱門(mén)物品權(quán)重過(guò)大的問(wèn)題一樣。社交網(wǎng)絡(luò)關(guān)系中也存在”大V“這樣的熱門(mén)人物作箍,需要有特殊的權(quán)重處理硬梁。另外,在實(shí)際應(yīng)用中胞得,UserCF的實(shí)用價(jià)值不高荧止,因?yàn)樵诮o一個(gè)用戶作推薦的時(shí)候,需要他所有好友的歷史行為數(shù)據(jù)阶剑,計(jì)算起來(lái)會(huì)比較緩慢≡狙玻現(xiàn)有的社交網(wǎng)絡(luò)推薦主要以信息流的方式存在,當(dāng)某用戶產(chǎn)生一條內(nèi)容后牧愁,這條內(nèi)容會(huì)出現(xiàn)在所有關(guān)注他的人的消息隊(duì)列當(dāng)中素邪。如果這個(gè)消息是一條廣告推薦,非常有利于提升其他用戶對(duì)于廣告品牌的好感以及對(duì)廣告內(nèi)容的接受程度猪半。

給用戶推薦好友

好友推薦系統(tǒng)的目的是根據(jù)用戶的現(xiàn)有好友兔朦、以及用戶的行為記錄,給用戶推薦信的朋友磨确,從而提升整個(gè)社區(qū)的社交網(wǎng)絡(luò)稠密性沽甥,提升用戶粘性以及活躍度。

具體的推薦思路有以下幾種乏奥。

  • 基于用戶基本信息:例如用戶的地點(diǎn)摆舟,年齡,性別,學(xué)校恨诱,職業(yè)等等信息推薦潛在的好友媳瞪。

  • 基于共同興趣:UGC社區(qū)中一定會(huì)設(shè)計(jì)若干機(jī)制讓用戶對(duì)內(nèi)容反饋≌毡Γ可以利用這些反饋數(shù)據(jù)構(gòu)造用戶的興趣向量蛇受,通過(guò)計(jì)算向量相似度的方式找到潛在的好友。

  • 基于社交網(wǎng)絡(luò)圖:根據(jù)用戶的社交關(guān)系鏈進(jìn)行推薦厕鹃,就是著名的六度人脈網(wǎng)絡(luò)理論龙巨。

推薦系統(tǒng)的架構(gòu)

推薦系統(tǒng)一般有UI設(shè)計(jì),日志系統(tǒng)熊响,后臺(tái)存儲(chǔ)系統(tǒng)旨别,推薦算法等幾個(gè)部分。

image

推薦系統(tǒng)往往有多個(gè)推薦引擎組成汗茄,每個(gè)推薦引擎負(fù)責(zé)一類特征和一種任務(wù)秸弛,而推薦系統(tǒng)的任務(wù)只是將推薦引擎的結(jié)果按照一定權(quán)重或者優(yōu)先級(jí)合并、排序然后返回洪碳。所以Ranking組是一個(gè)比較核心的組递览?

這樣組合一方面方便增加或者刪除不同推薦引擎;另一方面在使用不同的推薦引擎的時(shí)候瞳腌,可以獲得到推薦引擎級(jí)別的用戶反饋绞铃。

image
image
  • A模塊:負(fù)責(zé)從用戶的基本統(tǒng)計(jì)信息,或者隱性嫂侍、顯性的用戶行為數(shù)據(jù)中提取特征向量儿捧。

  • B模塊:維護(hù)著若干項(xiàng)物品相關(guān)性表(從不同的角度分析)。

  • 過(guò)濾功能:去掉用戶已經(jīng)見(jiàn)過(guò)的物品挑宠;去掉質(zhì)量很差的物品菲盾;去掉不符合推薦候選(商業(yè)因素)的物品

  • 排名模塊:將推薦引擎得到的結(jié)果進(jìn)一步排序(內(nèi)容展現(xiàn)順序很影響用戶點(diǎn)擊率),以期提高用戶的滿意度各淀。

    • 新穎性:將匹配度較高懒鉴,且流行度較低的長(zhǎng)尾物品推薦給過(guò)濾模塊。

    • 多樣性:精心選擇內(nèi)容屬性(影響很大)碎浇,盡量防止同一個(gè)推薦原因出現(xiàn)多次临谱。已經(jīng)被用過(guò)的推薦理由下次采樣得到的權(quán)重減半就是一個(gè)常見(jiàn)的處理方式。

    • 時(shí)間多樣性:也就是所謂的實(shí)時(shí)性奴璃∠つ可以記錄用戶上次的推薦內(nèi)容,即使上次用戶沒(méi)有操作溺健,用戶下次登陸也不會(huì)再次推薦重復(fù)的內(nèi)容(對(duì)已經(jīng)看過(guò)的內(nèi)容進(jìn)行降權(quán))麦牺。

    • 用戶反饋:排名模塊最重要的部分就是用戶反饋模塊。用戶反饋模塊主要通過(guò)分析用戶之前和推薦結(jié)果的交互日志鞭缭,預(yù)測(cè)用戶會(huì)對(duì)什么樣的推薦結(jié)果比較感興趣剖膳。如果推薦系統(tǒng)的目標(biāo)是提高用戶對(duì)推薦結(jié)果的點(diǎn)擊率,那么可以利用點(diǎn)擊模型(click model)預(yù)測(cè)用戶是否會(huì)點(diǎn)擊推薦結(jié)果岭辣。點(diǎn)擊模型需要離線計(jì)算好吱晒,在線將模型加載到內(nèi)存中。

設(shè)計(jì)推薦系統(tǒng)的十個(gè)建議

  1. 確定你真的需要推薦系統(tǒng):只有信息過(guò)載時(shí)候才需要沦童,不要為了推薦而推薦仑濒。無(wú)論算法是否復(fù)雜,能過(guò)達(dá)到目的的系統(tǒng)就是好的系統(tǒng)偷遗。

  2. 確定商業(yè)目標(biāo)和用戶滿意度之間的關(guān)系:用戶滿意度和商業(yè)目標(biāo)并不一定是完全吻合的墩瞳。商業(yè)目標(biāo)更多關(guān)注短期,用戶滿意度則是長(zhǎng)期收益氏豌。

  3. 選擇合適的開(kāi)發(fā)人員喉酌。

  4. 忘記冷啟動(dòng):互聯(lián)網(wǎng)大潮席卷每一個(gè)人,每個(gè)用戶都不斷的在互聯(lián)網(wǎng)都嚇自己的蛛絲馬跡泵喘。我們有越來(lái)越多的初始數(shù)據(jù)來(lái)了解一個(gè)人泪电,冷啟動(dòng)問(wèn)題將慢慢消逝。

  5. 數(shù)據(jù)與算法:深刻理解數(shù)據(jù)是設(shè)計(jì)一個(gè)好的算法的必要前提纪铺。數(shù)據(jù)分析決定了如何設(shè)計(jì)模型相速,算法只是去優(yōu)化這個(gè)模型。

  6. 呈現(xiàn)方式:找到相關(guān)值得推薦的物品不難鲜锚,難的是以何種方式展現(xiàn)給用戶突诬,以提高用戶的點(diǎn)擊率。

  7. 社交網(wǎng)絡(luò)的力量:社交推薦勢(shì)必會(huì)慢慢替代陳舊的基于鄰域的協(xié)同過(guò)濾算法芜繁,這是推薦系統(tǒng)的高地攒霹。

  8. 不斷提高系統(tǒng)的、模型的可拓展性浆洗。

  9. 選擇恰當(dāng)?shù)挠脩舴答伔绞健?/p>

  10. 設(shè)計(jì)合理的測(cè)評(píng)系統(tǒng)催束,關(guān)注推薦系統(tǒng)各個(gè)方面的性能。


十年Recsys 總結(jié)

2018 推薦系統(tǒng)總結(jié)

原文發(fā)布于個(gè)人博客(好望角)伏社,并在博客持續(xù)修改更新抠刺,此處可能更新不及時(shí)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末摘昌,一起剝皮案震驚了整個(gè)濱河市速妖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌聪黎,老刑警劉巖罕容,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡锦秒,警方通過(guò)查閱死者的電腦和手機(jī)露泊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)旅择,“玉大人惭笑,你說(shuō)我怎么就攤上這事∩妫” “怎么了沉噩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)柱蟀。 經(jīng)常有香客問(wèn)我川蒙,道長(zhǎng),這世上最難降的妖魔是什么长已? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任派歌,我火速辦了婚禮,結(jié)果婚禮上痰哨,老公的妹妹穿的比我還像新娘胶果。我一直安慰自己,他們只是感情好斤斧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布早抠。 她就那樣靜靜地躺著,像睡著了一般撬讽。 火紅的嫁衣襯著肌膚如雪蕊连。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,301評(píng)論 1 301
  • 那天游昼,我揣著相機(jī)與錄音甘苍,去河邊找鬼。 笑死烘豌,一個(gè)胖子當(dāng)著我的面吹牛载庭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播廊佩,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼囚聚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了标锄?” 一聲冷哼從身側(cè)響起顽铸,我...
    開(kāi)封第一講書(shū)人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎料皇,沒(méi)想到半個(gè)月后谓松,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體星压,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年鬼譬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了娜膘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拧簸,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出男窟,到底是詐尸還是另有隱情盆赤,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布歉眷,位于F島的核電站牺六,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏汗捡。R本人自食惡果不足惜淑际,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望扇住。 院中可真熱鬧春缕,春花似錦、人聲如沸艘蹋。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)女阀。三九已至宅荤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浸策,已是汗流浹背冯键。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留庸汗,地道東北人惫确。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蚯舱,于是被迫代替她去往敵國(guó)和親雕薪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 作者 | HCY崇遠(yuǎn) 01 前言 本文源自于前陣子連續(xù)更新的推薦系統(tǒng)系列晓淀,前段時(shí)間給朋友整理一個(gè)關(guān)于推薦系統(tǒng)相關(guān)的...
    daos閱讀 5,657評(píng)論 0 77
  • 這篇文章的技術(shù)難度會(huì)低一些所袁,主要是對(duì)推薦系統(tǒng)所涉及到的各部分內(nèi)容進(jìn)行介紹,以及給出一些推薦系統(tǒng)的常用算法凶掰,比起技術(shù)...
    我偏笑_NSNirvana閱讀 12,084評(píng)論 5 89
  • 作者:項(xiàng)亮出版日期:2012.06 隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展燥爷,人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí)代蜈亩。在這...
    新星_點(diǎn)燈閱讀 1,634評(píng)論 0 15
  • 太長(zhǎng)不讀版:由推薦系統(tǒng)帶來(lái)的推薦服務(wù)基本上已經(jīng)滲透到我們生活的方方面面,本文作為淺談推薦系統(tǒng)的基礎(chǔ)篇前翎,主要從下面幾...
    stayrascal閱讀 31,573評(píng)論 5 60
  • 說(shuō)起痛風(fēng)稚配,很多人也許不知道是一種什么樣的病,那么什么是痛風(fēng)呢港华? 痛風(fēng)也稱“高尿酸血癥”道川,是一種因嘌呤代謝障礙,由于...
    美逸康閱讀 554評(píng)論 0 0