推薦資料匯總與解說

最近和好幾位朋友討論推薦系統(tǒng)的搭建和升級镇辉,暫時(shí)沒空將全部實(shí)踐過的部分都寫出來雕沿,但是看過的資料和論文倒是一氣呵成地梳理出來佛掖,對想從零搭建一個(gè)推薦系統(tǒng)或者對推薦系統(tǒng)現(xiàn)有效果不滿希望升級的同學(xué)來說妖碉,可能有用,也可能沒用芥被,你都已經(jīng)看過欧宜。

1. 架構(gòu)部分

  1. 頭條首席架構(gòu)師曹歡歡的分享,為了讓業(yè)界了解頭條的算法拴魄,比較清晰扼要冗茸,突出重點(diǎn),沒有講最新的內(nèi)容匹中。但是核心都涉及到夏漱,值得反復(fù)研讀《ソ荩基本上絕大部分推薦系統(tǒng)架構(gòu)和頭條一致麻蹋。當(dāng)中的差異主要體現(xiàn)在實(shí)時(shí)框架上,頭條繼承百度系的搜索架構(gòu)思想焊切,喜歡用倒排索引來實(shí)現(xiàn)很多部件扮授。阿里、騰訊更加傾向于類似于Strom的流式計(jì)算加上KV存儲(chǔ)的方式专肪。個(gè)人認(rèn)為并無高低之分刹勃,看架構(gòu)師、負(fù)責(zé)人喜好和團(tuán)隊(duì)技能分布嚎尤。
    36氪首發(fā) | 今日頭條推薦算法原理全文詳解
    今日頭條成功的核心技術(shù)秘訣是什么荔仁?深度解密個(gè)性化資訊推薦技術(shù)

  2. 愛奇藝的推薦架構(gòu)演化,有整體架構(gòu)芽死、算法模型的升級進(jìn)化過程乏梁,從算法產(chǎn)品的角度來講述不同的算法模型演化和效果過程,是一個(gè)值得follow的演化路徑关贵∮銎铮可能在愛奇藝的數(shù)據(jù)上,這些模型的效果如此好揖曾。實(shí)際上落萎,在大量其他公司的實(shí)踐和paper亥啦,可能同樣的算法模型不一定做的出來一樣的效果。
    愛奇藝個(gè)性化推薦排序?qū)嵺`

  3. 業(yè)界解讀youtube推薦算法模型练链,這篇文章值得去看的是翔脱,如何設(shè)計(jì)觀測指標(biāo),如何評估內(nèi)容媒鼓。
    從YouTube算法論文反推其推薦機(jī)制

    如何破解YouTube視頻推薦算法届吁?

  4. 餓了么的推薦架構(gòu),包含一部分LBS的領(lǐng)域知識绿鸣,整體架構(gòu)也比較清晰疚沐。推進(jìn)的路徑也不錯(cuò),EE的應(yīng)用也重視的很好枚驻。
    回顧·外賣推薦算法中有哪些機(jī)制與手段濒旦?

  1. 糖豆的實(shí)踐株旷,第一期比較稚嫩再登,但是0到1是gain最大的時(shí)候,極少人力就能快速上線晾剖,建立良好的評估基線極其重要锉矢。包括了實(shí)時(shí)、深度學(xué)習(xí)齿尽、強(qiáng)化學(xué)習(xí)等內(nèi)容沽损,有些零散,但是比較直接面對具體的一個(gè)推薦系統(tǒng)階段循头。上述的文章一般不會(huì)這么詳細(xì)绵估。
    糖豆推薦系統(tǒng)第一期開發(fā)與評估報(bào)告
    糖豆實(shí)時(shí)推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    單步強(qiáng)化學(xué)習(xí)在糖豆推薦系統(tǒng)的應(yīng)用
    深度學(xué)習(xí)于糖豆推薦應(yīng)用--圖片模糊識別
    第二期后續(xù)的工作我一直沒空寫,以后有空寫一下,大概包括算法演進(jìn)卡骂、語義挖掘国裳、用戶畫像、深度學(xué)習(xí)的嘗試等全跨。

2. 模型部分

2.1 基礎(chǔ)的推薦模型

包括基于流行度缝左,基于協(xié)同過濾基于內(nèi)容等模型浓若。
這些模型都比較簡單卻非常有效渺杉,一般作為候選集的選擇或者粗排去使用或者推薦系統(tǒng)初期模型,這些都是非CTR預(yù)估模型挪钓。
Collaborative Filtering based Recommendation Systems exemplified
Beginners Guide to learn about Content Based Recommender Engines


2.2 LR及其推廣模型

  • LR
    它是基線模型是越,后續(xù)所有模型都要和它對比。離線對比的指標(biāo)主要是AUC碌上,logloss英妓,RMSE挽放,NDCG等等,最好都看蔓纠,個(gè)人主要看AUC辑畦。我這里面介紹就簡單講AUC為主。LR模型雖然非常簡單腿倚,但是特征工程+LR基本能解決大部分推薦的問題纯出。它的缺點(diǎn)當(dāng)然非常多,包括學(xué)習(xí)能力有效敷燎,需要領(lǐng)域知識實(shí)現(xiàn)特征之間的交叉組合等等暂筝。但是后續(xù)會(huì)介紹的大量模型里面(在我看過的paper里面),沒有一個(gè)模型敢說超越LR 20%以上的(公開數(shù)據(jù)集)。LR AUC最好能做到0.76~0.78硬贯,depend on 數(shù)據(jù)集焕襟。一般建議把LR AUC起碼做到0.72左右,再進(jìn)行下一步模型升級饭豹。
    Recommendation System Using Logistic Regression and the Hashing Trick

  • FTRL
    它是谷歌提出來的在線學(xué)習(xí)模型鸵赖,它實(shí)際上是對LR的GD過程做了在線的算法和實(shí)現(xiàn)優(yōu)化。適合于極大級別的實(shí)時(shí)預(yù)測拄衰。
    Follow-the-Regularized-Leader and Mirror Descent:
    Equivalence Theorems and L1 Regularization

  • MLR
    它是阿里蓋坤團(tuán)隊(duì)提出的LR模型的推廣它褪。MLR大概就是采用一個(gè)級聯(lián)器組合了LR,能夠通過空間分片的方法來逼近任何高維空間的非線性分類面翘悉。在阿里媽媽的廣告方面應(yīng)用比較廣泛茫打。
    Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction


2.3 基于隱變量的模型

  • SVD
    矩陣分解的方法,它是多年前推薦系統(tǒng)的圣杯-- Netflix Prize最終獲獎(jiǎng)模型 -- SVD++集成RBM妖混,比Netflix當(dāng)時(shí)的模型提升了10%老赤,這是一個(gè)恐怖的提升。它思想是用戶對物品喜好程度(隱向量)可以用用戶-物品大矩陣來表達(dá)制市,通過已知的用戶對物品行為推斷用戶對其他為接觸物品的喜好程度抬旺。具體算法實(shí)現(xiàn)就是將大矩陣分解為user 和item兩個(gè)小矩陣,用最小二乘法求解得到息堂。但是它在實(shí)現(xiàn)上比較麻煩嚷狞,Spark對SVD的實(shí)現(xiàn)性能不算太好。同時(shí)模型解釋性也比較差荣堰。
    Netflix Prize and SVD
    Spark SVD

  • FM
    因子分解機(jī)的方法床未,純粹的矩陣分解無法融入用戶、物品的特征振坚。FM能夠結(jié)合顯性變量和隱性變量薇搁,模型能夠有效表達(dá)特征組合(實(shí)際應(yīng)用基本只是兩兩組合),允許稀疏高維特征空間的參數(shù)估計(jì)渡八。
    Factorization Machines
    深入FFM原理與實(shí)踐

FM的改進(jìn)版本包括FFM等等啃洋,都在百度传货、美團(tuán)等公司的廣告缚甩、推薦等系統(tǒng)廣泛使用电谣。


2.4 Tree-based ensemble模型

  • GBDT+LR
    它是Facebook提出的經(jīng)典模型延届,最核心地方是省去人工做特征工程的部分化漆。AUC 有可能能做到0.8。這個(gè)模型有些人直接簡化成用GBDT來預(yù)測贫导,不同場景表現(xiàn)不太一樣烹玉,但基本差異不大叁幢。它的缺點(diǎn)卖宠,其實(shí)就是Tree model的缺點(diǎn)巍杈,整體來講model是歷史數(shù)據(jù)的記憶,推廣性較差扛伍。
    Practical Lessons from Predicting Clicks on Ads at
    Facebook

    很多人喜歡用XGBoost框架筷畦,個(gè)人認(rèn)為Spark的GBDT、LightGBM也差別不大刺洒。

  • GBDT+FM
    基于FB這個(gè)思路,FM比LR能更好表達(dá)二維組合交叉特征鳖宾,GBDT+FM能夠在大規(guī)模稀疏特征空間有不錯(cuò)的性能表現(xiàn)。方法在Kaggle競賽中拿到不錯(cuò)的名次作媚。前些年ensemble框架是極其流行攘滩,工業(yè)界應(yīng)用也是非常廣泛帅刊。
    2nd place solution for Avazu click-through rate prediction competition


2.5 基于深度學(xué)習(xí)的模型

  • Wide & Deep Model
    以上基本都是傳統(tǒng)ML的方法纸泡,它們有極其大量的變種和改進(jìn),但是思路沒有本質(zhì)變化赖瞒。Wide & Deep Model 是google 提出的基于深度學(xué)習(xí)框架的CTR預(yù)估模型女揭,它在youtube應(yīng)用效果不錯(cuò)。它作用不止于此栏饮,屬于用深度學(xué)習(xí)打開了傳統(tǒng)CTR預(yù)估的大門吧兔,同時(shí)集成了傳統(tǒng)ML和深度學(xué)習(xí)的優(yōu)點(diǎn)。后續(xù)有無數(shù)的基于wide & deep 思想的深度學(xué)習(xí)的CTR預(yù)估模型算法袍嬉。
    https://arxiv.org/pdf/1606.07792.pdf

  • DCN
    Google提出的深度組合網(wǎng)絡(luò)境蔼,在DNN基礎(chǔ)上通過加入cross網(wǎng)絡(luò),能夠在每層自動(dòng)化進(jìn)行特征組合伺通。效果上主要對比了LogLoss箍土,比LR有顯著提升,比DNN也有一定提升罐监。
    Deep & Cross Network for Ad Click Predictions

  • DIN吴藻。
    深度興趣網(wǎng)絡(luò),阿里提出來的深度學(xué)習(xí)CTR預(yù)估模型弓柱,應(yīng)用在阿里媽媽的廣告預(yù)估上沟堡。主要是通過embedding的學(xué)習(xí)和多層感知機(jī)組合在端到端學(xué)習(xí)里面侧但。前者刻畫了淘寶用戶的多重興趣,后者將多種行為聚合成單一向量航罗,據(jù)說效果非常好禀横。
    https://arxiv.org/pdf/1706.06978.pdf

  • DeepFM
    FM是不錯(cuò)的ML模型粥血,用深度學(xué)習(xí)來結(jié)合燕侠,得到一個(gè)更強(qiáng)的模型。
    https://www.ijcai.org/proceedings/2017/0239.pdf

3. 其他部分

可以看到推薦系統(tǒng)不是一個(gè)簡單的工程立莉,涉及到內(nèi)容绢彤、產(chǎn)品策略、客戶端蜓耻、服務(wù)端茫舶、大數(shù)據(jù)、推薦工程刹淌、推薦算法饶氏、評估體系等等一系列,這些組件環(huán)環(huán)相扣有勾,存在大量變量和組合疹启,也有漫長的迭代周期,相信每個(gè)公司在實(shí)踐過程中有大量的獨(dú)特的體驗(yàn)和收獲蔼卡。過去的關(guān)于所有這些推薦系統(tǒng)的建設(shè)經(jīng)驗(yàn)局限于時(shí)間和工作因素喊崖,沒有全部都寫完, 以下還有補(bǔ)充兩個(gè)部分雇逞,拋磚引玉 荤懂。

? AB測試平臺(tái)是線上評估的必須。
http://www.reibang.com/p/2fcdd25d3499

? 大數(shù)據(jù)的埋點(diǎn)非常重要塘砸,準(zhǔn)備好最充分的數(shù)據(jù)原材料
http://www.reibang.com/p/d45235b51601

本來還有實(shí)驗(yàn)部分节仿、評估部分、實(shí)戰(zhàn)內(nèi)容掉蔬,但是我當(dāng)時(shí)比較困了廊宪,就不想寫了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末女轿,一起剝皮案震驚了整個(gè)濱河市箭启,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谈喳,老刑警劉巖册烈,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡赏僧,警方通過查閱死者的電腦和手機(jī)大猛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淀零,“玉大人挽绩,你說我怎么就攤上這事〖葜校” “怎么了唉堪?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長肩民。 經(jīng)常有香客問我唠亚,道長,這世上最難降的妖魔是什么持痰? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任灶搜,我火速辦了婚禮,結(jié)果婚禮上工窍,老公的妹妹穿的比我還像新娘割卖。我一直安慰自己,他們只是感情好患雏,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布鹏溯。 她就那樣靜靜地躺著,像睡著了一般淹仑。 火紅的嫁衣襯著肌膚如雪丙挽。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天攻人,我揣著相機(jī)與錄音取试,去河邊找鬼悬槽。 笑死怀吻,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的初婆。 我是一名探鬼主播蓬坡,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼磅叛!你這毒婦竟也來了屑咳?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤弊琴,失蹤者是張志新(化名)和其女友劉穎兆龙,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體敲董,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡紫皇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年慰安,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片聪铺。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡化焕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出铃剔,到底是詐尸還是另有隱情撒桨,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布键兜,位于F島的核電站凤类,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏普气。R本人自食惡果不足惜踱蠢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望棋电。 院中可真熱鬧茎截,春花似錦、人聲如沸赶盔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽于未。三九已至撕攒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間烘浦,已是汗流浹背抖坪。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闷叉,地道東北人擦俐。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像握侧,于是被迫代替她去往敵國和親蚯瞧。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容