2020-06-10-深度學習推薦系統(tǒng) 0-2章

序言

本書的目的是“從技術創(chuàng)造的視角,以具體的技術誕生場景為藍圖殖侵,試圖引導讀者學習和掌握工業(yè)界模型設計背后真正“銀彈” - 目的是解決什么樣的問題”

深度學習打破之前原有的學術界模型復雜條件苛刻的情況涡真,它具有以下特點:

  1. 開源工具多
  2. 深度模型的模塊標準化程度高
  3. 模型的設計和實現(xiàn)結構畏线,大大提升了算法迭代效率
    工業(yè)界技術的正確視角是問題驅動而不是拿著錘子找釘子

問題驅動: 定義清楚問題,想清楚技術的需求,然后尋找或構思相應的技術工具

以阿里為例它通過電商場景的行為模式和用戶興趣的利用,進行了一系列的算法迭代,是問題驅動的典型例子.

現(xiàn)在,大部分公司的工業(yè)級深度學習處于1.0, 已經(jīng)遇到了瓶頸,傳統(tǒng)的:

  1. 搭積木
  2. 喂數(shù)據(jù)
  3. 算法改進需要工程大量的升級改造

這幾種形式已經(jīng)難以為繼,需要進入2.0階段,作者判斷和呼吁

對于推薦\搜索和廣告領域,業(yè)界需要重新定義和設計新的系統(tǒng)架構,以適應深度學習爆發(fā)式發(fā)展帶來的領先算法那能力.

需要專項更為復雜和系統(tǒng)性的技術體系,進一步創(chuàng)造技術紅利.

1. 互聯(lián)網(wǎng)增長引擎-推薦系統(tǒng)

推薦系統(tǒng)的意義

用戶角度:推薦系統(tǒng)解決在"信息過載"的情況下,用戶如何高效獲得感興趣信息的問題. 即用戶體驗.
公司角度:推薦系統(tǒng)解決產品能夠最大限度地吸引用戶,留存用戶,增加用戶粘性,提高用戶轉化率的問題,從而達到公司商業(yè)目標連續(xù)增長的目的. 即商業(yè)利益.

這些目表可能是視頻公司的觀看時長\新聞公司的點擊率\電商公司的轉化率等

推薦系統(tǒng)的邏輯框架

推薦系統(tǒng)的問題定義: 通過用戶U\場景C\物品I,預測用戶對特定物品的喜好程度.


image.png

推薦系統(tǒng)的架構

如上圖,推薦工程師需要解決的問題有兩類:

  1. 數(shù)據(jù)問題:數(shù)據(jù)的存儲,處理,實時數(shù)據(jù)處理
  2. 模型問題:模型的構建,迭代,上線,流式更新

2. 前深度學習時代-推薦系統(tǒng)的進化之路

傳統(tǒng)的推薦算法那的演進如下圖, 傳統(tǒng)的推薦模型是很重要的基礎:

  1. 目前cf\lr等傳統(tǒng)的推薦模型具有可解釋性強\硬件環(huán)境要求低\抑郁快速訓練和部署的優(yōu)勢,有大量使用的場景;
  2. 傳統(tǒng)的是深度學習推薦的基礎.

例如,lr是是單層單神經(jīng)元的神經(jīng)網(wǎng)絡;因子分解演化除了FM,deepFM等深度模型具有很好的效果.

上圖,可分為4個部分:

  1. 協(xié)同過濾(藍色)
  2. 邏輯回歸: LR
  3. 因子分解機:FM,FFM
  4. 組合模型:GBDT+LR

CF

通過貢獻矩陣和合適的相似性度量的方法,進行推薦的技術

userCF細節(jié)不贅述
缺點:

  1. 實際場景中user量大,開銷大,計算量大

itemCF細節(jié)不贅述

CF的缺點

協(xié)同過濾雖然直觀,可解釋性強,但是不具有較強的泛化能力,無法將兩個物品相似這一信息推廣到其他物品的相似性計算上.導致里一個嚴重的問題:

熱門物品具有很強的頭哦不相應,容易跟大量物品產生相似性;而尾部物品由于特征向量稀疏,很少與其他物品產生相似性,導致很少被推薦.

矩陣分解

矩陣分解即將共現(xiàn)矩陣分解得到用戶和物品的隱向量.


矩陣分解有幾種方式:
1.特征值分解eigen decomposition
2.奇異值分解sigular value decomposition
- 要求共現(xiàn)矩陣是稠密的,復雜度高,不適合大數(shù)據(jù)場景
3.梯度下降

優(yōu)缺點

  1. 泛化能力強
  2. 空間復雜度低(n+m)k
  3. 易于擴展和靈活:和embedding的思路類似

邏輯回歸

理論知識略,網(wǎng)上很多了

優(yōu)點

1.物理意義匹配:邏輯回歸是廣義線性模型的一種,它的假設是因變量y服從伯努利分布.對于用戶是否點擊的場景也可以定義為這個分布.
2.可解釋性強:根據(jù)權重解釋特征的強弱.
3.工程化簡單

缺點

無法進行交叉,特征篩選等,有信息損失.

FM/FFM

書中使用辛普森悖論解釋了不同性別數(shù)據(jù)和總體數(shù)據(jù)得到不同物品點擊率順序的例子,說明單一特征信息的大量損失問題.

ploy2

二階乘積是最直接的方法,但是數(shù)據(jù)非常稀疏,權重參數(shù)數(shù)量n^2上升

FM模型-隱向量特征交叉

FM與PLOY相比,主要區(qū)別是用兩個向量的內積(w_{j1}.w_{j2})取代了直接交叉.

參數(shù)量nk

優(yōu)點

  1. 參數(shù)從n^2縮減到了n^k;
  2. 稀疏性減少:不局限于單一的交叉存在時才能學習,只要有其中一個特征參數(shù),就會被更新.

FFM模型-引入特征域的概念

引入了特征域的概念,每個特征對于另外的特征(域)都有一個單獨的向量表達f_1
參數(shù)量nkf

image.png

GBDT+LR-特征工程化的開端

之前提到了FFM模型,提升了特征的交叉English,但也只有二階交叉的形式,如果再進行更高階的交叉,會產生組合爆炸和計算復雜度過高的問題.

2014年FB提出了GBDT+LR的方式: 利用GBDT自動進行特征篩選和組合,進而生成新的離散特征向量,在吧該向量特征當做LR模型的輸入.


image.png

GBDT的特征轉換過程

我們首先需要訓練一個GBDT,假設我們訓練好的模型有三顆樹組成,一個樣本輸入樹中后,會知道它到底經(jīng)過了這些樹的那些葉子節(jié)點,我們把這些階段標成1其他為0即可.

MLR

阿里提出的MLR模型是對lr模型的一個擴展,它假設樣本可分為m類,每一類也會學習到參數(shù),并與lr結合,使得模型有了更強的學習復雜分布數(shù)據(jù)的能力:


如果從深度學習的角度來理解這個模型,可看做是一個加入了(attention)機制的神經(jīng)網(wǎng)絡模型.

第二章模型總結

image.png
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末司倚,一起剝皮案震驚了整個濱河市铝侵,隨后出現(xiàn)的幾起案子锌唾,更是在濱河造成了極大的恐慌锄码,老刑警劉巖夺英,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異滋捶,居然都是意外死亡痛悯,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門重窟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來载萌,“玉大人,你說我怎么就攤上這事巡扇∨と剩” “怎么了?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵厅翔,是天一觀的道長乖坠。 經(jīng)常有香客問我,道長刀闷,這世上最難降的妖魔是什么瓤帚? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮涩赢,結果婚禮上戈次,老公的妹妹穿的比我還像新娘。我一直安慰自己筒扒,他們只是感情好怯邪,可當我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著花墩,像睡著了一般悬秉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上冰蘑,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天和泌,我揣著相機與錄音,去河邊找鬼祠肥。 笑死武氓,一個胖子當著我的面吹牛,可吹牛的內容都是我干的仇箱。 我是一名探鬼主播县恕,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼剂桥!你這毒婦竟也來了忠烛?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤权逗,失蹤者是張志新(化名)和其女友劉穎美尸,沒想到半個月后冤议,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡师坎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年恕酸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屹耐。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖椿猎,靈堂內的尸體忽然破棺而出惶岭,到底是詐尸還是另有隱情,我是刑警寧澤犯眠,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布按灶,位于F島的核電站,受9級特大地震影響筐咧,放射性物質發(fā)生泄漏鸯旁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一量蕊、第九天 我趴在偏房一處隱蔽的房頂上張望铺罢。 院中可真熱鬧,春花似錦残炮、人聲如沸韭赘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泉瞻。三九已至,卻和暖如春苞冯,著一層夾襖步出監(jiān)牢的瞬間袖牙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工舅锄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鞭达,地道東北人。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓皇忿,卻偏偏與公主長得像碉怔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子禁添,可洞房花燭夜當晚...
    茶點故事閱讀 43,554評論 2 349