【paper reading】Wide & Deep Learning for Recommender Systems

本文出自Google请唱,是一篇介紹Google Mobile App Store 推薦系統(tǒng)的工程性文章空入。全文雖只有四頁(yè),但卻介紹了一個(gè)完整的推薦系統(tǒng)框架咖城,可為工程實(shí)踐茬腿、項(xiàng)目提供指導(dǎo)與借鑒。
原文地址:http://arxiv.org/abs/1606.07792

1. Introduction

Memorization 和 generalization 一直是推薦系統(tǒng)十分關(guān)注的問(wèn)題宜雀。所謂 memorization 就是基于用戶歷史數(shù)據(jù)切平,挖掘出頻繁出現(xiàn)的 item 或 feature。顯然辐董,基于 memorization 推薦的通常是那樣與用戶歷史行為數(shù)據(jù)局部相關(guān)或者直接相關(guān)的物品悴品。而 generalization 要是基于相關(guān)性之間的傳遞, 探索歷史上沒(méi)有出現(xiàn)的新的特征的組合,著眼于提高推薦的多樣性苔严。

1.1 Motivation
  • binary feature 都是基于one-hot 編碼的定枷,這樣會(huì)使得所的的特征變得稀疏且高維。
  • 不管是 memorization (細(xì)粒度的:AND(user_installed_app=netflix, impression_app=pandora"))還是 generization(粗粒度的:AND(user_installed_category=video,impression_category=music))都可以通過(guò)cross-product transformation 的方法獲得組合特征届氢。但這種基于特征的工程的人工構(gòu)造方法欠窒,耗時(shí)費(fèi)力。且不能產(chǎn)生訓(xùn)練數(shù)據(jù)集中沒(méi)有出現(xiàn)過(guò)的組合特征退子。**
  • 近年來(lái)岖妄,一些基于特征嵌入的模型(embedding-based model),如因子分解機(jī)和深度神經(jīng)網(wǎng)絡(luò)致力于訓(xùn)練低維稠密的向量來(lái)表示每一維特征寂祥。這樣便可以通過(guò)向量之間的關(guān)系(距離荐虐,角度,點(diǎn)積)等來(lái)間接衡量所有特征之間的關(guān)系壤靶。

因此缚俏,作者提出一種 基于 特征組合的 linear model 和 基于embedding 的 feed-forward networks 聯(lián)合訓(xùn)練互增強(qiáng)的框架。其具有很強(qiáng)的通用性贮乳,且能夠有效的解決輸入特征稀疏的問(wèn)題忧换。


2. Recommender System Overview

輸入(query):用戶/用戶的query請(qǐng)求
輸出(items):rank list
記錄(logs):用戶的操作:點(diǎn)擊,下載等(表明用戶喜好)
過(guò)濾(retrieval):當(dāng) item 數(shù)量很大時(shí)向拆,rank 將會(huì)是一個(gè)十分耗時(shí)的工作亚茬。為了解決這一問(wèn)題,會(huì)事先基于機(jī)器學(xué)習(xí)模型或人工定義的一些規(guī)則浓恳,篩選出最符合輸入要求的候選 items刹缝。


3. Wide & Deep Learning

3.1 The Wide Component

Wide component 說(shuō)白了就是一個(gè)廣義線性模型:


其中,x 是輸入的特征向量(d 維)颈将,w 是權(quán)重(d 維)梢夯, b 是偏置。
第 k 維的 transform feature 的構(gòu)造:

c_ki是示性函數(shù)晴圾,如果特征 i 在第 k 維 transform feature 中則為1颂砸, 否則為0。(顯然死姚,這是人工事先定義的組合特征)

3.2 The deep Component

Deep component 是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)人乓,每個(gè)隱層的計(jì)算是:
3.3 Joint Training of Wide & Deep Model

通過(guò)加權(quán)和將兩部分的輸出組合起來(lái)。

結(jié)合圖和公式都毒,可以發(fā)現(xiàn)色罚,模型的輸入特性包含兩類:

  • Cross-product transformations (wide component)
  • 由 Deep Neural Networks 將 categorial features 轉(zhuǎn)化成的 dense embedding vectors

在Wide這邊,作者們提出使用FTRL進(jìn)行優(yōu)化账劲,而在Deep這邊則使用了AdaGrad戳护。
至此金抡,模型已經(jīng)介紹完畢,關(guān)于模型的訓(xùn)練不在此贅述姑尺,感興趣的可以去tensorflow搜索本文模型的API竟终。


4. Wide & Deep Learning

  • Data Generator:離散化,歸一化
  • Model training:在這一模塊中所面臨的一項(xiàng)挑戰(zhàn)是:每當(dāng)有新數(shù)據(jù)到來(lái)是切蟋,模型就必須重新訓(xùn)練统捶。作者采用warm-starting 的方法加以解決:用上一模型的參數(shù)初始化新模型。
  • Model Serving:多線程并行

5. 一些思考

  • 引用博客里的一句話:

比較令人困惑的是柄粹,最終作者還是保留了Cross-Product Feature在Wide Model里喘鸟,并且所有Feature也都經(jīng)過(guò)了Deep Model的Transform。從學(xué)術(shù)上來(lái)講驻右,并沒(méi)有完全Justify最初為什么用Deep Model想要避免Feature Engineering的初衷什黑。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市堪夭,隨后出現(xiàn)的幾起案子愕把,更是在濱河造成了極大的恐慌,老刑警劉巖森爽,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恨豁,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡爬迟,警方通過(guò)查閱死者的電腦和手機(jī)橘蜜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)付呕,“玉大人计福,你說(shuō)我怎么就攤上這事』罩埃” “怎么了象颖?”我有些...
    開(kāi)封第一講書人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)姆钉。 經(jīng)常有香客問(wèn)我说订,道長(zhǎng),這世上最難降的妖魔是什么育韩? 我笑而不...
    開(kāi)封第一講書人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任克蚂,我火速辦了婚禮闺鲸,結(jié)果婚禮上筋讨,老公的妹妹穿的比我還像新娘。我一直安慰自己摸恍,他們只是感情好悉罕,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布赤屋。 她就那樣靜靜地躺著,像睡著了一般壁袄。 火紅的嫁衣襯著肌膚如雪类早。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 52,457評(píng)論 1 311
  • 那天嗜逻,我揣著相機(jī)與錄音涩僻,去河邊找鬼。 笑死栈顷,一個(gè)胖子當(dāng)著我的面吹牛逆日,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播萄凤,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼室抽,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了靡努?” 一聲冷哼從身側(cè)響起坪圾,我...
    開(kāi)封第一講書人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎惑朦,沒(méi)想到半個(gè)月后兽泄,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡行嗤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年已日,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栅屏。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡飘千,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出栈雳,到底是詐尸還是另有隱情护奈,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布哥纫,位于F島的核電站霉旗,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蛀骇。R本人自食惡果不足惜厌秒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望擅憔。 院中可真熱鬧鸵闪,春花似錦、人聲如沸暑诸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至篡石,卻和暖如春芥喇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背凰萨。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工继控, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胖眷。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓湿诊,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親瘦材。 傳聞我的和親對(duì)象是個(gè)殘疾皇子厅须,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360