【paper reading】Wide & Deep Learning for Recommender Systems

本文出自Google请唱，是一篇介紹Google Mobile App Store 推薦系統(tǒng)的工程性文章空入。全文雖只有四頁(yè)，但卻介紹了一個(gè)完整的推薦系統(tǒng)框架咖城，可為工程實(shí)踐茬腿、項(xiàng)目提供指導(dǎo)與借鑒。
原文地址：http://arxiv.org/abs/1606.07792

1. Introduction

Memorization 和 generalization 一直是推薦系統(tǒng)十分關(guān)注的問(wèn)題宜雀。所謂 memorization 就是基于用戶歷史數(shù)據(jù)切平，挖掘出頻繁出現(xiàn)的 item 或 feature。顯然辐董，基于 memorization 推薦的通常是那樣與用戶歷史行為數(shù)據(jù)局部相關(guān)或者直接相關(guān)的物品悴品。而 generalization 要是基于相關(guān)性之間的傳遞，探索歷史上沒(méi)有出現(xiàn)的新的特征的組合，著眼于提高推薦的多樣性苔严。

1.1 Motivation

binary feature 都是基于one-hot 編碼的定枷，這樣會(huì)使得所的的特征變得稀疏且高維。
不管是 memorization （細(xì)粒度的：AND(user_installed_app=netflix, impression_app=pandora")）還是 generization（粗粒度的：AND(user_installed_category=video,impression_category=music)）都可以通過(guò)cross-product transformation 的方法獲得組合特征届氢。但這種基于特征的工程的人工構(gòu)造方法欠窒，耗時(shí)費(fèi)力。且不能產(chǎn)生訓(xùn)練數(shù)據(jù)集中沒(méi)有出現(xiàn)過(guò)的組合特征退子。**
近年來(lái)岖妄，一些基于特征嵌入的模型（embedding-based model），如因子分解機(jī)和深度神經(jīng)網(wǎng)絡(luò)致力于訓(xùn)練低維稠密的向量來(lái)表示每一維特征寂祥。這樣便可以通過(guò)向量之間的關(guān)系（距離荐虐，角度，點(diǎn)積）等來(lái)間接衡量所有特征之間的關(guān)系壤靶。

因此缚俏，作者提出一種基于特征組合的 linear model 和基于embedding 的 feed-forward networks 聯(lián)合訓(xùn)練互增強(qiáng)的框架。其具有很強(qiáng)的通用性贮乳，且能夠有效的解決輸入特征稀疏的問(wèn)題忧换。

2. Recommender System Overview

輸入（query）：用戶/用戶的query請(qǐng)求
輸出（items）：rank list
記錄（logs）：用戶的操作：點(diǎn)擊，下載等（表明用戶喜好）
過(guò)濾（retrieval）：當(dāng) item 數(shù)量很大時(shí)向拆，rank 將會(huì)是一個(gè)十分耗時(shí)的工作亚茬。為了解決這一問(wèn)題，會(huì)事先基于機(jī)器學(xué)習(xí)模型或人工定義的一些規(guī)則浓恳，篩選出最符合輸入要求的候選 items刹缝。

3. Wide & Deep Learning

3.1 The Wide Component

Wide component 說(shuō)白了就是一個(gè)廣義線性模型：

其中，x 是輸入的特征向量（d 維）颈将，w 是權(quán)重（d 維）梢夯， b 是偏置。
第 k 維的 transform feature 的構(gòu)造：

c_ki是示性函數(shù)晴圾，如果特征 i 在第 k 維 transform feature 中則為1颂砸，否則為0。（顯然死姚，這是人工事先定義的組合特征）

3.2 The deep Component

Deep component 是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)人乓，每個(gè)隱層的計(jì)算是：

3.3 Joint Training of Wide & Deep Model

通過(guò)加權(quán)和將兩部分的輸出組合起來(lái)。

結(jié)合圖和公式都毒，可以發(fā)現(xiàn)色罚，模型的輸入特性包含兩類：

Cross-product transformations (wide component)
由 Deep Neural Networks 將 categorial features 轉(zhuǎn)化成的 dense embedding vectors

在Wide這邊，作者們提出使用FTRL進(jìn)行優(yōu)化账劲，而在Deep這邊則使用了AdaGrad戳护。
至此金抡，模型已經(jīng)介紹完畢，關(guān)于模型的訓(xùn)練不在此贅述姑尺，感興趣的可以去tensorflow搜索本文模型的API竟终。

4. Wide & Deep Learning

Data Generator：離散化，歸一化
Model training：在這一模塊中所面臨的一項(xiàng)挑戰(zhàn)是：每當(dāng)有新數(shù)據(jù)到來(lái)是切蟋，模型就必須重新訓(xùn)練统捶。作者采用warm-starting 的方法加以解決：用上一模型的參數(shù)初始化新模型。
Model Serving：多線程并行

5. 一些思考

引用博客里的一句話：

比較令人困惑的是柄粹，最終作者還是保留了Cross-Product Feature在Wide Model里喘鸟，并且所有Feature也都經(jīng)過(guò)了Deep Model的Transform。從學(xué)術(shù)上來(lái)講驻右，并沒(méi)有完全Justify最初為什么用Deep Model想要避免Feature Engineering的初衷什黑。

最后編輯于：2018.02.03 21:30:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市堪夭，隨后出現(xiàn)的幾起案子愕把，更是在濱河造成了極大的恐慌，老刑警劉巖森爽，帶你破解...
沈念sama閱讀 222,183評(píng)論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件恨豁，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡爬迟，警方通過(guò)查閱死者的電腦和手機(jī)橘蜜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)付呕，“玉大人计福，你說(shuō)我怎么就攤上這事』罩埃” “怎么了象颖？”我有些...
開(kāi)封第一講書人閱讀 168,766評(píng)論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)姆钉。經(jīng)常有香客問(wèn)我说订，道長(zhǎng)，這世上最難降的妖魔是什么育韩？我笑而不...
開(kāi)封第一講書人閱讀 59,854評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任克蚂，我火速辦了婚禮闺鲸，結(jié)果婚禮上筋讨，老公的妹妹穿的比我還像新娘。我一直安慰自己摸恍，他們只是感情好悉罕，可當(dāng)我...
茶點(diǎn)故事閱讀 68,871評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布赤屋。她就那樣靜靜地躺著，像睡著了一般壁袄。火紅的嫁衣襯著肌膚如雪类早。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 52,457評(píng)論 1贊 311
城市分裂傳說(shuō)
那天嗜逻，我揣著相機(jī)與錄音涩僻，去河邊找鬼。笑死栈顷，一個(gè)胖子當(dāng)著我的面吹牛逆日，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播萄凤，決...
沈念sama閱讀 40,999評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼室抽，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了靡努？” 一聲冷哼從身側(cè)響起坪圾，我...
開(kāi)封第一講書人閱讀 39,914評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎惑朦，沒(méi)想到半個(gè)月后兽泄，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,465評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡行嗤，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,543評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年已日，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栅屏。...
茶點(diǎn)故事閱讀 40,675評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡飘千，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出栈雳，到底是詐尸還是另有隱情护奈，我是刑警寧澤，帶...
沈念sama閱讀 36,354評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布哥纫，位于F島的核電站霉旗，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏蛀骇。R本人自食惡果不足惜厌秒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,029評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望擅憔。院中可真熱鬧鸵闪，春花似錦、人聲如沸暑诸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 32,514評(píng)論 0贊 25
一樁弒父案辟灰，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至篡石，卻和暖如春芥喇，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背凰萨。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,616評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工继控，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人胖眷。一個(gè)月前我還...
沈念sama閱讀 49,091評(píng)論 3贊 378
代替公主和親
正文我出身青樓湿诊，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親瘦材。傳聞我的和親對(duì)象是個(gè)殘疾皇子厅须，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,685評(píng)論 2贊 360