推薦系統(tǒng)遇上深度學(xué)習(xí)(六十八)-建模多任務(wù)學(xué)習(xí)中任務(wù)相關(guān)性的模型MMoE

本文介紹的論文題目是:《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》
論文下載地址為:https://dl.acm.org/citation.cfm?id=3220007

多任務(wù)學(xué)習(xí)最近越來越受歡迎,咱們前面也介紹過幾篇阿里多任務(wù)學(xué)習(xí)的模型蝇更,不過多任務(wù)學(xué)習(xí)的效果受不同任務(wù)之間的相關(guān)性影響較大罐韩,因此本文基于Mixture-of-Experts (MoE)模型隆判,提出了一種顯式建模任務(wù)相關(guān)性的模型Multi-gate Mixture-of-Experts (MMoE) ,一起來學(xué)習(xí)一下撕贞。

1、背景

近年來,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣靡挥,如推薦系統(tǒng)。推薦系統(tǒng)通常需要同時(shí)優(yōu)化多個(gè)目標(biāo)鸯绿,如電影推薦中不僅需要預(yù)測用戶是否會購買跋破,還需要預(yù)測用戶對于電影的評分,在比如電商領(lǐng)域同時(shí)需要預(yù)測物品的點(diǎn)擊率CTR和轉(zhuǎn)化率CVR瓶蝴。因此毒返,多任務(wù)學(xué)習(xí)模型成為研究領(lǐng)域的一大熱點(diǎn)。

許多多任務(wù)學(xué)習(xí)模型取得了不錯(cuò)的效果舷手,但是實(shí)踐中多任務(wù)學(xué)習(xí)模型并不總比單任務(wù)模型效果更突出拧簸。這主要是因?yàn)椴煌蝿?wù)之間的相關(guān)性低(如數(shù)據(jù)的分布不同等等)導(dǎo)致的。

是不是真的如上述所說男窟,任務(wù)之間的相關(guān)性會影響多任務(wù)學(xué)習(xí)的效果呢盆赤,咱們先在第二節(jié)中做一個(gè)實(shí)驗(yàn)。

2歉眷、任務(wù)相關(guān)性實(shí)驗(yàn)

2.1 一般的多任務(wù)學(xué)習(xí)模型框架

一般的多任務(wù)學(xué)習(xí)模型框架如下:

對于不同的任務(wù)牺六,底層的參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)是共享的,然后上層經(jīng)過不同的神經(jīng)網(wǎng)絡(luò)得到對應(yīng)任務(wù)的輸出汗捡。 假設(shè)底層輸出是f(x)淑际,那么第k個(gè)任務(wù)的輸出yk為:

其中hk是第k個(gè)任務(wù)上層神經(jīng)網(wǎng)絡(luò)的參數(shù)。

2.2 任務(wù)相關(guān)性實(shí)驗(yàn)

接下來扇住,我們通過一個(gè)實(shí)驗(yàn)來探討任務(wù)相關(guān)性和多任務(wù)學(xué)習(xí)效果的關(guān)系春缕。

假設(shè)模型中包含兩個(gè)回歸任務(wù),而數(shù)據(jù)通過采樣生成台囱,并且規(guī)定輸入相同淡溯,輸出label不同。那么任務(wù)的相關(guān)性就使用label之間的皮爾遜相關(guān)系數(shù)來表示簿训,相關(guān)系數(shù)越大咱娶,表示任務(wù)之間越相關(guān)米间,數(shù)據(jù)生成的過程如下:

首先,生成了兩個(gè)垂直的單位向量u1和u2膘侮,并根據(jù)兩個(gè)單位向量生成了模型的系數(shù)w1和w2屈糊,如上圖中的第二步。w1和w2之間的cosine距離即為p琼了,大伙可以根據(jù)cosine的計(jì)算公式得到逻锐。

隨后基于正態(tài)分布的到輸入數(shù)據(jù)x,而y根據(jù)下面的兩個(gè)式子的到:

注意雕薪,這里x和y之間并非線性的關(guān)系昧诱,因?yàn)槟P偷牡诙绞嵌鄠€(gè)sin函數(shù),因此label之間的皮爾遜相關(guān)系數(shù)和參數(shù)w1和w2之間的cosine距離并不相等所袁,但是呈現(xiàn)出一個(gè)正相關(guān)的關(guān)系盏档,如下圖:

因此,本文中使用參數(shù)的cosine距離來近似表示任務(wù)之間的相關(guān)性燥爷。

2.3 實(shí)驗(yàn)結(jié)果

基于上述數(shù)據(jù)生成過程以及任務(wù)相關(guān)性的表示方法蜈亩,分別測試任務(wù)相關(guān)性在0.5、0.9和1時(shí)的多任務(wù)學(xué)習(xí)模型的效果前翎,如下圖:

可以看到的是稚配,隨著任務(wù)相關(guān)性的提升,模型的loss越小港华,效果越好道川,從而印證了前面的猜想。

3立宜、MMoE模型

3.1 MoE模型

先來看一下Mixture-of-Experts (MoE)模型(文中后面稱作 One-gate Mixture-of-Experts (OMoE))愤惰,如下圖所示:

可以看到,相較于一般的多任務(wù)學(xué)習(xí)框架赘理,共享的底層分為了多個(gè)expert,同時(shí)設(shè)置了一個(gè)Gate扇单,使不同的數(shù)據(jù)可以多樣化的使用共享層商模。此時(shí)共享層的輸出可以表示為:

其中fi代表第i個(gè)expert的輸出,gi代表第第i個(gè)expert對應(yīng)的權(quán)重蜘澜,是基于輸入數(shù)據(jù)得到的施流,計(jì)算公式為g(x) = softmax(Wgx)。

3.2 MMoE模型

相較于MoE模型鄙信,Multi-gate Mixture-of-Experts (MMoE)模型為每一個(gè)task設(shè)置了一個(gè)gate瞪醋,使不同的任務(wù)和不同的數(shù)據(jù)可以多樣化的使用共享層,模型結(jié)構(gòu)如下:

此時(shí)每個(gè)任務(wù)的共享層的輸出不同装诡,第k個(gè)任務(wù)的共享層輸出計(jì)算公式如下:

隨后每個(gè)任務(wù)對應(yīng)的共享層輸出银受,經(jīng)過多層全連接神經(jīng)網(wǎng)絡(luò)得到每個(gè)任務(wù)的輸出:

從直觀上考慮践盼,如果兩個(gè)任務(wù)并不十分相關(guān),那么經(jīng)過Gate之后宾巍,二者得到的權(quán)重系數(shù)會差別比較大咕幻,從而可以利用部分expert網(wǎng)絡(luò)輸出的信息,近似于多個(gè)單任務(wù)學(xué)習(xí)模型顶霞。如果兩個(gè)任務(wù)緊密相關(guān)肄程,那么經(jīng)過Gate得到的權(quán)重分布應(yīng)該相差不多,類似于一般的多任務(wù)學(xué)習(xí)框架选浑。

4蓝厌、實(shí)驗(yàn)結(jié)果

先回顧上面介紹的三種多任務(wù)學(xué)習(xí)的架構(gòu):

實(shí)驗(yàn)分為三部分:人工合成數(shù)據(jù)集(即本文第二部分所介紹的人工生成的數(shù)據(jù)集)、UCI census-income dataset和Large-scale Content Recommendation

4.1 人工合成數(shù)據(jù)集-實(shí)驗(yàn)結(jié)果

4.2 UCI census-income dataset-實(shí)驗(yàn)結(jié)果

這塊文中介紹了幾種多任務(wù)學(xué)習(xí)的模式古徒,這里就不過多介紹了拓提。

4.3 Large-scale Content Recommendation-實(shí)驗(yàn)結(jié)果

這篇論文的介紹就到這里啦,這一篇是在我閱讀youtube多任務(wù)學(xué)習(xí)論文中發(fā)現(xiàn)的描函,所以下一篇會介紹youtube今年的論文《Recommending What Video to Watch Next: A Multitask Ranking System》崎苗,期待一下吧。

可能我的理解還有不到位的地方舀寓,歡迎大家一起討論對這篇文章的理解~

關(guān)注小編的公眾號“小小挖掘機(jī)”胆数,后臺回復(fù)“進(jìn)群”,一起來交流學(xué)習(xí)推薦系統(tǒng)吧互墓!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末必尼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子篡撵,更是在濱河造成了極大的恐慌判莉,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件育谬,死亡現(xiàn)場離奇詭異券盅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)膛檀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門锰镀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人咖刃,你說我怎么就攤上這事泳炉。” “怎么了嚎杨?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵花鹅,是天一觀的道長。 經(jīng)常有香客問我枫浙,道長刨肃,這世上最難降的妖魔是什么古拴? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮之景,結(jié)果婚禮上斤富,老公的妹妹穿的比我還像新娘。我一直安慰自己锻狗,他們只是感情好满力,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著轻纪,像睡著了一般油额。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上刻帚,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天潦嘶,我揣著相機(jī)與錄音,去河邊找鬼崇众。 笑死掂僵,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的顷歌。 我是一名探鬼主播锰蓬,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼眯漩!你這毒婦竟也來了芹扭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤赦抖,失蹤者是張志新(化名)和其女友劉穎舱卡,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體队萤,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡轮锥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了要尔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片交胚。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖盈电,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情杯活,我是刑警寧澤匆帚,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站旁钧,受9級特大地震影響吸重,放射性物質(zhì)發(fā)生泄漏互拾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一嚎幸、第九天 我趴在偏房一處隱蔽的房頂上張望颜矿。 院中可真熱鬧,春花似錦嫉晶、人聲如沸骑疆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽箍铭。三九已至,卻和暖如春椎镣,著一層夾襖步出監(jiān)牢的瞬間诈火,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工状答, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留冷守,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓惊科,卻偏偏與公主長得像拍摇,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子译断,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容