本文介紹的論文題目是:《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》
論文下載地址為:https://dl.acm.org/citation.cfm?id=3220007
多任務(wù)學(xué)習(xí)最近越來越受歡迎,咱們前面也介紹過幾篇阿里多任務(wù)學(xué)習(xí)的模型蝇更,不過多任務(wù)學(xué)習(xí)的效果受不同任務(wù)之間的相關(guān)性影響較大罐韩,因此本文基于Mixture-of-Experts (MoE)模型隆判,提出了一種顯式建模任務(wù)相關(guān)性的模型Multi-gate Mixture-of-Experts (MMoE) ,一起來學(xué)習(xí)一下撕贞。
1、背景
近年來,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣靡挥,如推薦系統(tǒng)。推薦系統(tǒng)通常需要同時(shí)優(yōu)化多個(gè)目標(biāo)鸯绿,如電影推薦中不僅需要預(yù)測用戶是否會購買跋破,還需要預(yù)測用戶對于電影的評分,在比如電商領(lǐng)域同時(shí)需要預(yù)測物品的點(diǎn)擊率CTR和轉(zhuǎn)化率CVR瓶蝴。因此毒返,多任務(wù)學(xué)習(xí)模型成為研究領(lǐng)域的一大熱點(diǎn)。
許多多任務(wù)學(xué)習(xí)模型取得了不錯(cuò)的效果舷手,但是實(shí)踐中多任務(wù)學(xué)習(xí)模型并不總比單任務(wù)模型效果更突出拧簸。這主要是因?yàn)椴煌蝿?wù)之間的相關(guān)性低(如數(shù)據(jù)的分布不同等等)導(dǎo)致的。
是不是真的如上述所說男窟,任務(wù)之間的相關(guān)性會影響多任務(wù)學(xué)習(xí)的效果呢盆赤,咱們先在第二節(jié)中做一個(gè)實(shí)驗(yàn)。
2歉眷、任務(wù)相關(guān)性實(shí)驗(yàn)
2.1 一般的多任務(wù)學(xué)習(xí)模型框架
一般的多任務(wù)學(xué)習(xí)模型框架如下:
對于不同的任務(wù)牺六,底層的參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)是共享的,然后上層經(jīng)過不同的神經(jīng)網(wǎng)絡(luò)得到對應(yīng)任務(wù)的輸出汗捡。 假設(shè)底層輸出是f(x)淑际,那么第k個(gè)任務(wù)的輸出yk為:
其中hk是第k個(gè)任務(wù)上層神經(jīng)網(wǎng)絡(luò)的參數(shù)。
2.2 任務(wù)相關(guān)性實(shí)驗(yàn)
接下來扇住,我們通過一個(gè)實(shí)驗(yàn)來探討任務(wù)相關(guān)性和多任務(wù)學(xué)習(xí)效果的關(guān)系春缕。
假設(shè)模型中包含兩個(gè)回歸任務(wù),而數(shù)據(jù)通過采樣生成台囱,并且規(guī)定輸入相同淡溯,輸出label不同。那么任務(wù)的相關(guān)性就使用label之間的皮爾遜相關(guān)系數(shù)來表示簿训,相關(guān)系數(shù)越大咱娶,表示任務(wù)之間越相關(guān)米间,數(shù)據(jù)生成的過程如下:
首先,生成了兩個(gè)垂直的單位向量u1和u2膘侮,并根據(jù)兩個(gè)單位向量生成了模型的系數(shù)w1和w2屈糊,如上圖中的第二步。w1和w2之間的cosine距離即為p琼了,大伙可以根據(jù)cosine的計(jì)算公式得到逻锐。
隨后基于正態(tài)分布的到輸入數(shù)據(jù)x,而y根據(jù)下面的兩個(gè)式子的到:
注意雕薪,這里x和y之間并非線性的關(guān)系昧诱,因?yàn)槟P偷牡诙绞嵌鄠€(gè)sin函數(shù),因此label之間的皮爾遜相關(guān)系數(shù)和參數(shù)w1和w2之間的cosine距離并不相等所袁,但是呈現(xiàn)出一個(gè)正相關(guān)的關(guān)系盏档,如下圖:
因此,本文中使用參數(shù)的cosine距離來近似表示任務(wù)之間的相關(guān)性燥爷。
2.3 實(shí)驗(yàn)結(jié)果
基于上述數(shù)據(jù)生成過程以及任務(wù)相關(guān)性的表示方法蜈亩,分別測試任務(wù)相關(guān)性在0.5、0.9和1時(shí)的多任務(wù)學(xué)習(xí)模型的效果前翎,如下圖:
可以看到的是稚配,隨著任務(wù)相關(guān)性的提升,模型的loss越小港华,效果越好道川,從而印證了前面的猜想。
3立宜、MMoE模型
3.1 MoE模型
先來看一下Mixture-of-Experts (MoE)模型(文中后面稱作 One-gate Mixture-of-Experts (OMoE))愤惰,如下圖所示:
可以看到,相較于一般的多任務(wù)學(xué)習(xí)框架赘理,共享的底層分為了多個(gè)expert,同時(shí)設(shè)置了一個(gè)Gate扇单,使不同的數(shù)據(jù)可以多樣化的使用共享層商模。此時(shí)共享層的輸出可以表示為:
其中fi代表第i個(gè)expert的輸出,gi代表第第i個(gè)expert對應(yīng)的權(quán)重蜘澜,是基于輸入數(shù)據(jù)得到的施流,計(jì)算公式為g(x) = softmax(Wgx)。
3.2 MMoE模型
相較于MoE模型鄙信,Multi-gate Mixture-of-Experts (MMoE)模型為每一個(gè)task設(shè)置了一個(gè)gate瞪醋,使不同的任務(wù)和不同的數(shù)據(jù)可以多樣化的使用共享層,模型結(jié)構(gòu)如下:
此時(shí)每個(gè)任務(wù)的共享層的輸出不同装诡,第k個(gè)任務(wù)的共享層輸出計(jì)算公式如下:
隨后每個(gè)任務(wù)對應(yīng)的共享層輸出银受,經(jīng)過多層全連接神經(jīng)網(wǎng)絡(luò)得到每個(gè)任務(wù)的輸出:
從直觀上考慮践盼,如果兩個(gè)任務(wù)并不十分相關(guān),那么經(jīng)過Gate之后宾巍,二者得到的權(quán)重系數(shù)會差別比較大咕幻,從而可以利用部分expert網(wǎng)絡(luò)輸出的信息,近似于多個(gè)單任務(wù)學(xué)習(xí)模型顶霞。如果兩個(gè)任務(wù)緊密相關(guān)肄程,那么經(jīng)過Gate得到的權(quán)重分布應(yīng)該相差不多,類似于一般的多任務(wù)學(xué)習(xí)框架选浑。
4蓝厌、實(shí)驗(yàn)結(jié)果
先回顧上面介紹的三種多任務(wù)學(xué)習(xí)的架構(gòu):
實(shí)驗(yàn)分為三部分:人工合成數(shù)據(jù)集(即本文第二部分所介紹的人工生成的數(shù)據(jù)集)、UCI census-income dataset和Large-scale Content Recommendation
4.1 人工合成數(shù)據(jù)集-實(shí)驗(yàn)結(jié)果
4.2 UCI census-income dataset-實(shí)驗(yàn)結(jié)果
這塊文中介紹了幾種多任務(wù)學(xué)習(xí)的模式古徒,這里就不過多介紹了拓提。
4.3 Large-scale Content Recommendation-實(shí)驗(yàn)結(jié)果
這篇論文的介紹就到這里啦,這一篇是在我閱讀youtube多任務(wù)學(xué)習(xí)論文中發(fā)現(xiàn)的描函,所以下一篇會介紹youtube今年的論文《Recommending What Video to Watch Next: A Multitask Ranking System》崎苗,期待一下吧。
可能我的理解還有不到位的地方舀寓,歡迎大家一起討論對這篇文章的理解~
關(guān)注小編的公眾號“小小挖掘機(jī)”胆数,后臺回復(fù)“進(jìn)群”,一起來交流學(xué)習(xí)推薦系統(tǒng)吧互墓!