論文來源:ACL2017? ? 鏈接:paper
multi-task learning廊酣,學(xué)習(xí)shared layers to extract the common and task-invariant? features.通用和任務(wù)不變的特征
然而,現(xiàn)有的方法,提取共享特征往往會被特定任務(wù)的特征或者其他任務(wù)帶來的噪音污染。
在本文,提出了一個adversarial對抗的 multi-task learning framework,緩解共享和私有潛在特征空間相互干擾。
目前的方法都將不同任務(wù)的特征分割到private and shared spaces菱鸥,
重疊部分是shared space,藍(lán)色的代表task-specific特征躏鱼,紅色代表可以共享的特征
這種框架最大的缺點是:shared features可能包含一些不必要的與任務(wù)相關(guān)的特征氮采,一些共享的特征也會混雜在private space中,有特征冗余的問題染苛,feature redundancy
問題:"The infantile cart is simple and easy to use"和“This kind of humour” is infantile and boring鹊漠。 這兩句話中都有infantile,但是第一句話中是中性的情感茶行,第二句話是negative的躯概。但是通用的shared-private模型會把infantile放在一個共享的空間,給其他task帶來潛在的危險畔师。除此之外娶靡,shared space的容量也因為一些不需要的特征而被浪費了。
為了解決這個問題看锉,本文提出了一個對抗的多任務(wù)框架姿锭,為了讓共享和私有space是無關(guān)的塔鳍,引入了正交性約束,orthogonality constraints呻此。為了防止shared和private latent特征空間相互影響轮纫,本文提出了兩種解決策略:一種是對抗訓(xùn)練adversarial training和正交約束orthogonality constraints. 對抗訓(xùn)練用于確保shared feature space只包含通用和任務(wù)不變(task invariant)的特征,正交約束用于去除private和shared space中的多余特征焚鲜。
本文的貢獻:1. 更精確的分割task-specific和shared? space掌唾,而不是共享參數(shù)。 2. 將原有的binary對抗訓(xùn)練擴展到multi-class恃泪,不僅可以讓多任務(wù)jointly訓(xùn)練郑兴,同時也允許我們使用沒有被標(biāo)記的數(shù)據(jù)。3. 將多任務(wù)之間的共享信息壓縮到一個off-the-shelf(現(xiàn)成的)神經(jīng)層贝乎,可以很容易的轉(zhuǎn)移到新任務(wù)。
用LSTM做文本分類:
有一個文本序列 x = {x1, x2, ..., xT}叽粹,首先使用一個lookup layer來得到每個詞的詞向量览效,vector representation(embeddings)。最后一個時刻的輸出hT可以看作整個序列的表示虫几,然后有一個全連接層锤灿,softmax層預(yù)測類別的概率分布
數(shù)據(jù)集N, (xi, yi)辆脸,網(wǎng)絡(luò)的參數(shù)被訓(xùn)練但校,用來最小化預(yù)測的和真實分布之間的交叉熵。
多任務(wù)學(xué)習(xí)啡氢,文本分類
多任務(wù)學(xué)習(xí)的目的是為了利用這些任務(wù)之間的關(guān)聯(lián)來改進分類状囱,by learning tasks in parallel。
多任務(wù)學(xué)習(xí)的關(guān)鍵點在于L仁恰Mぜ稀!:sharing scheme in latent feature space.? ? 神經(jīng)網(wǎng)絡(luò)的潛在特征被看作隱藏神經(jīng)元的狀態(tài)搀崭。? ? 特別對于文本分類叨粘,LSTM隱藏狀態(tài)的潛在特征是一個句子的結(jié)束。sharing scheme在如何分組shared特征上是不同的瘤睹,有兩種方法:fully-shared scheme和shared-private scheme
Fully-shared model(FS-MTL) figure 2a:
用單層LSTM提取所有任務(wù)的特征升敲,這個模型忽視了一個事實:一些特征是task-dependent的,依賴于任務(wù)的轰传。
Shared-Private Model(SP-MTL)figure 2b:
每個任務(wù)有兩種特征空間:一個用于存儲task-dependent的特征驴党,另一個用于抓取task-invariant特征。對于任務(wù)k中的任意句子绸吸,可以計算它的shared representation stk和 task-specific representation htk:
最終的特征是來自私有空間和共享空間的特征連接鼻弧,concatenation
task-specific output layer:
對于任務(wù)k中的句子设江,它的特征h(k),最終進入相應(yīng)的task-specific softmax層攘轩,為了分類或其他任務(wù)叉存。所有任務(wù)的預(yù)測和真實分布之間的交叉熵
ak 是task k的權(quán)重
結(jié)合對抗訓(xùn)練Incorporating adversarial training
對抗網(wǎng)絡(luò)的損失:
本文提出了對抗shared-private模型 for multi-task learning,一個共享的RNN層 is working adversarially towards a learnable multi-layer perceptron多層感知器度帮,防止它對任務(wù)類型做出準(zhǔn)確的預(yù)測歼捏。對抗訓(xùn)練可以使共享空間更純凈并且確保了共享的representation不被task-specific特征污染。
任務(wù)分類器 Task Discriminator:將句子的shared representation映射到一個概率分布笨篷,估計句子編碼來自那個task瞳秽。
對抗損失Adversarial Loss:增加了task adversarial loss Ladv來防止task-specific特征跑進shared空間中。這個loss用來訓(xùn)練模型來產(chǎn)生shared特征率翅,一些一個分類器不能完全依賴用來預(yù)測任務(wù)種類的特征练俐。
原有的對抗網(wǎng)絡(luò)的損失很有限因為它是二元的,為了克服這個冕臭,我們擴展它到多類別的形式腺晾。
dik是當(dāng)前task分類的label。給定一個句子辜贵,shared LSTM生成一個representation來誤導(dǎo)任務(wù)分類器悯蝉;同時,分類器嘗試去對任務(wù)的分類做正確的分類托慨。在訓(xùn)練階段鼻由,shared特征提取和任務(wù)分類器達到一個特定點,兩個都無法再改進厚棵,并且分類器也不能區(qū)分所有任務(wù)蕉世。
半監(jiān)督多任務(wù)學(xué)習(xí) Semi-supervised Learning Multi-task Learning:
Ladv只需要input sentence并且不需要label y,所以可以將本模型與半監(jiān)督學(xué)習(xí)聯(lián)系起來窟感。最后讨彼,本模型不僅可以利用相關(guān)任務(wù)的數(shù)據(jù),同時可以應(yīng)用于abundant unlabeled corpora柿祈。
正交約束orthogonality constraints
上面模型的缺點哈误,一些task-invariant特征可能出現(xiàn)在shared空間和private空間
損失:
使用BP,使用一個gradient reversal layer(梯度反向?qū)?/b>)使得minimax優(yōu)化可行