論文 : Adversarial Multi-task Learning for Text Classification
最近決定每周讀一篇GAN的論文污筷。一方面,提升自己的閱讀理解能力够傍。另一方面辛润,拓展自己的思路第煮。作為GAN的初學(xué)者撩炊,有很多表述不當(dāng)?shù)牡胤綒g迎大家批評(píng)指正!
標(biāo)題:對(duì)抗多任務(wù)學(xué)習(xí)用于文本分類(lèi)留夜。所謂多任務(wù)學(xué)習(xí)(MTL)就是指學(xué)習(xí)某一類(lèi)任務(wù)的通用知識(shí)(focus on learning the shared layers to extract the common and task-invariant features)匙铡。比如學(xué)習(xí)AlexNet,VGG的卷積部分(不含全連接層)碍粥。這樣學(xué)習(xí)出來(lái)的卷積特征通常表示一些通用的特征表示(類(lèi)似于SIFT鳖眼,HOG)。而利用全連接層嚼摩,就可以學(xué)的一些可以針對(duì)某個(gè)具體任務(wù)的特征钦讳,比如分類(lèi),分割枕面,檢測(cè)等愿卒。詳細(xì)可以看這篇關(guān)于多任務(wù)學(xué)習(xí)文章。
Abstract
作者提出利用GAN進(jìn)行多任務(wù)學(xué)習(xí)潮秘,可以緩解多任務(wù)學(xué)習(xí)中學(xué)習(xí)的shared knowledge存在task-specific features問(wèn)題琼开。
Introduction
作者為解決目前多任務(wù)學(xué)習(xí)中存在的問(wèn)題,設(shè)計(jì)了一個(gè)shared-private learning framework. 其主要關(guān)鍵點(diǎn)就是引入了對(duì)抗訓(xùn)練以及正交約束枕荞,這樣可以阻止 shared and private latent features from interfering with each other稠通。說(shuō)白了,作者就是要將task-specific features 以及 task-dependent features分開(kāi)來(lái)买猖,示意圖如下:
舉個(gè)栗子,通用的shared-private model存在下面的問(wèn)題:
第一句話的infantile是一個(gè)中性詞滋尉,但是第二句是貶義詞玉控。顯然,這是一個(gè)task-specific feature, 但是狮惜,目前的模型卻會(huì)把他們放到shared space高诺,這樣就會(huì)導(dǎo)致shared space 中的特征冗余碌识。為了解決這個(gè)問(wèn)題,作者提出的框架引入了正交約束虱而,使得shared-privete space 天生就是分離的筏餐。
作者提出的框架具有兩個(gè)關(guān)鍵點(diǎn):
- 對(duì)抗訓(xùn)練:使得shared features space 僅僅包含通用的特征。
- 正交約束:從private and shared space中消除冗余約束牡拇。
作者本文的工作有以下三點(diǎn):
- 提出了一種更精確的劃分task-specific features 以及 shared space 的方法魁瞪,而不是以前那種通過(guò)shared parameters來(lái)粗糙的劃分。
- 對(duì)于多類(lèi)問(wèn)題惠呼,拓展了以前的二值GAN导俘,不僅使得多任務(wù)可以聯(lián)合訓(xùn)練,而且還可以利用未標(biāo)記的數(shù)據(jù)剔蹋。
- 將shared knowledge 濃縮到現(xiàn)成的layer中旅薄,使其可以很容易的遷移到新任務(wù)中。
LSTM用于文本分類(lèi)
LSTM可以表示為下式:
對(duì)于分類(lèi)問(wèn)題泣崩,給定一個(gè)詞序列少梁,首先要學(xué)得每一個(gè)詞的向量表示(即詞嵌入,所謂詞嵌入矫付,是學(xué)得序列的一個(gè)向量表示凯沪,ont-encoding就是一種表示,但這樣通常維度很高技即,詞嵌入通常有一個(gè)降維過(guò)程著洼,word2vec就是一種詞嵌入方法),經(jīng)過(guò)LSTM之后而叼,其最后一個(gè)時(shí)刻的輸出h作為整個(gè)序列的特征表示身笤,而后跟上一個(gè)softmax非線性層預(yù)測(cè)每一類(lèi)的概率。
網(wǎng)絡(luò)的優(yōu)化目標(biāo)是交叉熵?fù)p失葵陵。
Multi-task Learning for TextClassification
多任務(wù)學(xué)習(xí)的關(guān)鍵就是在潛在的特征空間共享方案液荸。共享方案通常有兩種:
- Fully-Shared Model (FS-MTL) :這種模型忽略了task-dependent特性
- Shared-Private Model (SP-MTL) :這種模型對(duì)每個(gè)任務(wù)都引入了shared space 和 private space。分別用LSTM學(xué)得脱篙,并級(jí)聯(lián)娇钱。
示意圖如下:
上圖其實(shí)表示的就是多任務(wù)學(xué)習(xí)的兩種網(wǎng)絡(luò)框架,上述網(wǎng)絡(luò)的優(yōu)化目標(biāo)如下(alpha為各個(gè)任務(wù)的權(quán)重因子绊困,L表示交叉熵?fù)p失):
Incorporating Adversarial Training
作者將shared space學(xué)得的特征丟到判別器中文搂,最大化判別器的損失,以達(dá)到對(duì)抗訓(xùn)練的目的秤朗。損失函數(shù)如下(d表示任務(wù)的類(lèi)型):
對(duì)于一個(gè)sentence煤蹭,LSTM生成一個(gè)特征表示誤導(dǎo)判別器,與此同時(shí),判別器嘗試盡可能減小判別誤差硝皂。此外常挚,從上面的公式可以看出,訓(xùn)練過(guò)程并未用到樣本的label稽物,所以可以將這個(gè)引入無(wú)監(jiān)督學(xué)習(xí)以解決相關(guān)問(wèn)題奄毡。
可以看出,上述模型還存在一個(gè)問(wèn)題贝或,那就是對(duì)抗訓(xùn)練只能保證task-dependent features 不進(jìn)入shared space吼过,但是task-invariant features還是會(huì)進(jìn)入private space。因此傀缩,作者受他人工作啟發(fā)那先,引入正交約束,對(duì)代價(jià)函數(shù)進(jìn)行懲罰赡艰,使LSTM盡量從不同層面提取特征售淡。懲罰函數(shù)如下:
總結(jié)起來(lái),最終代價(jià)函數(shù)如下(lambda和gama為超參數(shù)慷垮,即各個(gè)loss的權(quán)重比例):
網(wǎng)絡(luò)利用反向傳播進(jìn)行訓(xùn)練揖闸,對(duì)抗網(wǎng)絡(luò)的訓(xùn)練可以用gradient reverse layer。整體網(wǎng)絡(luò)框架如下:
Experiment
效果不錯(cuò)料身,就不講啦汤纸。
作者本文的兩大關(guān)鍵點(diǎn)就是:對(duì)抗訓(xùn)練,正交約束芹血。