這個(gè)工作著眼于Visual Question Generation (VQG)這個(gè)多模態(tài)問題靠瞎,同樣使用當(dāng)下熱門的GAN來處理,它最大的創(chuàng)新之處在于構(gòu)建了雙判別器(bi-discriminator)結(jié)構(gòu)。
問題背景
上面講到伶椿,這個(gè)工作聚焦的任務(wù)是Visual Question Generation贵扰,即根據(jù)圖片產(chǎn)生問題。但這個(gè)任務(wù)有一個(gè)重要的特征奠衔,那就是要讓所問的問題得以使雙方的對話進(jìn)行下去谆刨。相比之下,另一個(gè)同樣是根據(jù)圖片產(chǎn)生問題的任務(wù)Visual Question Answering (VQA)則只注重提出那些有客觀答案的問題归斤。兩者對比的例子如下:
簡單地說痊夭,VQA側(cè)重于提出僅針對圖片內(nèi)容本身的描述性問題,而VQG則會(huì)產(chǎn)生自然的聯(lián)想脏里,問出更符合人們?nèi)粘=涣魈攸c(diǎn)的問題她我。
于是,作者抽象出VQG所提問題的兩個(gè)重要屬性:natural和human-written迫横,分別從問題的內(nèi)容和通順性兩個(gè)方面進(jìn)行了約束番舆。
Bi-discriminator結(jié)構(gòu)
作者提出Bi-discriminator結(jié)構(gòu)的目的就是用兩個(gè)判別器分別對上述兩個(gè)屬性進(jìn)行判別。整體的GAN框架如圖:
簡單說一下我對這一框架的理解:
1. Generated指的是G生成的問題矾踱,Natural和Descriptive都屬于人類生成的恨狈,不過后者是描述性的問題,在VQG任務(wù)中也被歸類為負(fù)樣本介返。
2. 對“問題是否為人類生成的”進(jìn)行判別拴事,對“問題是否足夠自然”進(jìn)行判別。注意是dynamic圣蝎,因?yàn)樗鸵话愕腄iscriminator一樣刃宵,是與Generator一同博弈進(jìn)行訓(xùn)練的;而是static徘公,是針對已有的Natural/Descriptive數(shù)據(jù)進(jìn)行訓(xùn)練的二分類器牲证,在GAN訓(xùn)練的過程中始終是固定的,所以把這個(gè)分類器也命名為Discriminator其實(shí)多少有點(diǎn)蹭Bi-discriminator噱頭的意味关面。至于這其中具體的網(wǎng)絡(luò)結(jié)構(gòu)坦袍,論文中并沒有披露太多十厢,我已經(jīng)聯(lián)系了本文的作者索要代碼,期待他的回復(fù)捂齐。
3. Generator部分就基本套用了GAN處理NLP問題的模式:采用Monte Carlo Rollout和Policy Gradient方法利用來自Discriminator的reward更新參數(shù)蛮放。有意思的是,這里Generator采用的是Img2Seq模型奠宜,即在Seq2Seq的基礎(chǔ)上把輸入改成了圖像的CNN特征包颁。
4. 另外,我認(rèn)為上述的框架圖有幾個(gè)缺陷:該GAN應(yīng)該同時(shí)也是一個(gè)Conditional GAN压真,當(dāng)前的圖像也應(yīng)作為Discriminator的輸入娩嚼,這一點(diǎn)在圖上沒有體現(xiàn)出來;一般而言滴肿,Generator的輸入還應(yīng)當(dāng)包括一個(gè)噪聲變量岳悟,這在圖上同樣沒有示意。
實(shí)驗(yàn)
實(shí)驗(yàn)方面泼差,作者設(shè)置了幾個(gè)baseline:
由于目前沒有直接的方法來評估一個(gè)問題是否足夠“自然”贵少,作者只好針對NLP常用的幾種relevance scores(衡量生成樣本與ground-truth樣本重合度的指標(biāo))都進(jìn)行了自動(dòng)化測試:
這個(gè)測試結(jié)果有幾個(gè)值得注意的地方:
1. GAN框架(或)的效果明顯比單純用MLE進(jìn)行訓(xùn)練的Img2Seq模型要好,同時(shí)拴驮,Bi-discriminator結(jié)構(gòu)()的確顯示出一定的優(yōu)越性春瞬。
2. MIXER (Mixed Incremental?Cross-Entropy Reinforce)是一個(gè)強(qiáng)化學(xué)習(xí)模型柴信,MIXER-BLEU-4表示模型以BLEU-4作為直接的優(yōu)化目標(biāo)套啤,因此,它的BLEU-4指標(biāo)最高令人毫不意外随常,然而它在所有指標(biāo)中的綜合表現(xiàn)并不如潜沦,側(cè)面說明了GAN更具備良好的靈活性和魯棒性。
最后绪氛,這個(gè)工作請了真人來評估這些baseline的表現(xiàn)唆鸡,對各模型生成的樣本以及ground-truth樣本依據(jù)自然的程度進(jìn)行打分,分?jǐn)?shù)范圍是{1, 2, 3}枣察,評估結(jié)果如下:
這個(gè)結(jié)果基本和上述自動(dòng)化測試的結(jié)果類似争占,而有一點(diǎn)值得關(guān)注,那就是機(jī)器生成的樣本與ground-truth樣本還存在著非常明顯的差距序目。