來源:EMNLP(2016)
關(guān)鍵詞:Multimodal Compact Bilinear(MCB)穗酥,VQA
問題:
對于像視覺問答系統(tǒng)瞬浓、視覺定位系統(tǒng)這樣Multimodal任務(wù),需要融合不同類型modal的向量得到一個joint representation机打。傳統(tǒng)的向量融合方式一般是:點乘矫户,點加,全連接残邀。作者認為這些方法不如向量的外積更具有表達性皆辽。但是向量的外積會引起維度的急劇增加,因此作者提出了MCB的方法罐旗。
方法:
1 MCB的框架
如果x和q都是2048維膳汪,z是3000維唯蝶,整個參數(shù)空間大小是:2048*2048*3000 ,所以需要對外積進行降維和避免直接計算外積九秀。
降維:通過the count sketch projection function ,將向量v(n維)映射到向量y(d維)粘我。
避免直接計算外積:
2 MCB在VQA任務(wù)的應(yīng)用
1.VQA結(jié)構(gòu):
給定圖片和問題鼓蜒,預(yù)測答案的過程可以看做一個在候選答案集合進行多分類的任務(wù):
對于輸入的問題,利用2-LSTM征字,每層1024個結(jié)點都弹,得到2048維度的文本向量;對于輸入的圖片匙姜,利用預(yù)訓(xùn)練好的152層的Res-net畅厢。然后將這兩個向量通過MCB后正則化和歸一化后得到16000聯(lián)合表示的向量,再將這16000維度的向量連接到3000個答案上進行多分類氮昧。
2.Multiple Attention:
Attention機制使得模型專注于輸入特征的和當(dāng)前問題最相關(guān)的部分框杜,目前常用的是soft-attention的方法浦楣。而multiple attention的動機則是相當(dāng)于回答問題之前多次的觀察。
首先利用MCB產(chǎn)生一個聯(lián)合向量咪辱,然后使用兩個卷積層去預(yù)測每一個區(qū)域的attention權(quán)值振劳,通過softmax歸一化后的soft attention map和原始視覺向量加和,得到注意力視覺向量油狂。比較巧妙地的是產(chǎn)生了兩個attention map,模仿多次的觀察历恐。
實驗結(jié)果:
1 MCB優(yōu)于點乘,點加专筷,全連接的方法
2參數(shù)規(guī)模相同的時候弱贼,MCB優(yōu)于Concat+FC+FC
3壓縮對雙線性池化的方式?jīng)]有太大影響
4 soft attention,最好的搭檔是MCB
從實驗結(jié)果上看:
MCB:1%多?
Att :3%多
Genome:1%多
Glove:0.2%左右
相關(guān)工作:
1向量的連接方式:
a = [1,2], b = [3,4]
點乘(element-wise)[3,8]
點加(elsement-add)[4,6]
全連接(concencate)[1,2,3,4]
內(nèi)積(inner-product)11
外積(outer-product)向量
維基百科中對向量外積的定義:
2 MCB的前世今生:
①1T.-Y. Lin(et.all) CNN models for fine-grained visual recognition.在細粒度視覺識別任務(wù)中磷蛹,作者把CNN網(wǎng)絡(luò)的全連接層改為雙線性層后哮洽,取得了很大提升。
②2Yang Gao(et.all) Compact bilinear pooling
提出兩種壓縮雙線性模型弦聂,和完整的雙線性模型相比鸟辅,損失基本不變但是參數(shù)規(guī)模縮減了兩個數(shù)量級莺葫,而且支持端到端的訓(xùn)練結(jié)構(gòu)匪凉。
③3Ninh Pham(et.all)在Fast and scalable polynomial kernels via explicit feature maps
提出了兩個向量外積的count sketch可以被轉(zhuǎn)化為每個countsketch的卷積。
3 VQA:
任務(wù):給定一張圖片和自然語言形式的問題捺檬,生成自然語言形式的答案再层。
背景:這個任務(wù)同時涉及到了CV和nlp兩個領(lǐng)域。類似的多領(lǐng)域問題最近非潮の常火的就是看圖說話(Image Caption)任務(wù)聂受,但是看圖說話只需要產(chǎn)生對圖片的一般性描述,而視覺問答需要理解問題的真正含義烤镐,根據(jù)問題的不同僅聚焦與圖片中的某一部分蛋济,而且某些問題還需要一定的常識推理才能做出回答。因此炮叶,VQA相比看圖說話在圖像語義的理解方面有更高的要求碗旅。
方法:近年來,各種以CNN網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)網(wǎng)絡(luò)層出不窮镜悉,將圖像的底層特征如紋理祟辟,邊角,色彩逐層抽取組合成更高級的語義特征侣肄。和傳統(tǒng)的詞包模型相比旧困,rnn模型能夠捕捉詞語序列,通過參數(shù)共享的方式減少參數(shù)規(guī)模,并且LSTM吼具,GRU等等改進版本能夠更好捕捉長距離信息的表達被芳。目前,利用CNN抽取圖像語義信息馍悟,rnn抽取問題中包含的文本語義信息畔濒,將兩者的信息融合構(gòu)造組合模型是VQA問題的主流方法。從答案的生成方式看可以分為:分類模式和生成模式锣咒。
分類:
生成:
小結(jié):VQA這樣的任務(wù)侵状,主流的方法都是需要聯(lián)合表達圖像信息和文本信息。目前主流的結(jié)合兩個向量的方式有點乘毅整,點加趣兄,連接。但是作者覺得這樣產(chǎn)生的聯(lián)合向量表達能力不夠悼嫉,不足以捕捉多模型之間復(fù)雜的交互信息艇潭。于是作者提出了這樣一個猜想:多模型向量的外積可以表達多模型向量的交互信息。因為傳統(tǒng)的向量結(jié)合方式都是針對單個元素的戏蔑,向量外積的方式是對兩個向量之間所有元素的乘法操作蹋凝。但是雙線性模型計算向量外積的過程中,產(chǎn)生的向量維數(shù)太大总棵,計算量太大鳍寂,所以雙線性模型計算外積的方式并沒有被廣泛采用。
簡評:
之前老師說過情龄,創(chuàng)新點可以分為應(yīng)用創(chuàng)新和模型創(chuàng)新迄汛。我覺得這兩種創(chuàng)新方式其實是相輔相成的。這里作者因為想要改進VQA模型中視覺向量和問題向量的融合方式骤视,提出了外積這個想法鞍爱,成功地將之前的cbp(compact biliniaer pooling)模型改進后應(yīng)用到模型融合的過程中。這種解決問題的思路值得我們參考和學(xué)習(xí)专酗。
本文還有一個創(chuàng)新點就是應(yīng)用了soft attention睹逃。并且使用的了兩層attention maps,對MCB后的聯(lián)合向量去求attention weight后對關(guān)注的視覺向量笼裳。
再者唯卖,作者參加VQA比賽的時候粱玲,單個模型最好的的實驗結(jié)果是MCB+att+genome+glove躬柬,只比后面兩名高了1個百分點左右。但是集成7個模型的時候取得的的結(jié)果則比后面的模型提升了4到5個百分點抽减。說明在做這種比賽的時候允青,還是能夠多用一些trick提升就多用一些。
??