論文讀書筆記(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)

來源EMNLP(2016)

關(guān)鍵詞Multimodal Compact Bilinear(MCB)穗酥,VQA

問題


視覺問答系統(tǒng)


視覺定位系統(tǒng)

對于像視覺問答系統(tǒng)瞬浓、視覺定位系統(tǒng)這樣Multimodal任務(wù),需要融合不同類型modal的向量得到一個joint representation机打。傳統(tǒng)的向量融合方式一般是:點乘矫户,點加,全連接残邀。作者認為這些方法不如向量的外積更具有表達性皆辽。但是向量的外積會引起維度的急劇增加,因此作者提出了MCB的方法罐旗。

方法

1 MCB的框架

雙線性模型:z = W[x @q](@表示外積)

如果x和q都是2048維膳汪,z是3000維唯蝶,整個參數(shù)空間大小是:2048*2048*3000 ,所以需要對外積進行降維和避免直接計算外積九秀。

降維:通過the count sketch projection function ,將向量v(n維)映射到向量y(d維)粘我。

避免直接計算外積:


MCB結(jié)構(gòu)圖
MCB算法

2 MCB在VQA任務(wù)的應(yīng)用

1.VQA結(jié)構(gòu):


MCB在VQA任務(wù)的應(yīng)用

給定圖片和問題鼓蜒,預(yù)測答案的過程可以看做一個在候選答案集合進行多分類的任務(wù):

對于輸入的問題,利用2-LSTM征字,每層1024個結(jié)點都弹,得到2048維度的文本向量;對于輸入的圖片匙姜,利用預(yù)訓(xùn)練好的152層的Res-net畅厢。然后將這兩個向量通過MCB后正則化和歸一化后得到16000聯(lián)合表示的向量,再將這16000維度的向量連接到3000個答案上進行多分類氮昧。

2.Multiple Attention:


MCB+multiple attention

Attention機制使得模型專注于輸入特征的和當(dāng)前問題最相關(guān)的部分框杜,目前常用的是soft-attention的方法浦楣。而multiple attention的動機則是相當(dāng)于回答問題之前多次的觀察。

首先利用MCB產(chǎn)生一個聯(lián)合向量咪辱,然后使用兩個卷積層去預(yù)測每一個區(qū)域的attention權(quán)值振劳,通過softmax歸一化后的soft attention map和原始視覺向量加和,得到注意力視覺向量油狂。比較巧妙地的是產(chǎn)生了兩個attention map,模仿多次的觀察历恐。

實驗結(jié)果:


MCB性能對比實驗

1 MCB優(yōu)于點乘,點加专筷,全連接的方法

2參數(shù)規(guī)模相同的時候弱贼,MCB優(yōu)于Concat+FC+FC

3壓縮對雙線性池化的方式?jīng)]有太大影響

4 soft attention,最好的搭檔是MCB

VQA數(shù)據(jù)集實驗結(jié)構(gòu)對比

從實驗結(jié)果上看:

MCB:1%多?

Att :3%多

Genome:1%多

Glove:0.2%左右

相關(guān)工作

1向量的連接方式:

a = [1,2], b = [3,4]

點乘(element-wise)[3,8]

點加(elsement-add)[4,6]

全連接(concencate)[1,2,3,4]

內(nèi)積(inner-product)11

外積(outer-product)向量

維基百科中對向量外積的定義:

外積的定義

2 MCB的前世今生:

①1T.-Y. Lin(et.all) CNN models for fine-grained visual recognition.在細粒度視覺識別任務(wù)中磷蛹,作者把CNN網(wǎng)絡(luò)的全連接層改為雙線性層后哮洽,取得了很大提升。

②2Yang Gao(et.all) Compact bilinear pooling

提出兩種壓縮雙線性模型弦聂,和完整的雙線性模型相比鸟辅,損失基本不變但是參數(shù)規(guī)模縮減了兩個數(shù)量級莺葫,而且支持端到端的訓(xùn)練結(jié)構(gòu)匪凉。

③3Ninh Pham(et.all)在Fast and scalable polynomial kernels via explicit feature maps

提出了兩個向量外積的count sketch可以被轉(zhuǎn)化為每個countsketch的卷積。

3 VQA:

任務(wù):給定一張圖片和自然語言形式的問題捺檬,生成自然語言形式的答案再层。

背景:這個任務(wù)同時涉及到了CV和nlp兩個領(lǐng)域。類似的多領(lǐng)域問題最近非潮の常火的就是看圖說話(Image Caption)任務(wù)聂受,但是看圖說話只需要產(chǎn)生對圖片的一般性描述,而視覺問答需要理解問題的真正含義烤镐,根據(jù)問題的不同僅聚焦與圖片中的某一部分蛋济,而且某些問題還需要一定的常識推理才能做出回答。因此炮叶,VQA相比看圖說話在圖像語義的理解方面有更高的要求碗旅。

方法:近年來,各種以CNN網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)網(wǎng)絡(luò)層出不窮镜悉,將圖像的底層特征如紋理祟辟,邊角,色彩逐層抽取組合成更高級的語義特征侣肄。和傳統(tǒng)的詞包模型相比旧困,rnn模型能夠捕捉詞語序列,通過參數(shù)共享的方式減少參數(shù)規(guī)模,并且LSTM吼具,GRU等等改進版本能夠更好捕捉長距離信息的表達被芳。目前,利用CNN抽取圖像語義信息馍悟,rnn抽取問題中包含的文本語義信息畔濒,將兩者的信息融合構(gòu)造組合模型是VQA問題的主流方法。從答案的生成方式看可以分為:分類模式和生成模式锣咒。

分類:

分類模型

生成:


生成模型

小結(jié):VQA這樣的任務(wù)侵状,主流的方法都是需要聯(lián)合表達圖像信息和文本信息。目前主流的結(jié)合兩個向量的方式有點乘毅整,點加趣兄,連接。但是作者覺得這樣產(chǎn)生的聯(lián)合向量表達能力不夠悼嫉,不足以捕捉多模型之間復(fù)雜的交互信息艇潭。于是作者提出了這樣一個猜想:多模型向量的外積可以表達多模型向量的交互信息。因為傳統(tǒng)的向量結(jié)合方式都是針對單個元素的戏蔑,向量外積的方式是對兩個向量之間所有元素的乘法操作蹋凝。但是雙線性模型計算向量外積的過程中,產(chǎn)生的向量維數(shù)太大总棵,計算量太大鳍寂,所以雙線性模型計算外積的方式并沒有被廣泛采用。

簡評

之前老師說過情龄,創(chuàng)新點可以分為應(yīng)用創(chuàng)新和模型創(chuàng)新迄汛。我覺得這兩種創(chuàng)新方式其實是相輔相成的。這里作者因為想要改進VQA模型中視覺向量和問題向量的融合方式骤视,提出了外積這個想法鞍爱,成功地將之前的cbp(compact biliniaer pooling)模型改進后應(yīng)用到模型融合的過程中。這種解決問題的思路值得我們參考和學(xué)習(xí)专酗。

本文還有一個創(chuàng)新點就是應(yīng)用了soft attention睹逃。并且使用的了兩層attention maps,對MCB后的聯(lián)合向量去求attention weight后對關(guān)注的視覺向量笼裳。

再者唯卖,作者參加VQA比賽的時候粱玲,單個模型最好的的實驗結(jié)果是MCB+att+genome+glove躬柬,只比后面兩名高了1個百分點左右。但是集成7個模型的時候取得的的結(jié)果則比后面的模型提升了4到5個百分點抽减。說明在做這種比賽的時候允青,還是能夠多用一些trick提升就多用一些。

??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卵沉,一起剝皮案震驚了整個濱河市颠锉,隨后出現(xiàn)的幾起案子法牲,更是在濱河造成了極大的恐慌,老刑警劉巖琼掠,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拒垃,死亡現(xiàn)場離奇詭異,居然都是意外死亡瓷蛙,警方通過查閱死者的電腦和手機悼瓮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來艰猬,“玉大人横堡,你說我怎么就攤上這事」谔遥” “怎么了命贴?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長食听。 經(jīng)常有香客問我胸蛛,道長,這世上最難降的妖魔是什么樱报? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任胚泌,我火速辦了婚禮,結(jié)果婚禮上肃弟,老公的妹妹穿的比我還像新娘玷室。我一直安慰自己,他們只是感情好笤受,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布穷缤。 她就那樣靜靜地躺著,像睡著了一般箩兽。 火紅的嫁衣襯著肌膚如雪津肛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天汗贫,我揣著相機與錄音身坐,去河邊找鬼。 笑死落包,一個胖子當(dāng)著我的面吹牛部蛇,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播咐蝇,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼传轰,長吁一口氣:“原來是場噩夢啊……” “哼动猬!你這毒婦竟也來了绩社?” 一聲冷哼從身側(cè)響起幢尚,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡崇败,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了肩祥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片僚匆。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖搭幻,靈堂內(nèi)的尸體忽然破棺而出咧擂,到底是詐尸還是另有隱情,我是刑警寧澤檀蹋,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布松申,位于F島的核電站,受9級特大地震影響俯逾,放射性物質(zhì)發(fā)生泄漏贸桶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一桌肴、第九天 我趴在偏房一處隱蔽的房頂上張望皇筛。 院中可真熱鬧,春花似錦坠七、人聲如沸水醋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拄踪。三九已至,卻和暖如春拳魁,著一層夾襖步出監(jiān)牢的瞬間惶桐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工潘懊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留姚糊,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓授舟,卻偏偏與公主長得像救恨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子岂却,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容