論文筆記：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

題目：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

作者 : Peter Anderson , Xiaodong He , Chris Buehler , Damien Tency
論文地址[https://arxiv.org/abs/1707.07998 ]

1.解決的問題

Image Captioning 和 VQA

2.方法

?Top-down atttention 和 Bottom-up attention 結(jié)合起來作箍，作者說 bottom-up attention 就是將圖片的一些重要得區(qū)域提取出來窍荧，每一個區(qū)域都有一個特征向量肮雨，Top-down attention 就是確定特征對文本得貢獻(xiàn)度。

? 對于一個圖片 $I$ ,提取出 $k$ 個圖片特征 $V=\{v_1,v_2,...,v_k\},v_i \epsilon R^D$ ,每一個特征代表圖片得一個顯著區(qū)域的編碼， $V?$ 就可以看成是 bottom-up attention model 的輸出揭朝，然后將這些用于top-down attention model，提取出對描述貢獻(xiàn)大的顯著性區(qū)域的特征匈子。

3. Bottom-Up Attention Model

使用 Faster R-CNN 來提取圖片中的興趣點蜒车，然后對感興趣的區(qū)域采用 ResNet-101 來提取特征讳嘱，使用 IoU 閾值來對所有區(qū)域進(jìn)行一個篩選("hard" attention)。對于每一個區(qū)域 $i$ , $v_i$ 定義為每個區(qū)域的 mean-pooled convolutional 特征(2048維)酿愧。使用這種方法從很多候選配置中選出一小部分候選框沥潭。
預(yù)訓(xùn)練Bpttom-Up Attention Model , 首先初始化Faster-RCNN 和 ResNet-101并在ImageNet上進(jìn)行預(yù)訓(xùn)練，然后在Genome data 上進(jìn)行訓(xùn)練嬉挡。為了增強學(xué)習(xí)特征表達(dá)的能力钝鸽，作者增加了一個預(yù)測物體屬性類別的任務(wù)，為了預(yù)測區(qū)域 $i$ 的屬性庞钢，作者將 $v_i$ 與一個代表著物體真實類別的 embedding 連接拔恰，并將其喂給一個新增的輸出層輸出一個在屬性類別和非屬性類別上的softmax。

4.Captioning Model

主要有兩個LSTM基括，第一個是Attention LSTM, 第二個是Language LSTM颜懊。

two_lstm.png

4.1. Top-Down Attention LSTM

首先，Attention LSTM 在每個時間步上的輸入為：上一個時間步的 Language LSTM的輸出 + $\bar{v} = \frac{1}{k} \sum_i v_i$ + 上一時刻生成的encoding of word风皿。

? $x_i^1 = [h_{t-1} ^{2},\bar{v},W_c\prod_t]$

? $W_c$ 是一個word embedding matrix河爹， $\prod_t$ 是一個單詞的one-hot編碼，這個輸入提供給了Attention LSTM截至當(dāng)前時間步的最大上下文信息揪阶，還有整個圖片的內(nèi)容昌抠，以及當(dāng)前生成的單詞內(nèi)容， $W_c$ 是隨機生成的鲁僚，沒有經(jīng)過預(yù)訓(xùn)練炊苫。
在每個時間步：Attention LSTM 都會輸出一個output $h_{t}^{1}$ ，并且都會為 $k$ 個image feature $v_i$ 生成一個標(biāo)準(zhǔn)化的 attention權(quán)重 $\alpha_{i,t}$ :

? $a_{i,t} = w_{a}^{T} tanh(W_{va}v_i + W_{ha}h_{t}^{1})$

? $\alpha_t = softmax(a_t)$

$W_{va}冰沙，W_{ha}侨艾，w_a$ 是學(xué)習(xí)的參數(shù)，并且 Attention的結(jié)果：

? $\widehat{v}_i = \sum_{i=1}^{K} a_{i,t} v_i$

4.2. Language LSTM

Language LSTM的輸入為： $x_{t}^{2} = [\widehat{v}_t, h_{t}^{1}]$ 拓挥，即是Attention LSTM的隱含層輸出和Attention的結(jié)果唠梨，然后輸出的 $h_{t}^{2}$ 經(jīng)過softmax 層輸出單詞的概率，整個句子的概率可以看成是所有單詞概率的連乘侥啤。

5. VQA Model

VQA_Model.png

作者沒有說太多細(xì)節(jié)当叭，看另一個論文：D. Teney, P. Anderson, X. He, and A. van den Hengel. Tips and tricks for visual question answering: Learnings from the 2017 challenge. In CVPR, 2018.

6. Result

使用了 Visual Genome 數(shù)據(jù)集對我們的bottom -up 模型進(jìn)行預(yù)訓(xùn)練。這個數(shù)據(jù)集共有108K的圖片并且有物體屬性和關(guān)系盖灸，并且有 1.7M 的問題和答案蚁鳖。預(yù)訓(xùn)練bottom-up attention model 只使用了物體和屬性的數(shù)據(jù)，保留了5K作為驗證赁炎，5K作為測試醉箕，剩下的98K作為訓(xùn)練。這個數(shù)據(jù)集中接近51K的圖片都可以在MSCOCO里面找到，作者也小心的避免了數(shù)據(jù)交叉的問題(比如有一張圖在Visual Genome訓(xùn)練集中讥裤，一張在MSCOCO的測試集中)放棒。這個數(shù)據(jù)集中有2000個object classes 和 500 個 attribute classes, 作者手動的移除了一些detection 效果不好的物體和屬性，剩下1600個object classes 和 400 個 attribute classes己英。當(dāng)訓(xùn)練VQA Model 時间螟，用Visual Genome數(shù)據(jù)集擴(kuò)增了(VQA 2.0)數(shù)據(jù)集。
MSCOCO 數(shù)據(jù)集
VQA 2.0 數(shù)據(jù)集损肛，包含1.1M的問題和11.1M的答案（關(guān)于MSCOCO的）
Image Captioning 結(jié)果：

result1.png

result2.png

VQA 結(jié)果：

result3.png

result4.png

最后編輯于：2018.07.20 10:16:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末寒亥，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子荧关，更是在濱河造成了極大的恐慌，老刑警劉巖褂傀，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件忍啤，死亡現(xiàn)場離奇詭異，居然都是意外死亡仙辟，警方通過查閱死者的電腦和手機同波，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來叠国，“玉大人未檩，你說我怎么就攤上這事∷诤福” “怎么了冤狡？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長项棠。經(jīng)常有香客問我悲雳，道長，這世上最難降的妖魔是什么香追？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上敷扫，老公的妹妹穿的比我還像新娘摆昧。我一直安慰自己，他們只是感情好峭咒，可當(dāng)我...
茶點故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布税弃。她就那樣靜靜地躺著，像睡著了一般讹语。火紅的嫁衣襯著肌膚如雪钙皮。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音短条，去河邊找鬼导匣。笑死，一個胖子當(dāng)著我的面吹牛茸时，可吹牛的內(nèi)容都是我干的贡定。我是一名探鬼主播，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼可都，長吁一口氣：“原來是場噩夢啊……” “哼缓待！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起渠牲，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤旋炒，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后签杈，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瘫镇，經(jīng)...
沈念sama閱讀 45,820評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年答姥，在試婚紗的時候發(fā)現(xiàn)自己被綠了铣除。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,127評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鹦付，死狀恐怖尚粘，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情敲长，我是刑警寧澤郎嫁，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站祈噪，受9級特大地震影響行剂，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钳降，卻給世界環(huán)境...
茶點故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一厚宰、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧遂填，春花似錦铲觉、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案撵幽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至礁击，卻和暖如春盐杂，著一層夾襖步出監(jiān)牢的瞬間逗载，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工链烈，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留厉斟，地道東北人。一個月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓强衡，卻偏偏與公主長得像擦秽，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子漩勤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,066評論 2贊 355