論文學(xué)習(xí)5“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”文章學(xué)習(xí)

這篇文章是2015年ICML上的一篇文章京景，把a(bǔ)ttention機(jī)制引入到圖像領(lǐng)域的文章怎诫，作者Kelvin Xu 虐唠、Yoshua Bengio等人善延，來自多倫多大學(xué)和蒙特利爾大學(xué)少态。

Image caption是計算機(jī)視覺的最初始任務(wù)，不僅要獲得圖片里的物體易遣，還要表達(dá)他們之間的關(guān)系彼妻。目前現(xiàn)存的方法大都是encoder?— decoder架構(gòu)，利用CNN豆茫、RNN侨歉、LSTM等神經(jīng)網(wǎng)絡(luò)完成caption工作，比如說只使用CNN對圖像進(jìn)行特征提取揩魂，然后利用提取的特征生成caption幽邓，還有結(jié)合CNN和RNN的，使用CNN提取圖像特征火脉，將Softmax層之前的那一層vector作為encoder端的輸出并送入decoder中牵舵，使用LSTM對其解碼并生成句子柒啤，這種方法也是本文所采取的方法，只是在此基礎(chǔ)上嵌入了soft和hard attention機(jī)制畸颅。

除了神經(jīng)網(wǎng)絡(luò)之外担巩，caption還有兩種典型的方法：

1、使用模板的方法没炒，填入一些圖像中的物體涛癌；

2、使用檢索的方法送火，尋找相似描述拳话。

這兩種方法都使用了一種泛化的手段，使得描述跟圖片很接近漾脂，但又不是很準(zhǔn)確假颇。所以作者在此基礎(chǔ)上提出了自己的模型架構(gòu)，將soft 和hard attention引入到caption骨稿，并利用可視化手段理解attention機(jī)制的效果笨鸡。

模型：

模型的總體架構(gòu)如上圖所示，也是由encoder和decoder組成坦冠。

Encoder形耗，模型使用CNN來提取 L 個 D 維的特征vector作為注釋向量，每一個都對應(yīng)圖像的一個區(qū)域辙浑，如下式激涤。

?? 與此前的工作使用Softmax層之前的全連接層提取圖像特征不同，本文所提取的這些vector來自于?low-level 的卷積層判呕，這使得decoder可以通過選擇所有特征向量的子集來選擇性地聚焦于圖像的某些部分倦踢，也就是將attention機(jī)制嵌入。

Decoder侠草，解碼階段用LSTM網(wǎng)絡(luò)生成caption辱挥，集合為下式，其中C是句子長度边涕，K是詞表大小晤碘，y是各個詞的one-hot編碼所構(gòu)成的集合。

LSTM模型結(jié)構(gòu)如下功蜓，對應(yīng)輸入門园爷、輸出門、忘記門數(shù)學(xué)公式如下：

輸入式撼、遺忘和輸出門由sigmod激活童社，所以得到的值在0—1之間，可以直接作為概率值著隆，候選向量ct 和ht由tanh激活扰楼，值在-1—1之間甘改。三個輸入量分別是，Eyt?1是look-up得到詞 yt?1的 m 維詞向量灭抑；ht?1是上一時刻的隱狀態(tài)十艾；z^t∈RD是LSTM真正意義上的“輸入”，代表的是捕捉了特定區(qū)域視覺信息的上下文向量腾节。

針對最后一個式子的隱含變量值忘嫉，作者給出了隱狀態(tài)和細(xì)胞狀態(tài)的初始值的計算方式，使用兩個獨(dú)立的多層感知機(jī)案腺，感知機(jī)的輸入是各個圖像區(qū)域特征的平均：

根據(jù)以上庆冕，我們就可以通過最大概率求得當(dāng)前時刻輸出的詞，并作為下一時刻的輸入劈榨，從而獲得caption結(jié)果访递，如下式。

Attention同辣，上文說到zt是LSTM真正的輸入拷姿，是一個和時間相關(guān)的動態(tài)變量，不同時間關(guān)注在不同的圖像區(qū)域內(nèi)旱函，那么這里就可以和attention結(jié)合起來响巢，規(guī)定特定時間內(nèi)關(guān)注某個區(qū)域。實(shí)現(xiàn)attention的方式棒妨，就是：zt由時間和位置區(qū)域決定踪古，對于每個時間的每個區(qū)域都定義一個權(quán)重值ati。為了滿足權(quán)重的歸一化券腔，我們通過softmax函數(shù)實(shí)現(xiàn)伏穆，如下式，Softmax的輸入需要包含位置信息和前一時刻隱層值：

zt就可以表示出來纷纫，而φ函數(shù)怎么定義使得hard attention和soft attention的產(chǎn)生：

? ? Hard attention枕扫，這里權(quán)重ati所起的作用的是否被選中，只有0.1兩個選項涛酗，所以引入了變量st,i铡原，當(dāng)區(qū)域i被選中時為1偷厦，否則為0商叹。

那么問題就是st,i什么時候是1，什么時候為0只泼。在文章里剖笙，作者將st視作隱變量，為參數(shù)是位置信息的多元伯努利分布请唱，公式如下：

針對多元伯努利分布弥咪，利用最大似然估計过蹂，求得變分下限，類似于EM的思想聚至，下式通過杰森不等式求得酷勺。

然后對參數(shù)矩陣求梯度進(jìn)行優(yōu)化，

用 N 次蒙特卡洛采樣來近似：

在蒙特卡洛方法估計梯度時扳躬，可以使用滑動平均來減小梯度的方差：

為進(jìn)一步減小方差脆诉，引入多元貝努利分布的熵H(s)，而且對于一張給定圖片贷币，50%的概率將s設(shè)置為它的期望值α击胜。這兩個技術(shù)提升了隨機(jī)算法的魯棒性，最終的結(jié)果是：

?λr和λe是交叉驗證設(shè)置的兩個超參數(shù)役纹，這個學(xué)習(xí)規(guī)則類似于強(qiáng)化學(xué)習(xí)偶摔。

Soft attention，在這里促脉，不像hard對特定時間特定區(qū)域只有關(guān)注和不關(guān)注辰斋，soft里對每個區(qū)域都關(guān)注，只是關(guān)注的重要程度不一樣瘸味，所以此處的權(quán)重ati就對應(yīng)著此區(qū)域所占比重亡呵，那么zt就可以直接通過比重加權(quán)求和得到。

現(xiàn)在的模型為光滑的硫戈，可以使用BP算法通過梯度進(jìn)行學(xué)習(xí)锰什。文章定義了歸一化加權(quán)幾何平均值（NWGM）

該式表示caption的結(jié)果可以通過文本向量很好近似，也就是caption結(jié)果有效丁逝。也表示soft attention是關(guān)于attention位置的邊緣似然的近似汁胆。在訓(xùn)練soft attention時，文章引入了一個雙向隨機(jī)正則霜幼，目的是為了讓attention平等的對待圖片的每一區(qū)域嫩码。另外，還定義了閾值β

罪既，目的是讓解碼器決定是把重點(diǎn)放在語言建模還是在每個時間步驟的上下文中铸题。

Soft attention最終是通過最小化下式進(jìn)行訓(xùn)練。

實(shí)驗：

???作者用了三個數(shù)據(jù)集進(jìn)行實(shí)驗琢感，F(xiàn)lickr8k采用RMSProp優(yōu)化方法丢间， Flickr30k和COCO采用Adam進(jìn)行優(yōu)化，用vgg在ImageNet上進(jìn)行預(yù)訓(xùn)練驹针，采取64的mini-batch烘挫，用bleu和meteor作為指標(biāo)進(jìn)行評分，下表是實(shí)驗結(jié)果柬甥，可以看出本文所提出的方法取得了很好的結(jié)果饮六。

可視化其垄，為了更好地了解attention的效果，我們對模型進(jìn)行了可視化卤橄，如下圖所示绿满，可以看出attention機(jī)制可以學(xué)習(xí)到類似于人注意力一樣的信息。

結(jié)論：

本文作者經(jīng)機(jī)器翻譯的attention機(jī)制啟發(fā)窟扑，將其應(yīng)用到image caption領(lǐng)域棒口，并提出了hard 和 soft 兩種attention機(jī)制，相比較來說辜膝，hard attention更難訓(xùn)練无牵，所以他的效果也更好。這篇文章無疑是打開了attention圖像領(lǐng)域的先河厂抖。

最后編輯于：2019.01.14 13:27:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末茎毁，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子忱辅，更是在濱河造成了極大的恐慌七蜘，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件墙懂，死亡現(xiàn)場離奇詭異橡卤，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)损搬，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門碧库，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人巧勤，你說我怎么就攤上這事嵌灰。” “怎么了颅悉？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵沽瞭，是天一觀的道長。經(jīng)常有香客問我剩瓶，道長驹溃，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任延曙，我火速辦了婚禮豌鹤，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘搂鲫。我一直安慰自己傍药，他們只是感情好磺平，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布魂仍。她就那樣靜靜地躺著拐辽，像睡著了一般。火紅的嫁衣襯著肌膚如雪擦酌。梳的紋絲不亂的頭發(fā)上俱诸，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天，我揣著相機(jī)與錄音赊舶，去河邊找鬼睁搭。笑死，一個胖子當(dāng)著我的面吹牛笼平，可吹牛的內(nèi)容都是我干的园骆。我是一名探鬼主播，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼寓调，長吁一口氣：“原來是場噩夢啊……” “哼锌唾！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起夺英，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤晌涕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后痛悯，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體余黎，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年载萌，在試婚紗的時候發(fā)現(xiàn)自己被綠了惧财。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡扭仁，死狀恐怖可缚，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情斋枢，我是刑警寧澤帘靡，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站瓤帚，受9級特大地震影響描姚，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜戈次，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一轩勘、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧怯邪，春花似錦绊寻、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案澄步，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽冰蘑。三九已至，卻和暖如春村缸，著一層夾襖步出監(jiān)牢的瞬間祠肥，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工梯皿，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留仇箱，地道東北人。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓东羹，卻偏偏與公主長得像剂桥，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子属提，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評論 2贊 354

論文學(xué)習(xí)5“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”文章學(xué)習(xí)

推薦閱讀更多精彩內(nèi)容