深度學習框架PyTorch入門與實踐：第十章 Image Caption：讓神經(jīng)網(wǎng)絡(luò)看圖講故事

Image Caption，通常被翻譯為圖像描述茬射，也有人稱之為圖像標注槐沼，本章統(tǒng)一譯為圖像描述伍宦。圖像描述直觀地解釋就是從給定的圖像生成一段描述文字。下圖所示就是幾個圖像描述的例子，上面是圖像，下面是神經(jīng)網(wǎng)絡(luò)生成的相應(yīng)的描述。圖像描述是深度學習中十分有趣的一個研究方向走诞，也是計算機視覺的一個關(guān)鍵目標。對于圖像描述的任務(wù)蛤高，神經(jīng)網(wǎng)絡(luò)不僅要了解圖像中有哪些對象蚣旱，對象之間的關(guān)系，還要使用自然的語言來描述這些對象的關(guān)系戴陡，因此圖像描述比其他深度學習任務(wù)更有趣塞绿，也更有挑戰(zhàn)性。

image.png

圖像描述用到的數(shù)據(jù)集通常是MS COCO恤批，COCO數(shù)據(jù)集使用的是英文語料庫异吻，而在本章中，我們將使用2017年9月~12月舉辦的AI Challenger比賽中的“圖像中文描述”子任務(wù)的數(shù)據(jù)喜庞，帶讀者實現(xiàn)一個能夠看圖說話的神經(jīng)網(wǎng)絡(luò)诀浪。關(guān)于圖像中文描述比賽的更多信息，讀者可以訪問AI Challenger官網(wǎng)延都。

10.1 圖像描述介紹

對人來說雷猪，Image Caption是簡單而自然的一件事，但對機器來說晰房，這項任務(wù)充滿了挑戰(zhàn)性求摇。原因在于機器不僅要能檢測出圖像中的物體，還要理解物體之間的相關(guān)關(guān)系殊者，最后還要利用合理的語言表達出來与境。圖像描述吸引了許多研究人員的關(guān)注，除了它的趣味性外猖吴，還因為它具有廣闊的應(yīng)用前景摔刁，例如它可以幫助盲人“看到”真實世界發(fā)生的事情。

利用深度學習完成圖像描述的工作可以追溯到2014年百度研究院發(fā)表的《Explain Images with Multimodal Recurrent Neural Networks》論文距误。作者創(chuàng)造性地將深度卷積神經(jīng)網(wǎng)絡(luò)和深度循環(huán)網(wǎng)絡(luò)結(jié)合簸搞，用于解決圖像標注與圖像和語句檢索等問題”馕唬現(xiàn)在關(guān)于圖像描述更為人所熟知的是另一篇論文：《Show and Tell: A Neural Image Caption Generator》准潭。這篇論文提出的Caption模型如下圖所示。

image.png

Image是原始圖片域仇，左邊是GoogleLeNet刑然，實際使用中可以用任意的深度學習網(wǎng)絡(luò)結(jié)構(gòu)代替（如VGG或ResNet等）， $S_0$ 暇务， $S_1$ 泼掠， $S_2$ 怔软，……， $S_N$ 是人工對圖片進行描述的語句择镇，例如“A dog is playing with a ball”挡逼，那么 $S_0$ ~ $S_6$ 就是這7個單詞。 $W_eS_n$ 就是這幾個單詞對應(yīng)的詞向量腻豌。

論文中訓練的方法如下：

圖片經(jīng)過神經(jīng)網(wǎng)絡(luò)提取到圖片高層次的語義信息 $f$
將 $f$ 輸入到LSTM中家坎，并希望LSTM的輸出是 $S_0$
將 $S_0$ 輸入到LSTM中，并希望LSTM的輸出是 $S_1$
將 $S_1$ 輸入到LSTM中吝梅，并希望LSTM的輸出是 $S_2$
將 $S_2$ 輸入到LSTM中虱疏，并希望LSTM的輸出是 $S_3$
以此類推，將 $S_{N-1}$ 輸入到LSTM中苏携，并希望LSTM的輸出是 $S_N$

可以看出這個做法和第9章所講的利用CharRNN寫唐詩的原理很相似做瞪。如果讀者還沒有閱讀第9章的內(nèi)容，筆者強烈建議先閱讀它右冻，了解關(guān)于詞向量装蓬、RNN和CharRNN的相關(guān)知識。圖像描述的實現(xiàn)方法可以認為和生成唐詩一樣纱扭，只不過這個的第一個詞用圖像的信息來表示矛物。通過神經(jīng)網(wǎng)絡(luò)高層的輸出，我們可以獲得關(guān)于圖像的高層語義信息跪但。在論文中履羞，作者使用了預訓練好的GoogleLeNet獲取圖片在全連接分類層之前的輸出，作為圖像語義屡久。訓練的目標就是輸出的詞盡量和預期的詞相符忆首，所以圖像描述問題最終也變成了一個分類問題，利用LSTM不斷預測下一個最有可能出現(xiàn)的詞被环。

10.2 數(shù)據(jù)

10.2.1 數(shù)據(jù)介紹

AI Challenger圖像中文描述比賽的數(shù)據(jù)分為兩部分糙及，第一個部分是圖片，總共20萬張筛欢，第二部分是一個caption_train_annotations_20170902.json文件浸锨，它以json的格式保存每張圖片的描述，每個樣本的格式如下版姑，總共有20萬條這樣的樣本柱搜。

url：圖片的下載地址（沒用，因為已經(jīng)提供了下載好的圖片）剥险。
image_id：圖片的文件名聪蘸。
caption：圖片對應(yīng)的五句描述。

10.2.2 圖像數(shù)據(jù)處理

10.2.3 數(shù)據(jù)加載

10.2.4 實驗結(jié)果分析

最后編輯于：2019.12.03 11:53:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市健爬，隨后出現(xiàn)的幾起案子控乾，更是在濱河造成了極大的恐慌，老刑警劉巖娜遵，帶你破解...
沈念sama閱讀 211,561評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蜕衡，死亡現(xiàn)場離奇詭異，居然都是意外死亡设拟，警方通過查閱死者的電腦和手機衷咽，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒜绽，“玉大人镶骗，你說我怎么就攤上這事《阊牛” “怎么了鼎姊？”我有些...
開封第一講書人閱讀 157,162評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長相赁。經(jīng)常有香客問我相寇，道長，這世上最難降的妖魔是什么钮科？我笑而不...
開封第一講書人閱讀 56,470評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任唤衫，我火速辦了婚禮，結(jié)果婚禮上绵脯，老公的妹妹穿的比我還像新娘佳励。我一直安慰自己，他們只是感情好蛆挫，可當我...
茶點故事閱讀 65,550評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布赃承。她就那樣靜靜地躺著，像睡著了一般悴侵。火紅的嫁衣襯著肌膚如雪瞧剖。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,806評論 1贊 290
城市分裂傳說
那天可免，我揣著相機與錄音抓于，去河邊找鬼。笑死浇借，一個胖子當著我的面吹牛捉撮，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播逮刨，決...
沈念sama閱讀 38,951評論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼呕缭，長吁一口氣：“原來是場噩夢啊……” “哼堵泽！你這毒婦竟也來了修己？” 一聲冷哼從身側(cè)響起恢总，我...
開封第一講書人閱讀 37,712評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎睬愤，沒想到半個月后片仿，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,166評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡尤辱，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,510評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年砂豌，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片光督。...
茶點故事閱讀 38,643評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡阳距，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出结借，到底是詐尸還是另有隱情筐摘，我是刑警寧澤，帶...
沈念sama閱讀 34,306評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布船老，位于F島的核電站咖熟，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏柳畔。R本人自食惡果不足惜馍管，卻給世界環(huán)境...
茶點故事閱讀 39,930評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望薪韩。院中可真熱鬧确沸，春花似錦、人聲如沸俘陷。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽岭洲。三九已至宛逗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間盾剩，已是汗流浹背雷激。一陣腳步聲響...
開封第一講書人閱讀 31,983評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留告私，地道東北人屎暇。一個月前我還...
沈念sama閱讀 46,351評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像驻粟，于是被迫代替她去往敵國和親根悼。傳聞我的和親對象是個殘疾皇子凶异，可洞房花燭夜當晚...
茶點故事閱讀 43,509評論 2贊 348