深度學習框架PyTorch入門與實踐:第十章 Image Caption:讓神經(jīng)網(wǎng)絡(luò)看圖講故事

Image Caption,通常被翻譯為圖像描述茬射,也有人稱之為圖像標注槐沼,本章統(tǒng)一譯為圖像描述伍宦。圖像描述直觀地解釋就是從給定的圖像生成一段描述文字。下圖所示就是幾個圖像描述的例子,上面是圖像,下面是神經(jīng)網(wǎng)絡(luò)生成的相應(yīng)的描述。圖像描述是深度學習中十分有趣的一個研究方向走诞,也是計算機視覺的一個關(guān)鍵目標。對于圖像描述的任務(wù)蛤高,神經(jīng)網(wǎng)絡(luò)不僅要了解圖像中有哪些對象蚣旱,對象之間的關(guān)系,還要使用自然的語言來描述這些對象的關(guān)系戴陡,因此圖像描述比其他深度學習任務(wù)更有趣塞绿,也更有挑戰(zhàn)性。

image.png

圖像描述用到的數(shù)據(jù)集通常是MS COCO恤批,COCO數(shù)據(jù)集使用的是英文語料庫异吻,而在本章中,我們將使用2017年9月~12月舉辦的AI Challenger比賽中的“圖像中文描述”子任務(wù)的數(shù)據(jù)喜庞,帶讀者實現(xiàn)一個能夠看圖說話的神經(jīng)網(wǎng)絡(luò)诀浪。關(guān)于圖像中文描述比賽的更多信息,讀者可以訪問AI Challenger官網(wǎng)延都。

10.1 圖像描述介紹

對人來說雷猪,Image Caption是簡單而自然的一件事,但對機器來說晰房,這項任務(wù)充滿了挑戰(zhàn)性求摇。原因在于機器不僅要能檢測出圖像中的物體,還要理解物體之間的相關(guān)關(guān)系殊者,最后還要利用合理的語言表達出來与境。圖像描述吸引了許多研究人員的關(guān)注,除了它的趣味性外猖吴,還因為它具有廣闊的應(yīng)用前景摔刁,例如它可以幫助盲人“看到”真實世界發(fā)生的事情。

利用深度學習完成圖像描述的工作可以追溯到2014年百度研究院發(fā)表的《Explain Images with Multimodal Recurrent Neural Networks》論文距误。作者創(chuàng)造性地將深度卷積神經(jīng)網(wǎng)絡(luò)和深度循環(huán)網(wǎng)絡(luò)結(jié)合簸搞,用于解決圖像標注與圖像和語句檢索等問題”馕唬現(xiàn)在關(guān)于圖像描述更為人所熟知的是另一篇論文:《Show and Tell: A Neural Image Caption Generator》准潭。這篇論文提出的Caption模型如下圖所示。

image.png

Image是原始圖片域仇,左邊是GoogleLeNet刑然,實際使用中可以用任意的深度學習網(wǎng)絡(luò)結(jié)構(gòu)代替(如VGG或ResNet等),S_0暇务,S_1泼掠,S_2怔软,……,S_N是人工對圖片進行描述的語句择镇,例如“A dog is playing with a ball”挡逼,那么S_0~S_6就是這7個單詞。W_eS_n就是這幾個單詞對應(yīng)的詞向量腻豌。

論文中訓練的方法如下:

  • 圖片經(jīng)過神經(jīng)網(wǎng)絡(luò)提取到圖片高層次的語義信息f
  • f輸入到LSTM中家坎,并希望LSTM的輸出是S_0
  • S_0輸入到LSTM中,并希望LSTM的輸出是S_1
  • S_1輸入到LSTM中吝梅,并希望LSTM的輸出是S_2
  • S_2輸入到LSTM中虱疏,并希望LSTM的輸出是S_3
  • 以此類推,將S_{N-1}輸入到LSTM中苏携,并希望LSTM的輸出是S_N

可以看出這個做法和第9章所講的利用CharRNN寫唐詩的原理很相似做瞪。如果讀者還沒有閱讀第9章的內(nèi)容,筆者強烈建議先閱讀它右冻,了解關(guān)于詞向量装蓬、RNN和CharRNN的相關(guān)知識。圖像描述的實現(xiàn)方法可以認為和生成唐詩一樣纱扭,只不過這個的第一個詞用圖像的信息來表示矛物。通過神經(jīng)網(wǎng)絡(luò)高層的輸出,我們可以獲得關(guān)于圖像的高層語義信息跪但。在論文中履羞,作者使用了預訓練好的GoogleLeNet獲取圖片在全連接分類層之前的輸出,作為圖像語義屡久。訓練的目標就是輸出的詞盡量和預期的詞相符忆首,所以圖像描述問題最終也變成了一個分類問題,利用LSTM不斷預測下一個最有可能出現(xiàn)的詞被环。

10.2 數(shù)據(jù)

10.2.1 數(shù)據(jù)介紹

AI Challenger圖像中文描述比賽的數(shù)據(jù)分為兩部分糙及,第一個部分是圖片,總共20萬張筛欢,第二部分是一個caption_train_annotations_20170902.json文件浸锨,它以json的格式保存每張圖片的描述,每個樣本的格式如下版姑,總共有20萬條這樣的樣本柱搜。

  • url:圖片的下載地址(沒用,因為已經(jīng)提供了下載好的圖片)剥险。
  • image_id:圖片的文件名聪蘸。
  • caption:圖片對應(yīng)的五句描述。
10.2.2 圖像數(shù)據(jù)處理
10.2.3 數(shù)據(jù)加載
10.2.4 實驗結(jié)果分析
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市健爬,隨后出現(xiàn)的幾起案子控乾,更是在濱河造成了極大的恐慌,老刑警劉巖娜遵,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜕衡,死亡現(xiàn)場離奇詭異,居然都是意外死亡设拟,警方通過查閱死者的電腦和手機衷咽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒜绽,“玉大人镶骗,你說我怎么就攤上這事《阊牛” “怎么了鼎姊?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長相赁。 經(jīng)常有香客問我相寇,道長,這世上最難降的妖魔是什么钮科? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任唤衫,我火速辦了婚禮,結(jié)果婚禮上绵脯,老公的妹妹穿的比我還像新娘佳励。我一直安慰自己,他們只是感情好蛆挫,可當我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布赃承。 她就那樣靜靜地躺著,像睡著了一般悴侵。 火紅的嫁衣襯著肌膚如雪瞧剖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天可免,我揣著相機與錄音抓于,去河邊找鬼。 笑死浇借,一個胖子當著我的面吹牛捉撮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播逮刨,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼呕缭,長吁一口氣:“原來是場噩夢啊……” “哼堵泽!你這毒婦竟也來了修己?” 一聲冷哼從身側(cè)響起恢总,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎睬愤,沒想到半個月后片仿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡尤辱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年砂豌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片光督。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡阳距,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出结借,到底是詐尸還是另有隱情筐摘,我是刑警寧澤,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布船老,位于F島的核電站咖熟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏柳畔。R本人自食惡果不足惜馍管,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望薪韩。 院中可真熱鬧确沸,春花似錦、人聲如沸俘陷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽岭洲。三九已至宛逗,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間盾剩,已是汗流浹背雷激。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留告私,地道東北人屎暇。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像驻粟,于是被迫代替她去往敵國和親根悼。 傳聞我的和親對象是個殘疾皇子凶异,可洞房花燭夜當晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容