Image Caption,通常被翻譯為圖像描述茬射,也有人稱之為圖像標注槐沼,本章統(tǒng)一譯為圖像描述伍宦。圖像描述直觀地解釋就是從給定的圖像生成一段描述文字。下圖所示就是幾個圖像描述的例子,上面是圖像,下面是神經(jīng)網(wǎng)絡(luò)生成的相應(yīng)的描述。圖像描述是深度學習中十分有趣的一個研究方向走诞,也是計算機視覺的一個關(guān)鍵目標。對于圖像描述的任務(wù)蛤高,神經(jīng)網(wǎng)絡(luò)不僅要了解圖像中有哪些對象蚣旱,對象之間的關(guān)系,還要使用自然的語言來描述這些對象的關(guān)系戴陡,因此圖像描述比其他深度學習任務(wù)更有趣塞绿,也更有挑戰(zhàn)性。
圖像描述用到的數(shù)據(jù)集通常是MS COCO恤批,COCO數(shù)據(jù)集使用的是英文語料庫异吻,而在本章中,我們將使用2017年9月~12月舉辦的AI Challenger比賽中的“圖像中文描述”子任務(wù)的數(shù)據(jù)喜庞,帶讀者實現(xiàn)一個能夠看圖說話的神經(jīng)網(wǎng)絡(luò)诀浪。關(guān)于圖像中文描述比賽的更多信息,讀者可以訪問AI Challenger官網(wǎng)延都。
10.1 圖像描述介紹
對人來說雷猪,Image Caption是簡單而自然的一件事,但對機器來說晰房,這項任務(wù)充滿了挑戰(zhàn)性求摇。原因在于機器不僅要能檢測出圖像中的物體,還要理解物體之間的相關(guān)關(guān)系殊者,最后還要利用合理的語言表達出來与境。圖像描述吸引了許多研究人員的關(guān)注,除了它的趣味性外猖吴,還因為它具有廣闊的應(yīng)用前景摔刁,例如它可以幫助盲人“看到”真實世界發(fā)生的事情。
利用深度學習完成圖像描述的工作可以追溯到2014年百度研究院發(fā)表的《Explain Images with Multimodal Recurrent Neural Networks》論文距误。作者創(chuàng)造性地將深度卷積神經(jīng)網(wǎng)絡(luò)和深度循環(huán)網(wǎng)絡(luò)結(jié)合簸搞,用于解決圖像標注與圖像和語句檢索等問題”馕唬現(xiàn)在關(guān)于圖像描述更為人所熟知的是另一篇論文:《Show and Tell: A Neural Image Caption Generator》准潭。這篇論文提出的Caption模型如下圖所示。
Image是原始圖片域仇,左邊是GoogleLeNet刑然,實際使用中可以用任意的深度學習網(wǎng)絡(luò)結(jié)構(gòu)代替(如VGG或ResNet等),暇务,泼掠,怔软,……,是人工對圖片進行描述的語句择镇,例如“A dog is playing with a ball”挡逼,那么~就是這7個單詞。就是這幾個單詞對應(yīng)的詞向量腻豌。
論文中訓練的方法如下:
- 圖片經(jīng)過神經(jīng)網(wǎng)絡(luò)提取到圖片高層次的語義信息
- 將輸入到LSTM中家坎,并希望LSTM的輸出是
- 將輸入到LSTM中,并希望LSTM的輸出是
- 將輸入到LSTM中吝梅,并希望LSTM的輸出是
- 將輸入到LSTM中虱疏,并希望LSTM的輸出是
- 以此類推,將輸入到LSTM中苏携,并希望LSTM的輸出是
可以看出這個做法和第9章所講的利用CharRNN寫唐詩的原理很相似做瞪。如果讀者還沒有閱讀第9章的內(nèi)容,筆者強烈建議先閱讀它右冻,了解關(guān)于詞向量装蓬、RNN和CharRNN的相關(guān)知識。圖像描述的實現(xiàn)方法可以認為和生成唐詩一樣纱扭,只不過這個的第一個詞用圖像的信息來表示矛物。通過神經(jīng)網(wǎng)絡(luò)高層的輸出,我們可以獲得關(guān)于圖像的高層語義信息跪但。在論文中履羞,作者使用了預訓練好的GoogleLeNet獲取圖片在全連接分類層之前的輸出,作為圖像語義屡久。訓練的目標就是輸出的詞盡量和預期的詞相符忆首,所以圖像描述問題最終也變成了一個分類問題,利用LSTM不斷預測下一個最有可能出現(xiàn)的詞被环。
10.2 數(shù)據(jù)
10.2.1 數(shù)據(jù)介紹
AI Challenger圖像中文描述比賽的數(shù)據(jù)分為兩部分糙及,第一個部分是圖片,總共20萬張筛欢,第二部分是一個caption_train_annotations_20170902.json文件浸锨,它以json的格式保存每張圖片的描述,每個樣本的格式如下版姑,總共有20萬條這樣的樣本柱搜。
- url:圖片的下載地址(沒用,因為已經(jīng)提供了下載好的圖片)剥险。
- image_id:圖片的文件名聪蘸。
- caption:圖片對應(yīng)的五句描述。