騰訊AI Lab獲得計算機視覺權威賽事MSCOCO Captions冠軍

姓名:王正帥

學號:14020120007

轉載自:mp.weixin.qq.com/s ,有刪節(jié)

【嵌牛導讀】:2017 年 8 月,在圖像描述生成技術這一熱門的計算機視覺與 NLP 交叉研究領域,騰訊 AI Lab 憑借自主研發(fā)的強化學習算法在微軟 MS COCO 相關的 Image Captioning 任務上排名第一,超過了微軟财忽、谷歌、IBM 等參賽公司泣侮,體現(xiàn)了在這一 AI 前沿領域的技術優(yōu)勢即彪。

【嵌牛鼻子】:圖像描述生成技術、計算機視覺與 NLP活尊、騰訊 AI Lab

【嵌牛提問】:圖像描述生成技術的原理和應用是什么隶校?騰訊 AI Lab做了哪些工作?

【嵌牛正文】:

MS COCO (Microsoft Common Objects in Context蛹锰,常見物體圖像識別) 數(shù)據(jù)集(http://cocodataset.org/)是由微軟發(fā)布并維護的圖像數(shù)據(jù)集深胳。在這個數(shù)據(jù)集上,共有物體檢測 (Detection)铜犬、人體關鍵點檢測 (Keypoints)舞终、圖像分割 (Stuff)轻庆、圖像描述生成 (Captions) 四個類別的比賽任務。由于這些視覺任務是計算機視覺領域當前最受關注和最有代表性的敛劝,MS COCO 成為了圖像理解與分析方向最重要的標桿之一余爆。其中圖像描述生成任務 (Captions),需要同時對圖像與文本進行深度的理解與分析夸盟,相比其他三個任務更具有挑戰(zhàn)性蛾方,因此也吸引了更多的工業(yè)界(Google,IBM满俗,Microsoft)以及國際頂尖院校(UC Berkeley转捕、Stanford University)的參賽隊伍,迄今共有 80 個隊伍參與這項比賽唆垃。

通俗來說五芝,圖像描述生成(image captioning)研究的是使機器擁有人類理解圖像的能力,并用人類語言描述感知到的圖像內容辕万。圖像描述生成使得機器可以幫助有視覺障礙的人來理解圖像枢步,給圖像提供除了標簽(tag)以外更加豐富的描述,因此這項任務具有廣泛的實際意義渐尿。從學術研究的角度來說醉途,圖像描述生成的研究不僅僅需要理解圖像,更需要理解自然語言砖茸,是一個跨學科跨模態(tài)的交叉研究課題隘擎,也是對深度神經(jīng)網(wǎng)絡的學習能力向多個數(shù)據(jù)域擴展的一步重要的探索。因此凉夯,眾多科技企業(yè)和科研機構參與了此任務货葬,包括 Google [1][3]、Microsoft [5]劲够、IBM [2]震桶、Snapchat [4]、Montreal/Toronto University [6]征绎、UC Berkeley [7]蹲姐、 Stanford University [8]、百度 [9] 等人柿。


最近柴墩,騰訊 AI Lab 研發(fā)了新的強化學習算法(Reinforcement Learning)以進一步提高圖像描述生成的模型能力,如上圖所示凫岖。相應的圖像描述生成模型拐邪,采用了編碼器-解碼器(encoder-decoder)[1] 的框架,同時引入了注意力(attention)的機制 [3]隘截≡祝基于之前研究的空間和通道注意力模型(spatial and channel-wise attention)[10] 的研究成果, AI Lab 構建了新網(wǎng)絡模型引入了一個多階段的注意力機制(Multi-stage Attention)。編碼器婶芭,使用已有的圖像卷積神經(jīng)網(wǎng)絡(CNN)如 VGG东臀,Inception,ResNet 等犀农,將給定的圖像編碼成為蘊含圖像語義信息的向量惰赋。這些向量能夠表征圖像不同尺度的語義信息,譬如全局的語義呵哨、多尺度的局部語義赁濒。解碼器,使用當前最流行的長短時記憶模型(LSTM)孟害,將編碼器得到的圖像的全局和局部語義向量拒炎,解碼生成描述圖像內容的文本語句。正是在解碼的過程中挨务,AI Lab 創(chuàng)新性地使用了多階段的注意力機制:將圖像不同尺度的局部語義信息击你,通過不同階段的注意力模塊,嵌入到每一個單詞的生成過程中谎柄;同時注意力模塊需要考慮不同尺度引入的不同階段的注意力信號強弱丁侄。

除了引入多階段的注意力機制,AI Lab 所研發(fā)的強化學習算法能進一步提升構建的網(wǎng)絡模型的訓練效果朝巫。使用傳統(tǒng)的交叉熵(cross entropy)作為損失函數(shù)進行訓練鸿摇,無法充分地優(yōu)化圖像描述生成的衡量指標,譬如 BLEU劈猿,METEOR拙吉,ROUGE,CIDER糙臼,SPICE 等庐镐。這些衡量指標作為損失函數(shù)都是不可微的。針對此不可微的問題变逃,AI Lab 使用強化學習算法訓練網(wǎng)絡模型以優(yōu)化這些衡量指標必逆。訓練過程可概括為:給定一副圖像,通過深度網(wǎng)絡模型產生相應的語句揽乱,將相應的語句與標注語句比對以計算相應的衡量指標名眉;使用強化學習構建深度網(wǎng)絡模型的梯度信息,執(zhí)行梯度下降完成網(wǎng)絡的最終優(yōu)化凰棉。最終损拢,通過充分的訓練,騰訊 AI Lab 研發(fā)的圖像描述生成模型在微軟 MS COCO 的 Captions 任務上排名第一撒犀,超過了微軟福压、谷歌掏秩、IBM 等科技公司。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末荆姆,一起剝皮案震驚了整個濱河市蒙幻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胆筒,老刑警劉巖邮破,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異仆救,居然都是意外死亡抒和,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門彤蔽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來摧莽,“玉大人,你說我怎么就攤上這事铆惑》吨觯” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵员魏,是天一觀的道長丑蛤。 經(jīng)常有香客問我,道長撕阎,這世上最難降的妖魔是什么受裹? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮虏束,結果婚禮上棉饶,老公的妹妹穿的比我還像新娘。我一直安慰自己镇匀,他們只是感情好照藻,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汗侵,像睡著了一般幸缕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上晰韵,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天发乔,我揣著相機與錄音,去河邊找鬼雪猪。 笑死栏尚,一個胖子當著我的面吹牛,可吹牛的內容都是我干的只恨。 我是一名探鬼主播译仗,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼抬虽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了古劲?” 一聲冷哼從身側響起斥赋,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎产艾,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滑绒,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡闷堡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年疑故,在試婚紗的時候發(fā)現(xiàn)自己被綠了杠览。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡纵势,死狀恐怖踱阿,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情钦铁,我是刑警寧澤软舌,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站牛曹,受9級特大地震影響佛点,放射性物質發(fā)生泄漏。R本人自食惡果不足惜黎比,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一超营、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧阅虫,春花似錦演闭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至躲履,卻和暖如春见间,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背工猜。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工米诉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人篷帅。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓史侣,卻偏偏與公主長得像拴泌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子惊橱,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內容