論文學(xué)習(xí)9“Instance-aware Semantic Segmentation via Multi-task Network Cascades”文章學(xué)習(xí)

論文:https://arxiv.org/abs/1512.04412

代碼: https://github.com/daijifeng001/MNC

本文是何凱明發(fā)表于16年CVPR的文章触幼,文章主要講的是多任務(wù)學(xué)習(xí)在實(shí)例感知分割上的應(yīng)用。文章提出了多任務(wù)網(wǎng)絡(luò)Cascades磷脯,由實(shí)例區(qū)分顾翼、掩膜估計(jì)合愈、分類目標(biāo)三個(gè)任務(wù)級(jí)聯(lián)而成颅崩,在MS COCO 2015分割比賽中拿到了冠軍呻疹,結(jié)果優(yōu)于Faster RCNN桶略,下面對(duì)本文進(jìn)行分析。

本文的創(chuàng)新點(diǎn)在于雙線性插值實(shí)現(xiàn)ROI層诲宇,作者將ROI? POOLING層分解成ROI和max pooling兩層际歼,使得整個(gè)網(wǎng)絡(luò)的loss函數(shù)可微,實(shí)現(xiàn)端對(duì)端的訓(xùn)練姑蓝。

首先多任務(wù)學(xué)習(xí)鹅心,多任務(wù)學(xué)習(xí)是一種歸納遷移機(jī)制,主要目標(biāo)是利用隱含在多個(gè)相關(guān)任務(wù)的訓(xùn)練信號(hào)中的特定領(lǐng)域信息來提高泛化能力纺荧,多任務(wù)學(xué)習(xí)通過使用共享表示并行訓(xùn)練多個(gè)任務(wù)來完成這一目標(biāo)旭愧,可以減少模型過擬合的可能,基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)中常用兩種方法:隱層參數(shù)的硬共享與軟共享宙暇。(1)參數(shù)的硬共享機(jī)制:可以應(yīng)用到所有任務(wù)的所有隱層上输枯,而保留任務(wù)相關(guān)的輸出層。(2)參數(shù)的軟共享機(jī)制:每個(gè)任務(wù)都由自己的模型占贫,自己的參數(shù)桃熄。本文所采取的是硬共享機(jī)制。

本文的整體框架如下圖所示型奥,由實(shí)例區(qū)分瞳收、掩膜估計(jì)碉京、分類目標(biāo)級(jí)聯(lián)而成,每一個(gè)任務(wù)都依賴于前一個(gè)任務(wù)的輸出螟深。

分別從三個(gè)階段進(jìn)行介紹谐宙,第一個(gè)階段實(shí)例區(qū)分,此階段的輸入是卷積層產(chǎn)生的共享feature map界弧,在此之前經(jīng)過一個(gè)3*3的卷積層用于降維凡蜻,之后在RPN里經(jīng)過兩個(gè)1*1的卷積層用于生產(chǎn)推薦box。整體思想和Faster RCNN的RPN(Region Proposal Networks)一致垢箕,此階段的損失函數(shù)定義為L1咽瓷,則

B是該階段的網(wǎng)絡(luò)輸出,B = {Bi}舰讹,Bi?= {xi茅姜,yi,wi月匣,hi钻洒,pi},其中{x锄开,y}是box的中心素标,{w,h}是box的寬和高萍悴,p是目標(biāo)概率头遭。

第二個(gè)階段掩膜估計(jì),此階段輸入是第一階段的box和共享卷積特征癣诱,如上圖计维,輸出是像素級(jí)別的分割掩膜。文章用ROI pooling提取box中的特征撕予,同時(shí)將特征圖轉(zhuǎn)化到特定大小鲫惶,然后是兩個(gè)全連接層,第一個(gè)全連接層將特征維度降低到256实抡,第二個(gè)全連接層回歸像素級(jí)的mask欠母,由m2維矢量參數(shù)化,此層有m2個(gè)輸出吆寨,每個(gè)輸出執(zhí)行對(duì)掩模的二進(jìn)制logistic回歸赏淌。因?yàn)榇穗A段輸入有第一階段的box,所以loss函數(shù)也會(huì)受第一階段限制啄清,此階段loss函數(shù)為:

M ={Mi} 是本階段輸出六水,[0,1]之內(nèi)。此階段的ROI pooling扮演著max?pooling等角色,所以使得L2不可微缩擂,后文會(huì)介紹解決方法。

第三階段分類目標(biāo)添寺,此階段輸入是共享特征胯盯,第一階段產(chǎn)生的bouding box 和第二階段產(chǎn)生的mask,輸出為每個(gè)實(shí)例的分類得分计露。由模型圖可知博脑,此階段的輸入是經(jīng)過ROI pooling處理過的特征,所以掩膜的特征可由如下線性函數(shù)表示:

其中FRoI(Θ)?表示經(jīng)過RoI pooling 提取的box的特征票罐。然后作者考慮同時(shí)使用masked feature 和 box-based feature叉趣。通過兩個(gè)4096*的全連接層通過softmax分類器預(yù)測(cè)N+1(1為背景)種類。定義此階段的loss函數(shù)為:

C為此階段的輸出该押,代表所有實(shí)例的類別預(yù)測(cè)列表疗杉,此階段的loss受限于前兩個(gè)階段的結(jié)果。

根據(jù)以上各個(gè)階段的loss函數(shù)蚕礼,最終模型的loss函數(shù)定義為:

對(duì)于上述函數(shù)烟具,想要使用鏈?zhǔn)椒▌t進(jìn)行反向傳播,需要每一部分都是可微的奠蹬,而前文我已提到朝聋,RoI pooling的變化是不可微的,所以作者將ROI pooling分成一個(gè)可微的RoI Warping層和pooling層囤躁,在這之間完成特定的映射冀痕。

RoI Warping層,針對(duì)上文所提到的映射狸演,文章采用雙線性插值的方法言蛇,將給定的寬度wi(Θ)和高度hi(Θ)為中心在(xi(Θ),yi(Θ))處的預(yù)測(cè)框Bi(Θ)的特征映射成:

這里就將n(n=W*H)維向量轉(zhuǎn)化為

維,FRoI為RoI Warping層維的向量輸出宵距。針對(duì)每個(gè)獨(dú)立通道猜极,上式可以轉(zhuǎn)化為:


是指在目標(biāo)特征圖里的位置,即映射之后的結(jié)果消玄,而u, v要遍歷原特征圖跟伏。G函數(shù)是使用雙線性插值法將Bi從

變化成

尺寸大小,G可以拆分為:

其中翩瓜,


將uo映射到全局圖像受扳,高類似:

現(xiàn)在對(duì)于L2,進(jìn)行BP算法就可以轉(zhuǎn)化為:

即可運(yùn)用之前的公式求得兔跌。

在 RoI Warping層之后添加一個(gè)max pooling層勘高,那么 RoI Warping層的輸出設(shè)置為28*28,則max pooling層就可以輸出7*7的特征圖喂給VGG網(wǎng)絡(luò)。自此华望,網(wǎng)絡(luò)就可以完成 End-to-End的訓(xùn)練蕊蝗。

改進(jìn):作者在三層網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)為5個(gè)階段,其中4赖舟、5階段內(nèi)容與2蓬戚、3階段類似,結(jié)構(gòu)如下圖宾抓。

實(shí)驗(yàn):

細(xì)節(jié):1)第一階段采用非最大值抑制的方法生成300個(gè)box用于第二階段子漩,非最大值抑制的IOU閾值設(shè)置為0.7。2)在ImageNet上進(jìn)行預(yù)訓(xùn)練3)第二石洗、三階段的IOU設(shè)置為0.5幢泼。

PASCAL VOC 2012:作者在ImageNet上預(yù)訓(xùn)練之后,針對(duì)是否共享特征讲衫,是否端對(duì)端的訓(xùn)練和階段數(shù)的問題在兩個(gè)模型上進(jìn)行實(shí)驗(yàn)缕棵,結(jié)果如下表所示:

下表是本文方法與其他方法的對(duì)比,可以看出本文所提出的級(jí)聯(lián)網(wǎng)絡(luò)不僅性能提升涉兽,而且時(shí)間大大減小挥吵。

針對(duì)訓(xùn)練時(shí)間,作者對(duì)每一個(gè)階段所花費(fèi)的時(shí)間進(jìn)行計(jì)算花椭,結(jié)果如下表所示:

針對(duì)目標(biāo)檢測(cè)問題忽匈,作者將本文方法與Faster RCNN系列方法進(jìn)行對(duì)比,結(jié)果如下表矿辽,表明本文的級(jí)聯(lián)結(jié)構(gòu)優(yōu)于Faster RCNN系列方法丹允。

MS COCO:在該數(shù)據(jù)集上作者用VGG-16和ResNet-101進(jìn)行實(shí)驗(yàn),評(píng)估標(biāo)準(zhǔn)的COCO指標(biāo)(mAPr @ IoU = [0.5:0.95])和PASCAL指標(biāo)(mAPr @ IoU = 0.5)袋倔,結(jié)果如下表:

下圖是一些結(jié)果圖雕蔽。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市宾娜,隨后出現(xiàn)的幾起案子批狐,更是在濱河造成了極大的恐慌,老刑警劉巖前塔,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚣艇,死亡現(xiàn)場離奇詭異,居然都是意外死亡华弓,警方通過查閱死者的電腦和手機(jī)食零,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來寂屏,“玉大人贰谣,你說我怎么就攤上這事娜搂。” “怎么了吱抚?”我有些...
    開封第一講書人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵百宇,是天一觀的道長。 經(jīng)常有香客問我秘豹,道長携御,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任憋肖,我火速辦了婚禮因痛,結(jié)果婚禮上婚苹,老公的妹妹穿的比我還像新娘岸更。我一直安慰自己,他們只是感情好膊升,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開白布怎炊。 她就那樣靜靜地躺著,像睡著了一般廓译。 火紅的嫁衣襯著肌膚如雪评肆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,482評(píng)論 1 302
  • 那天非区,我揣著相機(jī)與錄音瓜挽,去河邊找鬼。 笑死征绸,一個(gè)胖子當(dāng)著我的面吹牛久橙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播管怠,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼淆衷,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了渤弛?” 一聲冷哼從身側(cè)響起祝拯,我...
    開封第一講書人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎她肯,沒想到半個(gè)月后佳头,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晴氨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年畜晰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑞筐。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡凄鼻,死狀恐怖腊瑟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情块蚌,我是刑警寧澤闰非,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站峭范,受9級(jí)特大地震影響财松,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜纱控,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一辆毡、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧甜害,春花似錦舶掖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嚣州,卻和暖如春鲫售,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背该肴。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來泰國打工情竹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人匀哄。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓秦效,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拱雏。 傳聞我的和親對(duì)象是個(gè)殘疾皇子棉安,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容