論文學(xué)習(xí)9“Instance-aware Semantic Segmentation via Multi-task Network Cascades”文章學(xué)習(xí)

本文是何凱明發(fā)表于16年CVPR的文章触幼，文章主要講的是多任務(wù)學(xué)習(xí)在實(shí)例感知分割上的應(yīng)用。文章提出了多任務(wù)網(wǎng)絡(luò)Cascades磷脯，由實(shí)例區(qū)分顾翼、掩膜估計(jì)合愈、分類目標(biāo)三個(gè)任務(wù)級(jí)聯(lián)而成颅崩，在MS COCO 2015分割比賽中拿到了冠軍呻疹，結(jié)果優(yōu)于Faster RCNN桶略，下面對(duì)本文進(jìn)行分析。

本文的創(chuàng)新點(diǎn)在于雙線性插值實(shí)現(xiàn)ROI層诲宇，作者將ROI? POOLING層分解成ROI和max pooling兩層际歼，使得整個(gè)網(wǎng)絡(luò)的loss函數(shù)可微，實(shí)現(xiàn)端對(duì)端的訓(xùn)練姑蓝。

首先多任務(wù)學(xué)習(xí)鹅心，多任務(wù)學(xué)習(xí)是一種歸納遷移機(jī)制，主要目標(biāo)是利用隱含在多個(gè)相關(guān)任務(wù)的訓(xùn)練信號(hào)中的特定領(lǐng)域信息來提高泛化能力纺荧，多任務(wù)學(xué)習(xí)通過使用共享表示并行訓(xùn)練多個(gè)任務(wù)來完成這一目標(biāo)旭愧，可以減少模型過擬合的可能，基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)中常用兩種方法：隱層參數(shù)的硬共享與軟共享宙暇。（1）參數(shù)的硬共享機(jī)制：可以應(yīng)用到所有任務(wù)的所有隱層上输枯，而保留任務(wù)相關(guān)的輸出層。（2）參數(shù)的軟共享機(jī)制：每個(gè)任務(wù)都由自己的模型占贫，自己的參數(shù)桃熄。本文所采取的是硬共享機(jī)制。

本文的整體框架如下圖所示型奥，由實(shí)例區(qū)分瞳收、掩膜估計(jì)碉京、分類目標(biāo)級(jí)聯(lián)而成，每一個(gè)任務(wù)都依賴于前一個(gè)任務(wù)的輸出螟深。

分別從三個(gè)階段進(jìn)行介紹谐宙，第一個(gè)階段實(shí)例區(qū)分，此階段的輸入是卷積層產(chǎn)生的共享feature map界弧，在此之前經(jīng)過一個(gè)3*3的卷積層用于降維凡蜻，之后在RPN里經(jīng)過兩個(gè)1*1的卷積層用于生產(chǎn)推薦box。整體思想和Faster RCNN的RPN（Region Proposal Networks）一致垢箕，此階段的損失函數(shù)定義為L1咽瓷，則

B是該階段的網(wǎng)絡(luò)輸出，B = {Bi}舰讹，Bi?= {xi茅姜，yi，wi月匣，hi钻洒，pi}，其中{x锄开，y}是box的中心素标，{w，h}是box的寬和高萍悴，p是目標(biāo)概率头遭。

第二個(gè)階段掩膜估計(jì)，此階段輸入是第一階段的box和共享卷積特征癣诱，如上圖计维，輸出是像素級(jí)別的分割掩膜。文章用ROI pooling提取box中的特征撕予，同時(shí)將特征圖轉(zhuǎn)化到特定大小鲫惶，然后是兩個(gè)全連接層，第一個(gè)全連接層將特征維度降低到256实抡，第二個(gè)全連接層回歸像素級(jí)的mask欠母，由m2維矢量參數(shù)化，此層有m2個(gè)輸出吆寨，每個(gè)輸出執(zhí)行對(duì)掩模的二進(jìn)制logistic回歸赏淌。因?yàn)榇穗A段輸入有第一階段的box，所以loss函數(shù)也會(huì)受第一階段限制啄清，此階段loss函數(shù)為：

M ={Mi} 是本階段輸出六水，[0,1]之內(nèi)。此階段的ROI pooling扮演著max?pooling等角色，所以使得L2不可微缩擂，后文會(huì)介紹解決方法。

第三階段分類目標(biāo)添寺，此階段輸入是共享特征胯盯，第一階段產(chǎn)生的bouding box 和第二階段產(chǎn)生的mask，輸出為每個(gè)實(shí)例的分類得分计露。由模型圖可知博脑，此階段的輸入是經(jīng)過ROI pooling處理過的特征，所以掩膜的特征可由如下線性函數(shù)表示：

其中FRoI(Θ)?表示經(jīng)過RoI pooling 提取的box的特征票罐。然后作者考慮同時(shí)使用masked feature 和 box-based feature叉趣。通過兩個(gè)4096*的全連接層通過softmax分類器預(yù)測(cè)N+1（1為背景）種類。定義此階段的loss函數(shù)為：

C為此階段的輸出该押，代表所有實(shí)例的類別預(yù)測(cè)列表疗杉，此階段的loss受限于前兩個(gè)階段的結(jié)果。

根據(jù)以上各個(gè)階段的loss函數(shù)蚕礼，最終模型的loss函數(shù)定義為：

對(duì)于上述函數(shù)烟具，想要使用鏈?zhǔn)椒▌t進(jìn)行反向傳播，需要每一部分都是可微的奠蹬，而前文我已提到朝聋，RoI pooling的變化是不可微的，所以作者將ROI pooling分成一個(gè)可微的RoI Warping層和pooling層囤躁，在這之間完成特定的映射冀痕。

RoI Warping層，針對(duì)上文所提到的映射狸演，文章采用雙線性插值的方法言蛇，將給定的寬度wi(Θ)和高度hi(Θ)為中心在(xi(Θ)，yi(Θ))處的預(yù)測(cè)框Bi(Θ)的特征映射成：

這里就將n（n=W*H）維向量轉(zhuǎn)化為

維,FRoI為RoI Warping層維的向量輸出宵距。針對(duì)每個(gè)獨(dú)立通道猜极，上式可以轉(zhuǎn)化為：

是指在目標(biāo)特征圖里的位置，即映射之后的結(jié)果消玄，而u, v要遍歷原特征圖跟伏。G函數(shù)是使用雙線性插值法將Bi從

變化成

尺寸大小，G可以拆分為：

其中翩瓜，

將uo映射到全局圖像受扳，高類似：

現(xiàn)在對(duì)于L2，進(jìn)行BP算法就可以轉(zhuǎn)化為：

即可運(yùn)用之前的公式求得兔跌。

在 RoI Warping層之后添加一個(gè)max pooling層勘高，那么 RoI Warping層的輸出設(shè)置為28*28，則max pooling層就可以輸出7*7的特征圖喂給VGG網(wǎng)絡(luò)。自此华望，網(wǎng)絡(luò)就可以完成 End-to-End的訓(xùn)練蕊蝗。

改進(jìn)：作者在三層網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)為5個(gè)階段，其中4赖舟、5階段內(nèi)容與2蓬戚、3階段類似，結(jié)構(gòu)如下圖宾抓。

實(shí)驗(yàn)：

細(xì)節(jié)：1）第一階段采用非最大值抑制的方法生成300個(gè)box用于第二階段子漩，非最大值抑制的IOU閾值設(shè)置為0.7。2）在ImageNet上進(jìn)行預(yù)訓(xùn)練3）第二石洗、三階段的IOU設(shè)置為0.5幢泼。

PASCAL VOC 2012：作者在ImageNet上預(yù)訓(xùn)練之后，針對(duì)是否共享特征讲衫，是否端對(duì)端的訓(xùn)練和階段數(shù)的問題在兩個(gè)模型上進(jìn)行實(shí)驗(yàn)缕棵，結(jié)果如下表所示：

下表是本文方法與其他方法的對(duì)比，可以看出本文所提出的級(jí)聯(lián)網(wǎng)絡(luò)不僅性能提升涉兽，而且時(shí)間大大減小挥吵。

針對(duì)訓(xùn)練時(shí)間，作者對(duì)每一個(gè)階段所花費(fèi)的時(shí)間進(jìn)行計(jì)算花椭，結(jié)果如下表所示：

針對(duì)目標(biāo)檢測(cè)問題忽匈，作者將本文方法與Faster RCNN系列方法進(jìn)行對(duì)比，結(jié)果如下表矿辽，表明本文的級(jí)聯(lián)結(jié)構(gòu)優(yōu)于Faster RCNN系列方法丹允。

MS COCO：在該數(shù)據(jù)集上作者用VGG-16和ResNet-101進(jìn)行實(shí)驗(yàn)，評(píng)估標(biāo)準(zhǔn)的COCO指標(biāo)（mAPr @ IoU = [0.5：0.95]）和PASCAL指標(biāo)（mAPr @ IoU = 0.5）袋倔，結(jié)果如下表：

下圖是一些結(jié)果圖雕蔽。

最后編輯于：2018.01.22 21:23:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市宾娜，隨后出現(xiàn)的幾起案子批狐，更是在濱河造成了極大的恐慌，老刑警劉巖前塔，帶你破解...
沈念sama閱讀 217,826評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嚣艇，死亡現(xiàn)場離奇詭異，居然都是意外死亡华弓，警方通過查閱死者的電腦和手機(jī)食零，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來寂屏，“玉大人贰谣，你說我怎么就攤上這事娜搂。” “怎么了吱抚？”我有些...
開封第一講書人閱讀 164,234評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵百宇，是天一觀的道長。經(jīng)常有香客問我秘豹，道長携御，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,562評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任憋肖，我火速辦了婚禮因痛，結(jié)果婚禮上婚苹，老公的妹妹穿的比我還像新娘岸更。我一直安慰自己，他們只是感情好膊升，可當(dāng)我...
茶點(diǎn)故事閱讀 67,611評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布怎炊。她就那樣靜靜地躺著，像睡著了一般廓译。火紅的嫁衣襯著肌膚如雪评肆。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,482評(píng)論 1贊 302
城市分裂傳說
那天非区，我揣著相機(jī)與錄音瓜挽，去河邊找鬼。笑死征绸，一個(gè)胖子當(dāng)著我的面吹牛久橙，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播管怠，決...
沈念sama閱讀 40,271評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼淆衷，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了渤弛？” 一聲冷哼從身側(cè)響起祝拯，我...
開封第一講書人閱讀 39,166評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎她肯，沒想到半個(gè)月后佳头，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡晴氨，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,814評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年畜晰，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑞筐。...
茶點(diǎn)故事閱讀 39,926評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡凄鼻，死狀恐怖腊瑟，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情块蚌，我是刑警寧澤闰非，帶...
沈念sama閱讀 35,644評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站峭范，受9級(jí)特大地震影響财松，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜纱控，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,249評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一辆毡、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧甜害，春花似錦舶掖、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,866評(píng)論 0贊 22
一樁弒父案眨攘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至嚣州，卻和暖如春鲫售，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背该肴。一陣腳步聲響...
開封第一講書人閱讀 32,991評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工情竹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人匀哄。一個(gè)月前我還...
沈念sama閱讀 48,063評(píng)論 3贊 370
代替公主和親
正文我出身青樓秦效，卻偏偏與公主長得像，于是被迫代替她去往敵國和親拱雏。傳聞我的和親對(duì)象是個(gè)殘疾皇子棉安，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,871評(píng)論 2贊 354

論文學(xué)習(xí)9“Instance-aware Semantic Segmentation via Multi-task Network Cascades”文章學(xué)習(xí)

推薦閱讀更多精彩內(nèi)容