Efficient Video Object Segmentation via Network Modulation《CVPR》

摘要

基于深度學(xué)習(xí)的方法實(shí)現(xiàn)了高精度，但是微調(diào)過(guò)程效率低并且不能滿足現(xiàn)實(shí)世界應(yīng)用的要求。本文提出了一種新方法，該方法使用單個(gè)前向傳遞來(lái)使分割模型適應(yīng)特定對(duì)象的外觀。具體地刃泡，在給定目標(biāo)對(duì)象的有限視覺和空間信息的情況下，學(xué)習(xí)稱為調(diào)制器的第二元神經(jīng)網(wǎng)絡(luò)來(lái)操縱分割網(wǎng)絡(luò)的中間層碉怔。在保持和其他方法精確度相似下烘贴，速度快70倍。

引言

以最小的監(jiān)督（例如撮胧，一個(gè)帶注釋的幀）執(zhí)行精確的像素級(jí)視頻分割的能力可以促進(jìn)大量的應(yīng)用桨踪，諸如用于視頻理解的精確對(duì)象跟蹤，交互式視頻編輯芹啥，增強(qiáng)現(xiàn)實(shí)和基于視頻的廣告等锻离。當(dāng)監(jiān)督僅限于一個(gè)帶注釋的框架時(shí)，研究人員將此場(chǎng)景稱為一次性學(xué)習(xí)墓怀。近年來(lái)汽纠，用于視頻分割的一次性學(xué)習(xí)的興趣不斷增加。
大多數(shù)這些工作都有類似的兩階段范式：首先傀履，培養(yǎng)一個(gè)通用目的完全卷積網(wǎng)絡(luò)（FCN）用于分割前景對(duì)象; 其次虱朵，根據(jù)視頻的第一幀微調(diào)這個(gè)網(wǎng)絡(luò)，進(jìn)行數(shù)百次前后迭代钓账，使模型適應(yīng)特定的視頻序列碴犬。
為了減輕半監(jiān)督分割的計(jì)算成本，我們提出了一種新方法梆暮，使通用分割網(wǎng)絡(luò)適應(yīng)單個(gè)前饋傳遞中特定對(duì)象實(shí)例的外觀服协。通過(guò)從被注釋對(duì)象的圖像和對(duì)象的空間先驗(yàn)中提取信息，調(diào)制器生成一個(gè)參數(shù)列表啦粹，這些參數(shù)被注入到分割模型中以進(jìn)行逐層特征操作偿荷。沒有一次微調(diào)窘游，我們的模型能夠使用來(lái)自目標(biāo)對(duì)象的最少提取信息來(lái)改變分割網(wǎng)絡(luò)的行為。我們將此過(guò)程稱為網(wǎng)絡(luò)調(diào)制跳纳。
我們提出的模型是有效的忍饰，僅需要來(lái)自調(diào)制器的一個(gè)前向傳播來(lái)產(chǎn)生分割模型所需的所有參數(shù)以適應(yīng)特定的對(duì)象實(shí)例。由空間先驗(yàn)引導(dǎo)的網(wǎng)絡(luò)調(diào)制有助于模型即使存在多個(gè)類似實(shí)例也能跟蹤對(duì)象棒旗。整個(gè)過(guò)程是可區(qū)分的喘批，可以使用標(biāo)準(zhǔn)隨機(jī)梯度descen進(jìn)行端到端學(xué)習(xí)撩荣。

基于網(wǎng)絡(luò)調(diào)制的視頻對(duì)象分割

視頻對(duì)象分割有兩個(gè)重要提示：視覺外觀和空間連續(xù)運(yùn)動(dòng)筹麸。
Conditional batch normalization：我們的方法受到最近使用條件批量歸一化（CBN）的工作的啟發(fā)，其中每個(gè)批量歸一化層的規(guī)模和偏差參數(shù)由第二個(gè)控制器網(wǎng)絡(luò)產(chǎn)生

Visual and spatial modulation：CBN層是特征圖上更一般的縮放和移位操作的特殊情況雏婶。在每個(gè)卷積層之后物赶，我們定義一個(gè)新的調(diào)制層，其中包含由聯(lián)合訓(xùn)練的視覺和空間調(diào)制器生成的參數(shù)留晚。我們?cè)O(shè)計(jì)了兩個(gè)調(diào)制器酵紫，使得視覺調(diào)制器產(chǎn)生通道方向尺度參數(shù)以調(diào)整特征圖中不同通道的權(quán)重，而空間調(diào)制器產(chǎn)生元素方向偏置參數(shù)以在調(diào)制特征之前注入空間错维。調(diào)制層可以表示為：
全卷積主分割網(wǎng)絡(luò)憨闰，視覺調(diào)制器網(wǎng)絡(luò)和空間調(diào)制器網(wǎng)絡(luò)。視覺調(diào)制器網(wǎng)絡(luò)是CNN需五，其將帶注釋的視覺對(duì)象圖像作為輸入并且為所有調(diào)制層產(chǎn)生尺度參數(shù)的矢量鹉动，而空間調(diào)制器網(wǎng)絡(luò)是基于空間先驗(yàn)輸入產(chǎn)生偏置參數(shù)的非常有效的網(wǎng)絡(luò)。
Visual modulator：視覺調(diào)制器用于使分割網(wǎng)絡(luò)適應(yīng)于關(guān)注特定對(duì)象實(shí)例宏邮，該特定對(duì)象實(shí)例是第一幀中的注釋對(duì)象泽示。為方便起見缸血，以下將注釋對(duì)象稱為視覺引導(dǎo)。視覺調(diào)制器從視覺指南中提取類別械筛、顏色捎泻、形狀和紋理等語(yǔ)義信息，并生成相應(yīng)的通道權(quán)重埋哟，從而重新獲得分割網(wǎng)絡(luò)以分割對(duì)象笆豁。我們使用VGG16神經(jīng)網(wǎng)絡(luò)作為視覺調(diào)制器的模型。我們修改其最后一層訓(xùn)練用于ImageNet分類赤赊，以匹配用于分割網(wǎng)絡(luò)的調(diào)制層中的參數(shù)數(shù)量闯狱。
視覺調(diào)制器隱含地學(xué)習(xí)不同類型對(duì)象的嵌入。它應(yīng)該產(chǎn)生類似的參數(shù)來(lái)調(diào)整類似對(duì)象的分割網(wǎng)絡(luò)抛计，同時(shí)為不同的對(duì)象調(diào)整不同的參數(shù)哄孤。調(diào)制器輸出的嵌入很好地與對(duì)象的外觀相關(guān)。使用這種視覺化調(diào)制器的一個(gè)大優(yōu)點(diǎn)是吹截，為了學(xué)習(xí)好的嵌入瘦陈，我們可以潛在地轉(zhuǎn)移利用大量對(duì)象類（例如ImageNet）學(xué)習(xí)的知識(shí)，以便學(xué)習(xí)良好的嵌入.
Spatial modulator:我們的空間調(diào)制器將圖像中對(duì)象的先前位置作為輸入波俄。由于對(duì)象在視頻中連續(xù)移動(dòng)晨逝，我們將先前設(shè)置為前一幀中對(duì)象掩碼的預(yù)測(cè)位置。具體而言懦铺，我們將位置信息編碼為在圖像平面上具有二維高斯分布的熱圖捉貌。高斯分布的中心和標(biāo)準(zhǔn)偏差是根據(jù)前一幀的預(yù)測(cè)掩模計(jì)算的。為方便起見阀趴，此熱圖在下文中稱為空間引導(dǎo)昏翰。空間調(diào)制器將空間指導(dǎo)下采樣到不同的比例刘急，以匹配分割網(wǎng)絡(luò)中的不同特征圖的分辨率棚菊，然后對(duì)每個(gè)下采樣的熱圖應(yīng)用縮放和移位操作以生成相應(yīng)調(diào)制層的偏置參數(shù)。
我們認(rèn)為前一幀中的粗略位置和大小具有足夠的信息來(lái)推斷RGB圖像的對(duì)象掩模叔汁，并且它可以防止模型過(guò)度依賴掩模并因此導(dǎo)致錯(cuò)誤傳播统求，這可能是災(zāi)難性的。當(dāng)對(duì)象在視頻中有大的移動(dòng)時(shí),而且也可以防止過(guò)度擬合据块。
Implementation details：直觀地說(shuō)码邻，我們應(yīng)該在FCN中的每個(gè)卷積層之后添加調(diào)制層。然而另假，我們發(fā)現(xiàn)在早期卷積層之間添加調(diào)制層實(shí)際上使模型表現(xiàn)更差像屋。一個(gè)可能的原因是早期層提取的低級(jí)特征對(duì)調(diào)制器引入的縮放和移位操作非常敏感。在我們的實(shí)現(xiàn)中边篮，我們將調(diào)制操作添加到VGG16中的所有卷積層己莺，除了前四層奏甫，這導(dǎo)致九個(gè)調(diào)制層。
為了對(duì)視覺調(diào)制器的輸入進(jìn)行預(yù)處理凌受，我們首先使用帶注釋的掩模裁剪對(duì)象阵子，然后將背景像素設(shè)置為平均圖像值，然后將裁剪后的圖像的大小調(diào)整為224×224的恒定分辨率胜蛉。對(duì)數(shù)據(jù)使用了增強(qiáng)：10%的隨機(jī)縮放和10度的隨機(jī)旋轉(zhuǎn)挠进。為了對(duì)作為空間調(diào)制器輸入的空間引導(dǎo)進(jìn)行預(yù)處理，我們首先計(jì)算掩模的平均值和標(biāo)準(zhǔn)偏差誊册，然后用高達(dá)20％的隨機(jī)移位和40％的隨機(jī)縮放對(duì)掩模進(jìn)行擴(kuò)充领突。對(duì)于饋入FCN的整個(gè)圖像，我們使用從320, 400的隨機(jī)大小解虱，和480的正方形形狀攘须。
視覺調(diào)制器和分割網(wǎng)絡(luò)都是用預(yù)先在ImageNet分類任務(wù)上構(gòu)建的VGG16模型初始化的漆撞。通過(guò)將視覺調(diào)制器的最后全連接層的權(quán)重和偏置分別設(shè)置為零和1殴泰，將調(diào)制參數(shù)r_c初始化為1「〔担空間調(diào)制器的權(quán)重隨機(jī)初始化悍汛。我們使用相同的平衡交叉熵?fù)p失.
使用Adam訓(xùn)練，beta1=0.9,beta2=0.999,首先訓(xùn)練10 epochs至会，lr=10e-5,然后再訓(xùn)練5 epoch离咐，lr=10e-6.
此外，為了模擬視頻中移動(dòng)物體的外觀變化奉件，可以在視頻分割數(shù)據(jù)集（如DAVIS 2017）上對(duì)模型進(jìn)行微調(diào)宵蛀。為了對(duì)外觀變化更穩(wěn)健，我們隨機(jī)地從整個(gè)視頻序列中選擇前景對(duì)象作為每幀的視覺引導(dǎo)县貌∈跆眨空間引導(dǎo)是從前一幀中的物體的地面真相掩碼獲得的。

實(shí)驗(yàn)

Semisupervised Video Segmentation

我們的模型有兩種變體煤痕，第一種只在靜態(tài)圖像上訓(xùn)練（第1階段）梧宫，第二種在視頻數(shù)據(jù)上精細(xì)化（第二階段）調(diào)制器對(duì)分割模型的自適應(yīng)是通過(guò)視覺調(diào)制器的一個(gè)前向傳播實(shí)現(xiàn)的，因此它比目標(biāo)視頻的模型微調(diào)方法更有效摆碉。視覺調(diào)制器只需要為整個(gè)視頻計(jì)算一次塘匣，而空間調(diào)制器需要針對(duì)每個(gè)幀進(jìn)行計(jì)算，但開銷可以忽略不計(jì)巷帝。由于分割模型的權(quán)重是固定的忌卤，因此精度增益僅來(lái)自調(diào)制器，這證明視覺調(diào)制器能夠通過(guò)操縱中間特征圖的比例來(lái)改善不同的模型結(jié)構(gòu)楞泼。
我們的模型對(duì)于外觀變化更加穩(wěn)健驰徊，因?yàn)樗鼮樽⑨寣?duì)象學(xué)習(xí)了特征嵌入历谍，與單次微調(diào)相比，它更能容忍姿勢(shì)和外觀變化辣垒。我們的方法可以得到更精確的邊界望侈，部分原因是粗糙的空間先驗(yàn)迫使模型探索圖像上的更多線索而不是前一幀中的掩模。在未知的對(duì)象類中勋桶，工作的也很好脱衙。

Visualization of the modulation parameters

一個(gè)有趣的觀察是，對(duì)于網(wǎng)絡(luò)的更深層次例驹，調(diào)制參數(shù)的變化變得更大捐韩。這表明，在最后幾層中鹃锈，特征圖的操縱比在網(wǎng)絡(luò)的早期層中更為顯著荤胁。

Ablation Study

從實(shí)驗(yàn)結(jié)果上看，視覺調(diào)制器比空間調(diào)制器更重要屎债。結(jié)果表明仅政，空間引導(dǎo)增強(qiáng)對(duì)性能的影響最顯著。在沒有擾動(dòng)的情況下盆驹，模型可能過(guò)于依賴于空間先驗(yàn)的位置而不能處理真實(shí)視頻序列中的運(yùn)動(dòng)對(duì)象圆丹。

最后編輯于：2018.11.27 16:33:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市躯喇，隨后出現(xiàn)的幾起案子辫封，更是在濱河造成了極大的恐慌，老刑警劉巖廉丽，帶你破解...
沈念sama閱讀 222,590評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件倦微，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡正压，警方通過(guò)查閱死者的電腦和手機(jī)欣福，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,157評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蔑匣，“玉大人劣欢，你說(shuō)我怎么就攤上這事〔昧迹” “怎么了凿将？”我有些...
開封第一講書人閱讀 169,301評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)价脾。經(jīng)常有香客問(wèn)我牧抵，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,078評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任犀变，我火速辦了婚禮妹孙，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘获枝。我一直安慰自己蠢正，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,082評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布省店。她就那樣靜靜地躺著嚣崭，像睡著了一般。火紅的嫁衣襯著肌膚如雪懦傍。梳的紋絲不亂的頭發(fā)上雹舀，一...
開封第一講書人閱讀 52,682評(píng)論 1贊 312
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音粗俱，去河邊找鬼说榆。笑死，一個(gè)胖子當(dāng)著我的面吹牛寸认，可吹牛的內(nèi)容都是我干的签财。我是一名探鬼主播，決...
沈念sama閱讀 41,155評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼废麻，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼荠卷！你這毒婦竟也來(lái)了模庐？” 一聲冷哼從身側(cè)響起烛愧，我...
開封第一講書人閱讀 40,098評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎掂碱，沒想到半個(gè)月后怜姿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,638評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡疼燥，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,701評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年沧卢，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片醉者。...
茶點(diǎn)故事閱讀 40,852評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡但狭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出撬即，到底是詐尸還是另有隱情立磁，我是刑警寧澤，帶...
沈念sama閱讀 36,520評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布剥槐，位于F島的核電站唱歧，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜颅崩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,181評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一几于、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧沿后，春花似錦沿彭、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,674評(píng)論 0贊 25
一樁弒父案膝蜈，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至熔掺，卻和暖如春饱搏，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背置逻。一陣腳步聲響...
開封第一講書人閱讀 33,788評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工推沸，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人券坞。一個(gè)月前我還...
沈念sama閱讀 49,279評(píng)論 3贊 379
代替公主和親
正文我出身青樓鬓催，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親恨锚。傳聞我的和親對(duì)象是個(gè)殘疾皇子宇驾，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,851評(píng)論 2贊 361

Efficient Video Object Segmentation via Network Modulation《CVPR》

Efficient Video Object Segmentation via Network Modulation《CVPR》

摘要

引言

相關(guān)工作

基于網(wǎng)絡(luò)調(diào)制的視頻對(duì)象分割

實(shí)驗(yàn)

Semisupervised Video Segmentation

Visualization of the modulation parameters

Ablation Study

推薦閱讀更多精彩內(nèi)容