Efficient Video Object Segmentation via Network Modulation《CVPR》

摘要

  • 基于深度學(xué)習(xí)的方法實(shí)現(xiàn)了高精度,但是微調(diào)過(guò)程效率低并且不能滿足現(xiàn)實(shí)世界應(yīng)用的要求。本文提出了一種新方法,該方法使用單個(gè)前向傳遞來(lái)使分割模型適應(yīng)特定對(duì)象的外觀。 具體地刃泡,在給定目標(biāo)對(duì)象的有限視覺和空間信息的情況下,學(xué)習(xí)稱為調(diào)制器的第二元神經(jīng)網(wǎng)絡(luò)來(lái)操縱分割網(wǎng)絡(luò)的中間層碉怔。在保持和其他方法精確度相似下烘贴,速度快70倍。

引言

  • 以最小的監(jiān)督(例如撮胧,一個(gè)帶注釋的幀)執(zhí)行精確的像素級(jí)視頻分割的能力可以促進(jìn)大量的應(yīng)用桨踪,諸如用于視頻理解的精確對(duì)象跟蹤,交互式視頻編輯芹啥,增強(qiáng)現(xiàn)實(shí)和基于視頻的廣告等锻离。當(dāng)監(jiān)督僅限于一個(gè)帶注釋的框架時(shí),研究人員將此場(chǎng)景稱為一次性學(xué)習(xí)墓怀。近年來(lái)汽纠,用于視頻分割的一次性學(xué)習(xí)的興趣不斷增加。
  • 大多數(shù)這些工作都有類似的兩階段范式:首先傀履,培養(yǎng)一個(gè)通用目的完全卷積網(wǎng)絡(luò)(FCN)用于分割前景對(duì)象; 其次虱朵,根據(jù)視頻的第一幀微調(diào)這個(gè)網(wǎng)絡(luò),進(jìn)行數(shù)百次前后迭代钓账,使模型適應(yīng)特定的視頻序列碴犬。
  • 為了減輕半監(jiān)督分割的計(jì)算成本,我們提出了一種新方法梆暮,使通用分割網(wǎng)絡(luò)適應(yīng)單個(gè)前饋傳遞中特定對(duì)象實(shí)例的外觀服协。通過(guò)從被注釋對(duì)象的圖像和對(duì)象的空間先驗(yàn)中提取信息,調(diào)制器生成一個(gè)參數(shù)列表啦粹,這些參數(shù)被注入到分割模型中以進(jìn)行逐層特征操作偿荷。沒有一次微調(diào)窘游,我們的模型 能夠使用來(lái)自目標(biāo)對(duì)象的最少提取信息來(lái)改變分割網(wǎng)絡(luò)的行為。 我們將此過(guò)程稱為網(wǎng)絡(luò)調(diào)制跳纳。
  • 我們提出的模型是有效的忍饰,僅需要來(lái)自調(diào)制器的一個(gè)前向傳播來(lái)產(chǎn)生分割模型所需的所有參數(shù)以適應(yīng)特定的對(duì)象實(shí)例。由空間先驗(yàn)引導(dǎo)的網(wǎng)絡(luò)調(diào)制有助于模型即使存在多個(gè)類似實(shí)例也能跟蹤對(duì)象棒旗。 整個(gè)過(guò)程是可區(qū)分的喘批,可以使用標(biāo)準(zhǔn)隨機(jī)梯度descen進(jìn)行端到端學(xué)習(xí)撩荣。

相關(guān)工作

半監(jiān)督視頻分割 :半監(jiān)督視頻對(duì)象分割的目的是在整個(gè)視頻剩余部分跟蹤從第一注釋幀給出的對(duì)象掩碼铣揉。文獻(xiàn)中已經(jīng)提出了許多方法,包括傳播超像素餐曹、補(bǔ)丁逛拱、對(duì)象建議或在雙邊空間中的方法,并且通常執(zhí)行基于圖形模型的優(yōu)化以同時(shí)考慮多個(gè)幀台猴。
低學(xué)習(xí)的元學(xué)習(xí):目前深度學(xué)習(xí)的成功依賴于通過(guò)梯度下降優(yōu)化從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)的能力朽合。 但是,如果我們希望我們的模型能夠?qū)W習(xí)適應(yīng)許多環(huán)境的許多任務(wù)饱狂,那么從頭開始學(xué)習(xí)每個(gè)設(shè)置的每個(gè)任務(wù)是不可能的曹步。我們的方法與元學(xué)習(xí)共享相似之處,它學(xué)會(huì)了用另一個(gè)元學(xué)習(xí)器快速更新分割模型休讳。
網(wǎng)絡(luò)操縱:之前的幾項(xiàng)工作試圖結(jié)合模塊來(lái)操縱深度神經(jīng)網(wǎng)絡(luò)的行為讲婚,或者操縱數(shù)據(jù)的空間排列[16]或過(guò)濾連接[5]。 我們的方法也受到條件批量標(biāo)準(zhǔn)化[8,11,14,26]的強(qiáng)烈推動(dòng)俊柔,其中深度模型的行為由基于指導(dǎo)輸入的批量標(biāo)準(zhǔn)化參數(shù)操縱.

網(wǎng)絡(luò)架構(gòu)圖

基于網(wǎng)絡(luò)調(diào)制的視頻對(duì)象分割

  • 視頻對(duì)象分割有兩個(gè)重要提示:視覺外觀和空間連續(xù)運(yùn)動(dòng)筹麸。
    Conditional batch normalization:我們的方法受到最近使用條件批量歸一化(CBN)的工作的啟發(fā),其中每個(gè)批量歸一化層的規(guī)模和偏差參數(shù)由第二個(gè)控制器網(wǎng)絡(luò)產(chǎn)生

    Visual and spatial modulation:CBN層是特征圖上更一般的縮放和移位操作的特殊情況雏婶。 在每個(gè)卷積層之后物赶,我們定義一個(gè)新的調(diào)制層,其中包含由聯(lián)合訓(xùn)練的視覺和空間調(diào)制器生成的參數(shù)留晚。 我們?cè)O(shè)計(jì)了兩個(gè)調(diào)制器酵紫,使得視覺調(diào)制器產(chǎn)生通道方向尺度參數(shù)以調(diào)整特征圖中不同通道的權(quán)重,而空間調(diào)制器產(chǎn)生元素方向偏置參數(shù)以在調(diào)制特征之前注入空間错维。調(diào)制層可以表示為:
  • 全卷積主分割網(wǎng)絡(luò)憨闰,視覺調(diào)制器網(wǎng)絡(luò)和空間調(diào)制器網(wǎng)絡(luò)。 視覺調(diào)制器網(wǎng)絡(luò)是CNN需五,其將帶注釋的視覺對(duì)象圖像作為輸入并且為所有調(diào)制層產(chǎn)生尺度參數(shù)的矢量鹉动,而空間調(diào)制器網(wǎng)絡(luò)是基于空間先驗(yàn)輸入產(chǎn)生偏置參數(shù)的非常有效的網(wǎng)絡(luò)。
    Visual modulator:視覺調(diào)制器用于使分割網(wǎng)絡(luò)適應(yīng)于關(guān)注特定對(duì)象實(shí)例宏邮,該特定對(duì)象實(shí)例是第一幀中的注釋對(duì)象泽示。 為方便起見缸血,以下將注釋對(duì)象稱為視覺引導(dǎo)。視覺調(diào)制器從視覺指南中提取類別械筛、顏色捎泻、形狀和紋理等語(yǔ)義信息,并生成相應(yīng)的通道權(quán)重埋哟,從而重新獲得分割網(wǎng)絡(luò)以分割對(duì)象笆豁。我們使用VGG16神經(jīng)網(wǎng)絡(luò)作為視覺調(diào)制器的模型。我們修改其最后一層訓(xùn)練用于ImageNet分類赤赊,以匹配用于分割網(wǎng)絡(luò)的調(diào)制層中的參數(shù)數(shù)量闯狱。
  • 視覺調(diào)制器隱含地學(xué)習(xí)不同類型對(duì)象的嵌入。 它應(yīng)該產(chǎn)生類似的參數(shù)來(lái)調(diào)整類似對(duì)象的分割網(wǎng)絡(luò)抛计,同時(shí)為不同的對(duì)象調(diào)整不同的參數(shù)哄孤。調(diào)制器輸出的嵌入很好地與對(duì)象的外觀相關(guān)。使用這種視覺化調(diào)制器的一個(gè)大優(yōu)點(diǎn)是吹截,為了學(xué)習(xí)好的嵌入瘦陈,我們可以潛在地轉(zhuǎn)移利用大量對(duì)象類(例如ImageNet)學(xué)習(xí)的知識(shí),以便學(xué)習(xí)良好的嵌入.
    Spatial modulator:我們的空間調(diào)制器將圖像中對(duì)象的先前位置作為輸入波俄。 由于對(duì)象在視頻中連續(xù)移動(dòng)晨逝,我們將先前設(shè)置為前一幀中對(duì)象掩碼的預(yù)測(cè)位置。具體而言懦铺,我們將位置信息編碼為在圖像平面上具有二維高斯分布的熱圖捉貌。 高斯分布的中心和標(biāo)準(zhǔn)偏差是根據(jù)前一幀的預(yù)測(cè)掩模計(jì)算的。為方便起見阀趴,此熱圖在下文中稱為空間引導(dǎo)昏翰。空間調(diào)制器將空間指導(dǎo)下采樣到不同的比例刘急,以匹配分割網(wǎng)絡(luò)中的不同特征圖的分辨率棚菊,然后對(duì)每個(gè)下采樣的熱圖應(yīng)用縮放和移位操作以生成相應(yīng)調(diào)制層的偏置參數(shù)。
  • 我們認(rèn)為前一幀中的粗略位置和大小具有足夠的信息來(lái)推斷RGB圖像的對(duì)象掩模叔汁,并且它可以防止模型過(guò)度依賴掩模并因此導(dǎo)致錯(cuò)誤傳播统求,這可能是災(zāi)難性的。 當(dāng)對(duì)象在視頻中有大的移動(dòng)時(shí),而且也可以防止過(guò)度擬合据块。
    Implementation details:直觀地說(shuō)码邻,我們應(yīng)該在FCN中的每個(gè)卷積層之后添加調(diào)制層。 然而另假,我們發(fā)現(xiàn)在早期卷積層之間添加調(diào)制層實(shí)際上使模型表現(xiàn)更差像屋。一個(gè)可能的原因是早期層提取的低級(jí)特征對(duì)調(diào)制器引入的縮放和移位操作非常敏感。 在我們的實(shí)現(xiàn)中边篮,我們將調(diào)制操作添加到VGG16中的所有卷積層己莺,除了前四層奏甫,這導(dǎo)致九個(gè)調(diào)制層。
  • 為了對(duì)視覺調(diào)制器的輸入進(jìn)行預(yù)處理凌受,我們首先使用帶注釋的掩模裁剪對(duì)象阵子,然后將背景像素設(shè)置為平均圖像值,然后將裁剪后的圖像的大小調(diào)整為224×224的恒定分辨率胜蛉。對(duì)數(shù)據(jù)使用了增強(qiáng):10%的隨機(jī)縮放和10度的隨機(jī)旋轉(zhuǎn)挠进。為了對(duì)作為空間調(diào)制器輸入的空間引導(dǎo)進(jìn)行預(yù)處理,我們首先計(jì)算掩模的平均值和標(biāo)準(zhǔn)偏差誊册,然后用高達(dá)20%的隨機(jī)移位和40%的隨機(jī)縮放對(duì)掩模進(jìn)行擴(kuò)充领突。對(duì)于饋入FCN的整個(gè)圖像,我們使用從320, 400的隨機(jī)大小解虱,和480的正方形形狀攘须。
  • 視覺調(diào)制器和分割網(wǎng)絡(luò)都是用預(yù)先在ImageNet分類任務(wù)上構(gòu)建的VGG16模型初始化的漆撞。通過(guò)將視覺調(diào)制器的最后全連接層的權(quán)重和偏置分別設(shè)置為零和1殴泰,將調(diào)制參數(shù)r_c初始化為1「〔担空間調(diào)制器的權(quán)重隨機(jī)初始化悍汛。 我們使用相同的平衡交叉熵?fù)p失.
  • 使用Adam訓(xùn)練,beta1=0.9,beta2=0.999,首先訓(xùn)練10 epochs至会,lr=10e-5,然后再訓(xùn)練5 epoch离咐,lr=10e-6.
  • 此外,為了模擬視頻中移動(dòng)物體的外觀變化奉件,可以在視頻分割數(shù)據(jù)集(如DAVIS 2017)上對(duì)模型進(jìn)行微調(diào)宵蛀。為了對(duì)外觀變化更穩(wěn)健,我們隨機(jī)地從整個(gè)視頻序列中選擇前景對(duì)象作為每幀的視覺引導(dǎo)县貌∈跆眨空間引導(dǎo)是從前一幀中的物體的地面真相掩碼獲得的。

實(shí)驗(yàn)

Semisupervised Video Segmentation

  • 我們的模型有兩種變體煤痕,第一種只在靜態(tài)圖像上訓(xùn)練(第1階段)梧宫,第二種在視頻數(shù)據(jù)上精細(xì)化(第二階段)調(diào)制器對(duì)分割模型的自適應(yīng)是通過(guò)視覺調(diào)制器的一個(gè)前向傳播實(shí)現(xiàn)的,因此它比目標(biāo)視頻的模型微調(diào)方法更有效摆碉。視覺調(diào)制器只需要為整個(gè)視頻計(jì)算一次塘匣,而空間調(diào)制器需要針對(duì)每個(gè)幀進(jìn)行計(jì)算,但開銷可以忽略不計(jì)巷帝。由于分割模型的權(quán)重是固定的忌卤,因此精度增益僅來(lái)自調(diào)制器,這證明視覺調(diào)制器能夠通過(guò)操縱中間特征圖的比例來(lái)改善不同的模型結(jié)構(gòu)楞泼。
  • 我們的模型對(duì)于外觀變化更加穩(wěn)健驰徊,因?yàn)樗鼮樽⑨寣?duì)象學(xué)習(xí)了特征嵌入历谍,與單次微調(diào)相比,它更能容忍姿勢(shì)和外觀變化辣垒。我們的方法可以得到更精確的邊界望侈,部分原因是粗糙的空間先驗(yàn)迫使模型探索圖像上的更多線索而不是前一幀中的掩模。在未知的對(duì)象類中勋桶,工作的也很好脱衙。

Visualization of the modulation parameters

  • 一個(gè)有趣的觀察是,對(duì)于網(wǎng)絡(luò)的更深層次例驹,調(diào)制參數(shù)的變化變得更大捐韩。 這表明,在最后幾層中鹃锈,特征圖的操縱比在網(wǎng)絡(luò)的早期層中更為顯著荤胁。

Ablation Study

  • 從實(shí)驗(yàn)結(jié)果上看,視覺調(diào)制器比空間調(diào)制器更重要屎债。結(jié)果表明仅政,空間引導(dǎo)增強(qiáng)對(duì)性能的影響最顯著。在沒有擾動(dòng)的情況下盆驹,模型可能過(guò)于依賴于空間先驗(yàn)的位置而不能處理真實(shí)視頻序列中的運(yùn)動(dòng)對(duì)象圆丹。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市躯喇,隨后出現(xiàn)的幾起案子辫封,更是在濱河造成了極大的恐慌,老刑警劉巖廉丽,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件倦微,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡正压,警方通過(guò)查閱死者的電腦和手機(jī)欣福,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蔑匣,“玉大人劣欢,你說(shuō)我怎么就攤上這事〔昧迹” “怎么了凿将?”我有些...
    開封第一講書人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)价脾。 經(jīng)常有香客問(wèn)我牧抵,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任犀变,我火速辦了婚禮妹孙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘获枝。我一直安慰自己蠢正,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開白布省店。 她就那樣靜靜地躺著嚣崭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪懦傍。 梳的紋絲不亂的頭發(fā)上雹舀,一...
    開封第一講書人閱讀 52,682評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音粗俱,去河邊找鬼说榆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛寸认,可吹牛的內(nèi)容都是我干的签财。 我是一名探鬼主播,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼废麻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼荠卷!你這毒婦竟也來(lái)了模庐?” 一聲冷哼從身側(cè)響起烛愧,我...
    開封第一講書人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掂碱,沒想到半個(gè)月后怜姿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡疼燥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年沧卢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片醉者。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡但狭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出撬即,到底是詐尸還是另有隱情立磁,我是刑警寧澤,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布剥槐,位于F島的核電站唱歧,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜颅崩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一几于、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沿后,春花似錦沿彭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至熔掺,卻和暖如春饱搏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背置逻。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工推沸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人券坞。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓鬓催,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親恨锚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子宇驾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容