摘要
- 基于深度學(xué)習(xí)的方法實(shí)現(xiàn)了高精度,但是微調(diào)過(guò)程效率低并且不能滿足現(xiàn)實(shí)世界應(yīng)用的要求。本文提出了一種新方法,該方法使用單個(gè)前向傳遞來(lái)使分割模型適應(yīng)特定對(duì)象的外觀。 具體地刃泡,在給定目標(biāo)對(duì)象的有限視覺和空間信息的情況下,學(xué)習(xí)稱為調(diào)制器的第二元神經(jīng)網(wǎng)絡(luò)來(lái)操縱分割網(wǎng)絡(luò)的中間層碉怔。在保持和其他方法精確度相似下烘贴,速度快70倍。
引言
- 以最小的監(jiān)督(例如撮胧,一個(gè)帶注釋的幀)執(zhí)行精確的像素級(jí)視頻分割的能力可以促進(jìn)大量的應(yīng)用桨踪,諸如用于視頻理解的精確對(duì)象跟蹤,交互式視頻編輯芹啥,增強(qiáng)現(xiàn)實(shí)和基于視頻的廣告等锻离。當(dāng)監(jiān)督僅限于一個(gè)帶注釋的框架時(shí),研究人員將此場(chǎng)景稱為一次性學(xué)習(xí)墓怀。近年來(lái)汽纠,用于視頻分割的一次性學(xué)習(xí)的興趣不斷增加。
- 大多數(shù)這些工作都有類似的兩階段范式:首先傀履,培養(yǎng)一個(gè)通用目的完全卷積網(wǎng)絡(luò)(FCN)用于分割前景對(duì)象; 其次虱朵,根據(jù)視頻的第一幀微調(diào)這個(gè)網(wǎng)絡(luò),進(jìn)行數(shù)百次前后迭代钓账,使模型適應(yīng)特定的視頻序列碴犬。
- 為了減輕半監(jiān)督分割的計(jì)算成本,我們提出了一種新方法梆暮,使通用分割網(wǎng)絡(luò)適應(yīng)單個(gè)前饋傳遞中特定對(duì)象實(shí)例的外觀服协。通過(guò)從被注釋對(duì)象的圖像和對(duì)象的空間先驗(yàn)中提取信息,調(diào)制器生成一個(gè)參數(shù)列表啦粹,這些參數(shù)被注入到分割模型中以進(jìn)行逐層特征操作偿荷。沒有一次微調(diào)窘游,我們的模型 能夠使用來(lái)自目標(biāo)對(duì)象的最少提取信息來(lái)改變分割網(wǎng)絡(luò)的行為。 我們將此過(guò)程稱為網(wǎng)絡(luò)調(diào)制跳纳。
- 我們提出的模型是有效的忍饰,僅需要來(lái)自調(diào)制器的一個(gè)前向傳播來(lái)產(chǎn)生分割模型所需的所有參數(shù)以適應(yīng)特定的對(duì)象實(shí)例。由空間先驗(yàn)引導(dǎo)的網(wǎng)絡(luò)調(diào)制有助于模型即使存在多個(gè)類似實(shí)例也能跟蹤對(duì)象棒旗。 整個(gè)過(guò)程是可區(qū)分的喘批,可以使用標(biāo)準(zhǔn)隨機(jī)梯度descen進(jìn)行端到端學(xué)習(xí)撩荣。
相關(guān)工作
半監(jiān)督視頻分割 :半監(jiān)督視頻對(duì)象分割的目的是在整個(gè)視頻剩余部分跟蹤從第一注釋幀給出的對(duì)象掩碼铣揉。文獻(xiàn)中已經(jīng)提出了許多方法,包括傳播超像素餐曹、補(bǔ)丁逛拱、對(duì)象建議或在雙邊空間中的方法,并且通常執(zhí)行基于圖形模型的優(yōu)化以同時(shí)考慮多個(gè)幀台猴。
低學(xué)習(xí)的元學(xué)習(xí):目前深度學(xué)習(xí)的成功依賴于通過(guò)梯度下降優(yōu)化從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)的能力朽合。 但是,如果我們希望我們的模型能夠?qū)W習(xí)適應(yīng)許多環(huán)境的許多任務(wù)饱狂,那么從頭開始學(xué)習(xí)每個(gè)設(shè)置的每個(gè)任務(wù)是不可能的曹步。我們的方法與元學(xué)習(xí)共享相似之處,它學(xué)會(huì)了用另一個(gè)元學(xué)習(xí)器快速更新分割模型休讳。
網(wǎng)絡(luò)操縱:之前的幾項(xiàng)工作試圖結(jié)合模塊來(lái)操縱深度神經(jīng)網(wǎng)絡(luò)的行為讲婚,或者操縱數(shù)據(jù)的空間排列[16]或過(guò)濾連接[5]。 我們的方法也受到條件批量標(biāo)準(zhǔn)化[8,11,14,26]的強(qiáng)烈推動(dòng)俊柔,其中深度模型的行為由基于指導(dǎo)輸入的批量標(biāo)準(zhǔn)化參數(shù)操縱.
網(wǎng)絡(luò)架構(gòu)圖
基于網(wǎng)絡(luò)調(diào)制的視頻對(duì)象分割
- 視頻對(duì)象分割有兩個(gè)重要提示:視覺外觀和空間連續(xù)運(yùn)動(dòng)筹麸。
Conditional batch normalization:我們的方法受到最近使用條件批量歸一化(CBN)的工作的啟發(fā),其中每個(gè)批量歸一化層的規(guī)模和偏差參數(shù)由第二個(gè)控制器網(wǎng)絡(luò)產(chǎn)生
Visual and spatial modulation:CBN層是特征圖上更一般的縮放和移位操作的特殊情況雏婶。 在每個(gè)卷積層之后物赶,我們定義一個(gè)新的調(diào)制層,其中包含由聯(lián)合訓(xùn)練的視覺和空間調(diào)制器生成的參數(shù)留晚。 我們?cè)O(shè)計(jì)了兩個(gè)調(diào)制器酵紫,使得視覺調(diào)制器產(chǎn)生通道方向尺度參數(shù)以調(diào)整特征圖中不同通道的權(quán)重,而空間調(diào)制器產(chǎn)生元素方向偏置參數(shù)以在調(diào)制特征之前注入空間错维。調(diào)制層可以表示為:
- 全卷積主分割網(wǎng)絡(luò)憨闰,視覺調(diào)制器網(wǎng)絡(luò)和空間調(diào)制器網(wǎng)絡(luò)。 視覺調(diào)制器網(wǎng)絡(luò)是CNN需五,其將帶注釋的視覺對(duì)象圖像作為輸入并且為所有調(diào)制層產(chǎn)生尺度參數(shù)的矢量鹉动,而空間調(diào)制器網(wǎng)絡(luò)是基于空間先驗(yàn)輸入產(chǎn)生偏置參數(shù)的非常有效的網(wǎng)絡(luò)。
Visual modulator:視覺調(diào)制器用于使分割網(wǎng)絡(luò)適應(yīng)于關(guān)注特定對(duì)象實(shí)例宏邮,該特定對(duì)象實(shí)例是第一幀中的注釋對(duì)象泽示。 為方便起見缸血,以下將注釋對(duì)象稱為視覺引導(dǎo)。視覺調(diào)制器從視覺指南中提取類別械筛、顏色捎泻、形狀和紋理等語(yǔ)義信息,并生成相應(yīng)的通道權(quán)重埋哟,從而重新獲得分割網(wǎng)絡(luò)以分割對(duì)象笆豁。我們使用VGG16神經(jīng)網(wǎng)絡(luò)作為視覺調(diào)制器的模型。我們修改其最后一層訓(xùn)練用于ImageNet分類赤赊,以匹配用于分割網(wǎng)絡(luò)的調(diào)制層中的參數(shù)數(shù)量闯狱。 - 視覺調(diào)制器隱含地學(xué)習(xí)不同類型對(duì)象的嵌入。 它應(yīng)該產(chǎn)生類似的參數(shù)來(lái)調(diào)整類似對(duì)象的分割網(wǎng)絡(luò)抛计,同時(shí)為不同的對(duì)象調(diào)整不同的參數(shù)哄孤。調(diào)制器輸出的嵌入很好地與對(duì)象的外觀相關(guān)。使用這種視覺化調(diào)制器的一個(gè)大優(yōu)點(diǎn)是吹截,為了學(xué)習(xí)好的嵌入瘦陈,我們可以潛在地轉(zhuǎn)移利用大量對(duì)象類(例如ImageNet)學(xué)習(xí)的知識(shí),以便學(xué)習(xí)良好的嵌入.
Spatial modulator:我們的空間調(diào)制器將圖像中對(duì)象的先前位置作為輸入波俄。 由于對(duì)象在視頻中連續(xù)移動(dòng)晨逝,我們將先前設(shè)置為前一幀中對(duì)象掩碼的預(yù)測(cè)位置。具體而言懦铺,我們將位置信息編碼為在圖像平面上具有二維高斯分布的熱圖捉貌。 高斯分布的中心和標(biāo)準(zhǔn)偏差是根據(jù)前一幀的預(yù)測(cè)掩模計(jì)算的。為方便起見阀趴,此熱圖在下文中稱為空間引導(dǎo)昏翰。空間調(diào)制器將空間指導(dǎo)下采樣到不同的比例刘急,以匹配分割網(wǎng)絡(luò)中的不同特征圖的分辨率棚菊,然后對(duì)每個(gè)下采樣的熱圖應(yīng)用縮放和移位操作以生成相應(yīng)調(diào)制層的偏置參數(shù)。
- 我們認(rèn)為前一幀中的粗略位置和大小具有足夠的信息來(lái)推斷RGB圖像的對(duì)象掩模叔汁,并且它可以防止模型過(guò)度依賴掩模并因此導(dǎo)致錯(cuò)誤傳播统求,這可能是災(zāi)難性的。 當(dāng)對(duì)象在視頻中有大的移動(dòng)時(shí),而且也可以防止過(guò)度擬合据块。
Implementation details:直觀地說(shuō)码邻,我們應(yīng)該在FCN中的每個(gè)卷積層之后添加調(diào)制層。 然而另假,我們發(fā)現(xiàn)在早期卷積層之間添加調(diào)制層實(shí)際上使模型表現(xiàn)更差像屋。一個(gè)可能的原因是早期層提取的低級(jí)特征對(duì)調(diào)制器引入的縮放和移位操作非常敏感。 在我們的實(shí)現(xiàn)中边篮,我們將調(diào)制操作添加到VGG16中的所有卷積層己莺,除了前四層奏甫,這導(dǎo)致九個(gè)調(diào)制層。 - 為了對(duì)視覺調(diào)制器的輸入進(jìn)行預(yù)處理凌受,我們首先使用帶注釋的掩模裁剪對(duì)象阵子,然后將背景像素設(shè)置為平均圖像值,然后將裁剪后的圖像的大小調(diào)整為224×224的恒定分辨率胜蛉。對(duì)數(shù)據(jù)使用了增強(qiáng):10%的隨機(jī)縮放和10度的隨機(jī)旋轉(zhuǎn)挠进。為了對(duì)作為空間調(diào)制器輸入的空間引導(dǎo)進(jìn)行預(yù)處理,我們首先計(jì)算掩模的平均值和標(biāo)準(zhǔn)偏差誊册,然后用高達(dá)20%的隨機(jī)移位和40%的隨機(jī)縮放對(duì)掩模進(jìn)行擴(kuò)充领突。對(duì)于饋入FCN的整個(gè)圖像,我們使用從320, 400的隨機(jī)大小解虱,和480的正方形形狀攘须。
- 視覺調(diào)制器和分割網(wǎng)絡(luò)都是用預(yù)先在ImageNet分類任務(wù)上構(gòu)建的VGG16模型初始化的漆撞。通過(guò)將視覺調(diào)制器的最后全連接層的權(quán)重和偏置分別設(shè)置為零和1殴泰,將調(diào)制參數(shù)r_c初始化為1「〔担空間調(diào)制器的權(quán)重隨機(jī)初始化悍汛。 我們使用相同的平衡交叉熵?fù)p失.
- 使用Adam訓(xùn)練,beta1=0.9,beta2=0.999,首先訓(xùn)練10 epochs至会,lr=10e-5,然后再訓(xùn)練5 epoch离咐,lr=10e-6.
- 此外,為了模擬視頻中移動(dòng)物體的外觀變化奉件,可以在視頻分割數(shù)據(jù)集(如DAVIS 2017)上對(duì)模型進(jìn)行微調(diào)宵蛀。為了對(duì)外觀變化更穩(wěn)健,我們隨機(jī)地從整個(gè)視頻序列中選擇前景對(duì)象作為每幀的視覺引導(dǎo)县貌∈跆眨空間引導(dǎo)是從前一幀中的物體的地面真相掩碼獲得的。
實(shí)驗(yàn)
Semisupervised Video Segmentation
- 我們的模型有兩種變體煤痕,第一種只在靜態(tài)圖像上訓(xùn)練(第1階段)梧宫,第二種在視頻數(shù)據(jù)上精細(xì)化(第二階段)調(diào)制器對(duì)分割模型的自適應(yīng)是通過(guò)視覺調(diào)制器的一個(gè)前向傳播實(shí)現(xiàn)的,因此它比目標(biāo)視頻的模型微調(diào)方法更有效摆碉。視覺調(diào)制器只需要為整個(gè)視頻計(jì)算一次塘匣,而空間調(diào)制器需要針對(duì)每個(gè)幀進(jìn)行計(jì)算,但開銷可以忽略不計(jì)巷帝。由于分割模型的權(quán)重是固定的忌卤,因此精度增益僅來(lái)自調(diào)制器,這證明視覺調(diào)制器能夠通過(guò)操縱中間特征圖的比例來(lái)改善不同的模型結(jié)構(gòu)楞泼。
- 我們的模型對(duì)于外觀變化更加穩(wěn)健驰徊,因?yàn)樗鼮樽⑨寣?duì)象學(xué)習(xí)了特征嵌入历谍,與單次微調(diào)相比,它更能容忍姿勢(shì)和外觀變化辣垒。我們的方法可以得到更精確的邊界望侈,部分原因是粗糙的空間先驗(yàn)迫使模型探索圖像上的更多線索而不是前一幀中的掩模。在未知的對(duì)象類中勋桶,工作的也很好脱衙。
Visualization of the modulation parameters
- 一個(gè)有趣的觀察是,對(duì)于網(wǎng)絡(luò)的更深層次例驹,調(diào)制參數(shù)的變化變得更大捐韩。 這表明,在最后幾層中鹃锈,特征圖的操縱比在網(wǎng)絡(luò)的早期層中更為顯著荤胁。
Ablation Study
- 從實(shí)驗(yàn)結(jié)果上看,視覺調(diào)制器比空間調(diào)制器更重要屎债。結(jié)果表明仅政,空間引導(dǎo)增強(qiáng)對(duì)性能的影響最顯著。在沒有擾動(dòng)的情況下盆驹,模型可能過(guò)于依賴于空間先驗(yàn)的位置而不能處理真實(shí)視頻序列中的運(yùn)動(dòng)對(duì)象圆丹。