One-Shot Video Object Segmentation 《CVPR》

主要思路

  • 該論文處理半監(jiān)督的視頻目標(biāo)分割任務(wù)嫉父,即給定第一幀的mask区匣,將某一特定目標(biāo)從后續(xù)視頻幀當(dāng)中分離出來烦磁。作者提出One-Shot Video Object Segmentation (OSVOS)算法岗喉,具體流程分為三步:1.采用FCN架構(gòu)驾孔,在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練芍秆,學(xué)習(xí)到通用的語義信息惯疙。2.在DAVIS 2016的訓(xùn)練集上進(jìn)行fine-tune,學(xué)習(xí)前景分割妖啥。3.最后在測(cè)試序列的第一幀上fine-tune霉颠,學(xué)習(xí)到在后面幀中要進(jìn)行分割的某特定目標(biāo)的外形等信息,然后對(duì)后續(xù)幀進(jìn)行分割荆虱。(注:前兩步為Offline training蒿偎,最后一步為Online training/testing)

Abstract

  • 本文處理了半監(jiān)督分割問題,比如給定第一幀的掩碼怀读,將對(duì)象與視頻中的背景分離诉位。本文章提出了One-Shot Video Object Segmentation基于全卷積網(wǎng)絡(luò)架構(gòu),能夠連續(xù)地將在ImageNet上學(xué)習(xí)的通用語義信息轉(zhuǎn)移到前景分割的任務(wù)菜枷,最后學(xué)習(xí)測(cè)試序列的單個(gè)注釋對(duì)象的外觀(因此一次性)苍糠。 雖然所有幀都是獨(dú)立處理的,但結(jié)果在時(shí)間上是連貫的和穩(wěn)定的啤誊。 我們?cè)趦蓚€(gè)帶注釋的視頻分割數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)岳瞭,這些數(shù)據(jù)庫顯示OSVOS速度快,并且顯著提高了現(xiàn)有技術(shù)水平蚊锹。

Introduction

From PreTrained Networks to OneShot Video Object Segmentation

  • CNN最近也應(yīng)用到了圖像分割,深度體系結(jié)構(gòu)預(yù)先訓(xùn)練了弱相關(guān)的圖像分類任務(wù)在ImageNet上牡昆。但是深度網(wǎng)絡(luò)有一個(gè)缺點(diǎn),就是需要大量的訓(xùn)練數(shù)據(jù)迁杨,本文研究了在整個(gè)視頻中分割對(duì)象,當(dāng)我們只有一個(gè)標(biāo)記的訓(xùn)練示例時(shí)铅协,例如 第一幀。
  • 本文的貢獻(xiàn)
    ??第一個(gè)貢獻(xiàn)是:使CNN適應(yīng)于給定物體的一個(gè)標(biāo)注圖片場(chǎng)景狐史,我們將在圖像識(shí)別上預(yù)訓(xùn)練的CNN使其適應(yīng)視頻對(duì)象分割痒给。 這是通過在一組手動(dòng)分割對(duì)象的視頻上進(jìn)行訓(xùn)練來實(shí)現(xiàn)的。 最后骏全,它在測(cè)試時(shí)針對(duì)在單個(gè)幀中手動(dòng)分割的特定對(duì)象進(jìn)行微調(diào)苍柏。我們的建議符合這樣的觀點(diǎn),即利用這些不同層次的信息進(jìn)行對(duì)象分割是合乎情理的:從大量類別的通用語義信息姜贡,通過對(duì)象通常形狀的知識(shí)试吁,到具體的我們感興趣分割特定對(duì)象的屬性。
    ??第二個(gè)貢獻(xiàn)是:OSVOS獨(dú)立處理視頻的每個(gè)幀,獲得作為副產(chǎn)品的時(shí)間一致性熄捍,而不是明確強(qiáng)加的昂貴約束的結(jié)果烛恤。換言之,我們將視頻對(duì)象分割看作給定來自一個(gè)(或各種)手動(dòng)分割幀的對(duì)象模型的每幀分割問題余耽。這與主要方法形成對(duì)比缚柏,其中時(shí)間一致性起中心作用,假設(shè)對(duì)象在一幀與下一幀之間變化不大碟贾。當(dāng)這些約束不適用時(shí)就會(huì)失敗币喧,無法從相對(duì)常見的情況下恢復(fù),例如模糊和突然運(yùn)動(dòng)袱耽。
    ??深度學(xué)習(xí)將被展示為提供足夠精確的目標(biāo)對(duì)象模型杀餐,即使在獨(dú)立處理每個(gè)幀時(shí)也能產(chǎn)生時(shí)間上穩(wěn)定的結(jié)果;OSVOS能夠通過遮擋來分割對(duì)象扛邑,它不限于特定的運(yùn)動(dòng)范圍怜浅,它不需要順序地處理幀,并且誤差不會(huì)在時(shí)間上傳播蔬崩。
    ??第三個(gè)貢獻(xiàn)是:OSVOS可以在時(shí)間和精度上達(dá)到平衡.實(shí)驗(yàn)表明恶座,OSVOS每幀可達(dá)181ms,準(zhǔn)確率為71.5%沥阳,在7.83s內(nèi)處理每幀可達(dá)79.7%跨琳。實(shí)驗(yàn)表明,隨著監(jiān)督程度的提高桐罕,結(jié)果確實(shí)逐漸提高脉让,每序列兩個(gè)帶注釋的幀達(dá)到84.6%的突出水平,四個(gè)帶注釋的幀達(dá)到86.9%功炮,一個(gè)帶注釋的幀達(dá)到79.8%溅潜。
    ??OSVOS顯著提高了現(xiàn)有技術(shù)水平79.8%和68.0%。 我們的技術(shù)能夠在102毫秒內(nèi)處理一幀DAVIS(480x854像素)薪伏。 通過提高監(jiān)督水平滚澜,OSVOS可以進(jìn)一步將其結(jié)果提高到86.9%设捐,每個(gè)序列只有四個(gè)注釋幀萝招,從而提供了一個(gè)大大加速的工具.
  • 先在 ImageNet 訓(xùn)練一個(gè)圖像分類模型槐沼,得到的網(wǎng)絡(luò)稱之為 Base Network母赵,接著我們 在 DAVIS 訓(xùn)練一個(gè)分割網(wǎng)絡(luò)具滴,得到 Parent Network构韵,最后我們?cè)谀繕?biāo)視頻上微調(diào),得到 Test Network凶朗。前兩個(gè)網(wǎng)絡(luò)的訓(xùn)練都是 offline棚愤, 最后一個(gè)網(wǎng)絡(luò)的訓(xùn)練是 online

Related Works

Video Object Segmentation and Tracking

  • 當(dāng)前大多數(shù)半監(jiān)督視頻對(duì)象分割都強(qiáng)調(diào)時(shí)間連續(xù)性宛畦,通過前一幀的掩碼預(yù)測(cè)下一幀的掩碼次和。OSVOS是一種更簡(jiǎn)單的流水線踏施,它獨(dú)立分割每個(gè)幀罕邀,并且產(chǎn)生更精確的結(jié)果诉探,同時(shí)還顯著地更快。相比之下碍遍,我們的CNN從第1幀學(xué)習(xí)單個(gè)模型怕敬,并從該模型中分割其余幀东跪。

FCNs for Segmentation

  • 許多當(dāng)前性能最佳的方法都有一個(gè)共同的深層架構(gòu),通常在ImageNet上進(jìn)行預(yù)訓(xùn)練丁恭,端到端可訓(xùn)練牲览。FCN通過去除參數(shù)密集的全連接的層第献,可訓(xùn)練參數(shù)的數(shù)量顯著下降兔港,便于用相對(duì)較少的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練衫樊。在本文中科侈,我們探討如何訓(xùn)練一個(gè)基于有限注釋的FCN來精確定位稠密預(yù)測(cè):?jiǎn)我环侄慰蚣堋?/li>

One-Shot Deep Learning

  • 如果要在一張圖片中檢測(cè)一個(gè)具體的物體,對(duì)于人來說刚盈,少量的信息也是足夠的藕漱,即使在外形肋联、形狀橄仍、場(chǎng)景發(fā)生改變牍戚,也不難分辨如孝。因?yàn)槲覀冇泻軓?qiáng)的先驗(yàn),首先锁孟,這是一個(gè)物體,然后這是一個(gè)特定的物體储笑。本文的方法就是基于這個(gè)思想突倍。本文訓(xùn)練FCN來進(jìn)行前景和背景的分割赘方。首先在大量數(shù)據(jù)進(jìn)行訓(xùn)練,區(qū)別出一個(gè)前景物體和其它炕淮,在測(cè)試階段涂圆,用少量數(shù)據(jù)迭代調(diào)整網(wǎng)絡(luò)來分割出我們要檢測(cè)出的物體。

End to end trainable foreground FCN

  • 我們想要CNN架構(gòu)滿足以下條件
    ??1. 準(zhǔn)確地定位分割輸出
    ??2. 從有限數(shù)量的注釋數(shù)據(jù)中訓(xùn)練的參數(shù)數(shù)量相對(duì)較少
    ??3. 測(cè)試時(shí)間相對(duì)較快模狭。
  • 它基于VGG網(wǎng)絡(luò)嚼鹉,經(jīng)過修改锚赤,可實(shí)現(xiàn)精確的局部密集預(yù)測(cè);去除分類所需的完全連接的層线脚,并且執(zhí)行有效的圖像到圖像推斷;VGG體系結(jié)構(gòu)由卷積加整流線性單元(Relu)層組成叫榕,這些層分為5個(gè)階段晰绎。在階段之間,池操作縮小特征圖零如,因?yàn)槲覀兩钊刖W(wǎng)絡(luò)。我們連接卷積層祸憋,以形成獨(dú)立的跳躍路徑從每個(gè)階段的最后一層;只要需要蚯窥,就進(jìn)行上采樣操作拦赠,并將來自不同路徑的特征映射連接起來荷鼠,以構(gòu)建具有不同詳細(xì)級(jí)別的信息榔幸。我們將特征映射線性融合到與圖像具有相同尺寸的單個(gè)輸出削咆。
  • 使用不平衡類別的分割損失函數(shù):


Training details

  • Offline training:因此,我們進(jìn)一步訓(xùn)練網(wǎng)絡(luò)在DAVIS訓(xùn)練集的二進(jìn)制掩碼上鳞陨,學(xué)習(xí)如何從背景中分割對(duì)象的一般概念和它們的通常形狀厦滤,我們使用隨機(jī)梯度下降(SGD)與動(dòng)量0.9的50000次迭代馁害。我們通過鏡像和縮放來增強(qiáng)數(shù)據(jù)蹂匹。學(xué)習(xí)率設(shè)置為10e-8,并逐漸降低忍啸。在離線訓(xùn)練之后履植,網(wǎng)絡(luò)學(xué)習(xí)從背景中分割前景對(duì)象玫霎,我們把這個(gè)網(wǎng)絡(luò)稱為“父網(wǎng)絡(luò)”。
  • Online training/testing:在給定圖像和第一幀的分割的情況下翁脆,對(duì)視頻中的特定實(shí)體進(jìn)行分割反番。 我們繼續(xù)進(jìn)一步訓(xùn)練(微調(diào))特定圖像/掩碼對(duì)的父網(wǎng)絡(luò),然后使用新權(quán)重測(cè)試整個(gè)序列篙贸。因此爵川,我們的方法的時(shí)間受到兩次影響:微調(diào)時(shí)間(每個(gè)帶注釋的掩碼一次)和所有幀的分割(每幀一次)养铸。我們?cè)试S該技術(shù)學(xué)習(xí)的迭代越多,結(jié)果越好,但用戶必須等待結(jié)果的時(shí)間越長(zhǎng)鳞滨。 后者不依賴于訓(xùn)練時(shí)間:OSVOS能夠在102 ms內(nèi)對(duì)每個(gè)480p幀(480 x 854)進(jìn)行分割拯啦。
    ??關(guān)于微調(diào)時(shí)間熔任,我們提出了兩種不同的模式:一種是需要在線微調(diào),通過分割幀并在整個(gè)序列中等待結(jié)果甫匹,或者離線兵迅,可以預(yù)先訪問要分割的對(duì)象薪贫。特別是在前一種模式中瞧省,需要控制專用于訓(xùn)練的時(shí)間量:分配用于微調(diào)的時(shí)間越多鳍贾,用戶等待的越多骑科,結(jié)果越好纵散。消融分析表明隐圾,離線和在線訓(xùn)練對(duì)于良好的性能都是至關(guān)重要的:如果我們直接從ImageNet模型執(zhí)行在線訓(xùn)練,那么性能會(huì)顯著下降蜜笤。只針對(duì)特定對(duì)象放棄在線訓(xùn)練也會(huì)產(chǎn)生更糟糕的表現(xiàn)盐碱。

Contour snapping

??首先瓮顽,我們建議使用快速雙邊求解器(FBS)將背景預(yù)測(cè)捕捉到圖像邊緣。它在五維顏色位置空間中執(zhí)行高斯平滑缕贡,這導(dǎo)致輸入信號(hào)的平滑(前景分割)拣播,從而保留圖像的邊緣。它在實(shí)踐中是有用的谍倦,因?yàn)樗俣瓤欤繋?0ms)昼蛀,而且是可微的曹洽,因此可以包括在端到端的可訓(xùn)練的深度學(xué)習(xí)體系結(jié)構(gòu)中辽剧。然而怕轿,這種方法的缺點(diǎn)是它保留了原始的圖像梯度,即在顏色通道中具有高歐幾里德差異的像素阐斜。
??為了克服這個(gè)限制,我們的第二種方法將結(jié)果捕捉到學(xué)習(xí)輪廓而不是簡(jiǎn)單的圖像梯度隅俘。 為此为居,我們?cè)诘诙€(gè)分支中提出了一個(gè)互補(bǔ)的CNN蒙畴,它被訓(xùn)練成檢測(cè)物體輪廓膳凝。 所提出的架構(gòu)如圖4所示:(1)顯示了主前景分支蹬音,其中估計(jì)了前景像素; (2)顯示輪廓分支祟绊,它檢測(cè)場(chǎng)景中的所有輪廓(不僅是前景對(duì)象的輪廓)哥捕。這使得我們可以離線訓(xùn)練遥赚,而不需要在網(wǎng)上具體調(diào)整示例凫佛。我們?cè)趦蓚€(gè)分支中使用了完全相同的體系結(jié)構(gòu)愧薛,但對(duì)不同的損失進(jìn)行了訓(xùn)練衫画。我們注意到,為兩個(gè)任務(wù)聯(lián)合訓(xùn)練具有共享層的網(wǎng)絡(luò)會(huì)降低獲得的結(jié)果瞄勾,因此我們保持兩個(gè)目標(biāo)的計(jì)算不相關(guān)。這使得我們只離線訓(xùn)練輪廓分支愿阐,因此不影響在線定時(shí)缨历。由于輪廓需要高召回率辛孵,我們?cè)赑ASCAL-Context數(shù)據(jù)庫上進(jìn)行訓(xùn)練觉吭,該數(shù)據(jù)庫為圖像的完整場(chǎng)景提供輪廓注釋鲜滩。最后徙硅,在邊界捕捉步驟(圖4(3)中搞疗,我們通過超參數(shù)輪廓圖(UCM)計(jì)算與計(jì)算輪廓對(duì)齊的超像素桩皿,設(shè)置較低的閾值泄隔。然后得到前景掩碼宛徊, 并且我們通過多數(shù)投票(與前景掩模重疊超過50%)選擇超像素以形成最終的前景分割佛嬉。

Experimental Validation

  • 評(píng)價(jià)指標(biāo):J是區(qū)域重合判斷標(biāo)準(zhǔn)(掩碼 M 和真值 G 之間的 Intersection over Union。)闸天,F(xiàn)是輪廓重合判斷標(biāo)準(zhǔn)(將掩碼看成一系列閉合輪廓的集合暖呕,并計(jì)算基于輪廓的 F 度量,即準(zhǔn)確率和召回率的函數(shù))苞氮,T是時(shí)間穩(wěn)定性湾揽。
  • 我們添加了兩個(gè)信息邊界:通過從兩種最先進(jìn)的技術(shù)(COB和MCC中選擇最佳分割對(duì)象建議,以及通過從COB中選擇最佳超像素.邊界捕捉主要減少假陽性,即靠近邊界的假陽性(更精確的輪廓)和遠(yuǎn)離目標(biāo)的假陽性檢測(cè)钝腺,因?yàn)樗鼈儾慌c訓(xùn)練好的一般輪廓對(duì)齊抛姑。
  • Number of training images :我們的結(jié)論是,通過僅使用~200個(gè)帶注釋的幀艳狐,我們能夠達(dá)到幾乎與使用全DAVIS列分割時(shí)相同的性能毫目,因此訓(xùn)練過程不需要全視頻注釋箱蟆。
  • Refinement of results::我們的技術(shù)的另一個(gè)優(yōu)點(diǎn)是恨旱,我們可以自然地將更多的監(jiān)督以更多的注釋幀的形式仪芒。

Conclusions

  • 深度學(xué)習(xí)方法通常需要大量的訓(xùn)練數(shù)據(jù)才能解決特定問題,例如在視頻中分割對(duì)象卓舵。 相比之下,人類觀察者只需一個(gè)訓(xùn)練樣例即可解決類似的挑戰(zhàn)。 在本文中封救,我們證明了可以在機(jī)器中重現(xiàn)這種一次性學(xué)習(xí)的能力:基于在通用數(shù)據(jù)集上預(yù)先訓(xùn)練的網(wǎng)絡(luò)架構(gòu),我們提出了一次性視頻對(duì)象分割(OSVOS)作為一種精細(xì)的方法 - 僅在一個(gè)訓(xùn)練樣本上調(diào)整它,然后在DAVIS上以11.8分的優(yōu)于現(xiàn)有技術(shù)。 有趣的是,我們的方法不需要使用光流算法或時(shí)間平滑對(duì)時(shí)間一致性進(jìn)行顯式建模,因此不會(huì)受到隨時(shí)間的誤差傳播(漂移)的影響。 相反罚攀,OSVOS獨(dú)立處理視頻的每個(gè)幀炫掐,并產(chǎn)生高度準(zhǔn)確和時(shí)間上一致的分割。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末祷嘶,一起剝皮案震驚了整個(gè)濱河市嘉汰,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件日缨,死亡現(xiàn)場(chǎng)離奇詭異毅待,居然都是意外死亡刹泄,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人愕秫,你說我怎么就攤上這事甜孤。” “怎么了况凉?”我有些...
    開封第一講書人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我绿语,道長(zhǎng)赔蒲,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任荆萤,我火速辦了婚禮旋讹,結(jié)果婚禮上琅拌,老公的妹妹穿的比我還像新娘。我一直安慰自己旁趟,他們只是感情好肠缔,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開白布懂鸵。 她就那樣靜靜地躺著匆光,像睡著了一般贞让。 火紅的嫁衣襯著肌膚如雪喳张。 梳的紋絲不亂的頭發(fā)上舅桩,一...
    開封第一講書人閱讀 52,549評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音附鸽,去河邊找鬼跷乐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛趾浅,可吹牛的內(nèi)容都是我干的愕提。 我是一名探鬼主播,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼皿哨,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼揪荣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起往史,我...
    開封第一講書人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎佛舱,沒想到半個(gè)月后椎例,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡请祖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年订歪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肆捕。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡刷晋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慎陵,到底是詐尸還是另有隱情眼虱,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布席纽,位于F島的核電站捏悬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏润梯。R本人自食惡果不足惜过牙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望纺铭。 院中可真熱鬧寇钉,春花似錦、人聲如沸舶赔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽顿痪。三九已至镊辕,卻和暖如春油够,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背征懈。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來泰國打工石咬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卖哎。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓鬼悠,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親亏娜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子焕窝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容