自動駕駛入門日記-5-視頻語義分割

相比于圖像語義分割荸型,視頻語義分割具有高幀數(shù)(15-30幀/s)帅戒,前后幀之間高相關性的特點昙读。并且在自動駕駛任務中,對RGB攝像頭傳入的視頻幀信號處理具有很高的實時性要求竭讳,因此針對視頻語義分割任務來講创葡,需要在圖像語義分割的任務上做進一步的工作。

如何有效利用視頻幀之間的時序相關性將對視頻分割結果產生很大影響绢慢,目前主流分為兩派灿渴,一類是利用時間連續(xù)性增強語義分割結果的準確性,另一種則關注如何降低計算成本胰舆,以達到實時性要求骚露。接下來的文章內容就根據(jù)近幾年針對視頻語義分割所進行的優(yōu)秀工作進行簡單闡述。

Improve the accuracy

1.STFCN: Spatio-Temporal FCN for Semantic Video Segmentation

本篇論文是在FCN的基礎上進行改進的缚窿,利用LSTM將FCNs并聯(lián)成為一個叫做時空卷積網(wǎng)絡的結構(spatio-temporal CNNs)棘幸。

論文主要貢獻:

1.該方法提升了原有的語義分割結果。

2.提出一種結合時間特征與空間特征的端到端架構滨攻。


網(wǎng)絡結構

論文想法比較簡單,對于時序特征的處理也選擇了經(jīng)典的LSTM诞帐,整篇論文寫的中規(guī)中矩,個人覺得沒什么亮眼的地方(或者我沒看出來)菇晃。

論文不足:

1.沒有充分利用幀與幀之間的相關性,由于攝像機采樣頻率很高的話估灿,會導致相鄰幀之間差異很小馅袁,所以對每一幀都進行處理會浪費計算資源兄纺。

2.模型過于復雜钦奋,無法達到實時的要求圃阳。

2.Semantic Video Segmentation by Gated Recurrent Flow Propagation(基于門控遞歸流傳播的語義視頻分割 )

在視頻語義分割問題當中,還有一個無法避免的問題就是確少高質量的標注數(shù)據(jù),因為視頻任務數(shù)據(jù)量大(假設一秒30幀变勇,一分鐘的數(shù)據(jù)就是1800幀)而語義分割的數(shù)據(jù)標注極為繁瑣耗時(大約30分鐘可以標注一張)。因此,如何有效利用視頻語義分割任務中少量高質量標注數(shù)據(jù)集達到好的分割效果也是一個很好的研究方向。針對少量標注樣本問題,主要解決方案就是進行弱監(jiān)督或者半監(jiān)督學習锻拘,弱監(jiān)督學習方法不適用完整標注數(shù)據(jù)集進行訓練,而是使用大量的分類或者檢測數(shù)據(jù)集進行訓練,從而減少標注成本提高分割準確率;半監(jiān)督學習則是使用少量標注數(shù)據(jù)集訓練網(wǎng)絡以求得到一個較好的泛化模型区宇,在視頻語義分割任務當中就是關鍵幀提取卧晓,只針對視頻中少量關鍵幀的標注數(shù)據(jù)進行訓練逼裆,使模型適用于整個視頻流。

在本篇論文中螟炫,作者設計了一個叫做Spatio-Temporal Transformer Gated Recurrent Unit(不會翻譯)的單元來融合各幀信息波附,作者認為相鄰兩幀之間包含大量冗余信息艺晴,但是兩幀之間差異較大(漂移形變)的區(qū)域包含的信息將十分有意義昼钻,作者使用了光流來衡量漂移形變比較明顯的區(qū)域掸屡。


STGRU


GRFP

該網(wǎng)絡使用標注幀的前后相鄰幾幀的特征對當前幀的特征進行修正,具體訓練方法可以細讀論文然评。

3.Video scene parsing with predictive feature learning(PEARL)


約束特征學習

這篇文章是融合了單幀的信息與temporal context信息得到更好的測試結果仅财。作者開篇酒就用三行結果把論文思想講的很清楚了,四行圖片中碗淌,第一行為輸入的四幀相鄰圖片盏求。

第二行為單獨對每一幀進行語義分割得到的結果,可見紅框標示的區(qū)域用很多不一致的內容亿眠。

為了利用temporal信息的連續(xù)性改善分割結果碎罚,作者共進行了三個部分的主要工作:

1.Predictive Feature Learning: 在這部分中,作者利用時序信息進行了unsupervised pre-training纳像,即輸入連續(xù)的4幀圖片荆烈,去預測接下來一幀的內容。通過這樣的預測竟趾,可以使這樣的網(wǎng)絡學習到時序上的連續(xù)性憔购,并使用這樣的信息進行預測。網(wǎng)絡結構上標準的GAN做法岔帽,唯一區(qū)別在于generator其實是一個conditional generator玫鸟,即需要輸入前4幀圖片。所以genetator基于現(xiàn)有常見網(wǎng)絡結構犀勒,只是在其上增加一個輸出層屎飘。在loss設計方面,一方面是要求輸出的圖像和下一幀l2距離接近贾费,另一方面訓練了一個discriminator來判斷當前圖像是真實的還是網(wǎng)絡預測的枚碗。優(yōu)化目標即要最小化l2距離,并迷惑discriminator真假铸本。

2.Predictive Parsing: 在這部分中肮雨,作者使用在前面步驟中學到的Encoder預測下一幀的特征來預測下一幀的分割結果。所以在原網(wǎng)絡結構上去掉了discriminator箱玷,加上了新的decoder輸出分割結果(上圖第三行)怨规。可見锡足,單純通過預測得到的結果可以保持良好的一致性波丰,但是和單幀預測比起來會失去節(jié)信息。所以需要將這兩種方法結合舶得。

3.將預測結果和當前幀分割結果結合起來掰烟,得到最終的分割結果。


網(wǎng)絡框架

上圖中的第四行。

雖然本文需要用到GAN網(wǎng)絡進行特征預測纫骑,但考慮到GAN網(wǎng)絡可以離線訓練蝎亚,因此實際應用當中并不需要消耗大量計算資源,根據(jù)作者的描述先馆,處理一張1024*2048的圖片只需要0.8s发框,但還遠遠達不到實時的要求。

啟發(fā):

1.使用GAN進行數(shù)據(jù)增強可以得到較好的效果煤墙,或者利用GAN做一些出色的工作梅惯。

2.如何更高效的利用相鄰視頻幀之間的一致性還值得深入思考。


4.Semantic Video CNNs through Representation Warping

也是一篇利用相鄰幀之間的光流場來進行模型優(yōu)化的工作仿野,以較小的計算量增加為代價來提升性能铣减,適用于許多基于CNN的網(wǎng)絡架構。作者把這項技術稱為NetWarp脚作,用來對CNN網(wǎng)絡中的中間層進行進行優(yōu)化徙歼。


NetWarp


計算過程

啟發(fā):

1.傳統(tǒng)的計算機視覺發(fā)放(光流、角點檢測鳖枕、邊緣檢測方法等)可能會對深度學習方法有幫助魄梯,如何結合經(jīng)典方法與深度學習是一個值得思考的方向。

2.深度學習模型中宾符,相鄰幀之間的特征在模型中的表達相差并不大酿秸,尤其是高層特征,如何利用這個特點減少計算量魏烫?

關于利用幀間相關性信息進行語義分割的優(yōu)秀文章還有很多辣苏,但其實在自動駕駛任務中,對實時性的要求可能更高一些哄褒,因此接下來介紹幾篇解決實時性問題的文章稀蟋。

祝好!愿與諸君一起進步呐赡。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末退客,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子链嘀,更是在濱河造成了極大的恐慌萌狂,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怀泊,死亡現(xiàn)場離奇詭異茫藏,居然都是意外死亡,警方通過查閱死者的電腦和手機霹琼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門务傲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來凉当,“玉大人,你說我怎么就攤上這事售葡】春迹” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵天通,是天一觀的道長。 經(jīng)常有香客問我熄驼,道長像寒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任瓜贾,我火速辦了婚禮诺祸,結果婚禮上,老公的妹妹穿的比我還像新娘祭芦。我一直安慰自己筷笨,他們只是感情好,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布龟劲。 她就那樣靜靜地躺著胃夏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪昌跌。 梳的紋絲不亂的頭發(fā)上仰禀,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機與錄音蚕愤,去河邊找鬼答恶。 笑死,一個胖子當著我的面吹牛萍诱,可吹牛的內容都是我干的悬嗓。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼裕坊,長吁一口氣:“原來是場噩夢啊……” “哼包竹!你這毒婦竟也來了?” 一聲冷哼從身側響起籍凝,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤映企,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后静浴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堰氓,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年苹享,在試婚紗的時候發(fā)現(xiàn)自己被綠了双絮。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浴麻。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖囤攀,靈堂內的尸體忽然破棺而出软免,到底是詐尸還是另有隱情,我是刑警寧澤焚挠,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布膏萧,位于F島的核電站,受9級特大地震影響蝌衔,放射性物質發(fā)生泄漏榛泛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一噩斟、第九天 我趴在偏房一處隱蔽的房頂上張望曹锨。 院中可真熱鬧,春花似錦剃允、人聲如沸沛简。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽椒楣。三九已至,卻和暖如春牡肉,著一層夾襖步出監(jiān)牢的瞬間撒顿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工荚板, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凤壁,地道東北人。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓跪另,卻偏偏與公主長得像拧抖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子免绿,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內容

  • (本文轉自雷鋒網(wǎng)嘲驾,轉載已獲取授權淌哟,未經(jīng)允許禁止轉載)原文鏈接:http://www.leiphone.com/ne...
    zhwhong閱讀 39,035評論 1 89
  • 接著介紹圖像語義分割中解決分割精細度的另一種解決方案--多尺度特征融合。在基于FCNs的語義分割架構中辽故,如何有效的...
    我愛大頭老婆閱讀 3,745評論 0 0
  • 落入座位的紅頭巾徒仓,仿佛看見昨夜的歡愉,你在跳著恰恰誊垢,透著拉丁風情掉弛,冒泡的香檳症见,吐著濃郁的香氣,抱著棕色的頭殃饿,昏昏欲...
    青云劍客閱讀 396評論 1 4
  • 2018-4-25 晴 星期三 親子日記第214篇 (一)第一天晨跑 生命在于運動谋作。前天就計劃好了,早上起來和兒子...
    敏文媽咪閱讀 594評論 2 4
  • 臥室有四壁乎芳,還有家具電器遵蚜。想象一下,如果臥室只有四壁奈惑,而無其他吭净,會是什么樣子的呢?走進臥室携取,一扇窗戶攒钳,沒有窗簾帮孔,屋...
    李一十八閱讀 583評論 0 2