相比于圖像語義分割荸型,視頻語義分割具有高幀數(shù)(15-30幀/s)帅戒,前后幀之間高相關性的特點昙读。并且在自動駕駛任務中,對RGB攝像頭傳入的視頻幀信號處理具有很高的實時性要求竭讳,因此針對視頻語義分割任務來講创葡,需要在圖像語義分割的任務上做進一步的工作。
如何有效利用視頻幀之間的時序相關性將對視頻分割結果產生很大影響绢慢,目前主流分為兩派灿渴,一類是利用時間連續(xù)性增強語義分割結果的準確性,另一種則關注如何降低計算成本胰舆,以達到實時性要求骚露。接下來的文章內容就根據(jù)近幾年針對視頻語義分割所進行的優(yōu)秀工作進行簡單闡述。
Improve the accuracy
1.STFCN: Spatio-Temporal FCN for Semantic Video Segmentation
本篇論文是在FCN的基礎上進行改進的缚窿,利用LSTM將FCNs并聯(lián)成為一個叫做時空卷積網(wǎng)絡的結構(spatio-temporal CNNs)棘幸。
論文主要貢獻:
1.該方法提升了原有的語義分割結果。
2.提出一種結合時間特征與空間特征的端到端架構滨攻。
論文想法比較簡單,對于時序特征的處理也選擇了經(jīng)典的LSTM诞帐,整篇論文寫的中規(guī)中矩,個人覺得沒什么亮眼的地方(或者我沒看出來)菇晃。
論文不足:
1.沒有充分利用幀與幀之間的相關性,由于攝像機采樣頻率很高的話估灿,會導致相鄰幀之間差異很小馅袁,所以對每一幀都進行處理會浪費計算資源兄纺。
2.模型過于復雜钦奋,無法達到實時的要求圃阳。
2.Semantic Video Segmentation by Gated Recurrent Flow Propagation(基于門控遞歸流傳播的語義視頻分割 )
在視頻語義分割問題當中,還有一個無法避免的問題就是確少高質量的標注數(shù)據(jù),因為視頻任務數(shù)據(jù)量大(假設一秒30幀变勇,一分鐘的數(shù)據(jù)就是1800幀)而語義分割的數(shù)據(jù)標注極為繁瑣耗時(大約30分鐘可以標注一張)。因此,如何有效利用視頻語義分割任務中少量高質量標注數(shù)據(jù)集達到好的分割效果也是一個很好的研究方向。針對少量標注樣本問題,主要解決方案就是進行弱監(jiān)督或者半監(jiān)督學習锻拘,弱監(jiān)督學習方法不適用完整標注數(shù)據(jù)集進行訓練,而是使用大量的分類或者檢測數(shù)據(jù)集進行訓練,從而減少標注成本提高分割準確率;半監(jiān)督學習則是使用少量標注數(shù)據(jù)集訓練網(wǎng)絡以求得到一個較好的泛化模型区宇,在視頻語義分割任務當中就是關鍵幀提取卧晓,只針對視頻中少量關鍵幀的標注數(shù)據(jù)進行訓練逼裆,使模型適用于整個視頻流。
在本篇論文中螟炫,作者設計了一個叫做Spatio-Temporal Transformer Gated Recurrent Unit(不會翻譯)的單元來融合各幀信息波附,作者認為相鄰兩幀之間包含大量冗余信息艺晴,但是兩幀之間差異較大(漂移形變)的區(qū)域包含的信息將十分有意義昼钻,作者使用了光流來衡量漂移形變比較明顯的區(qū)域掸屡。
該網(wǎng)絡使用標注幀的前后相鄰幾幀的特征對當前幀的特征進行修正,具體訓練方法可以細讀論文然评。
3.Video scene parsing with predictive feature learning(PEARL)
這篇文章是融合了單幀的信息與temporal context信息得到更好的測試結果仅财。作者開篇酒就用三行結果把論文思想講的很清楚了,四行圖片中碗淌,第一行為輸入的四幀相鄰圖片盏求。
第二行為單獨對每一幀進行語義分割得到的結果,可見紅框標示的區(qū)域用很多不一致的內容亿眠。
為了利用temporal信息的連續(xù)性改善分割結果碎罚,作者共進行了三個部分的主要工作:
1.Predictive Feature Learning: 在這部分中,作者利用時序信息進行了unsupervised pre-training纳像,即輸入連續(xù)的4幀圖片荆烈,去預測接下來一幀的內容。通過這樣的預測竟趾,可以使這樣的網(wǎng)絡學習到時序上的連續(xù)性憔购,并使用這樣的信息進行預測。網(wǎng)絡結構上標準的GAN做法岔帽,唯一區(qū)別在于generator其實是一個conditional generator玫鸟,即需要輸入前4幀圖片。所以genetator基于現(xiàn)有常見網(wǎng)絡結構犀勒,只是在其上增加一個輸出層屎飘。在loss設計方面,一方面是要求輸出的圖像和下一幀l2距離接近贾费,另一方面訓練了一個discriminator來判斷當前圖像是真實的還是網(wǎng)絡預測的枚碗。優(yōu)化目標即要最小化l2距離,并迷惑discriminator真假铸本。
2.Predictive Parsing: 在這部分中肮雨,作者使用在前面步驟中學到的Encoder預測下一幀的特征來預測下一幀的分割結果。所以在原網(wǎng)絡結構上去掉了discriminator箱玷,加上了新的decoder輸出分割結果(上圖第三行)怨规。可見锡足,單純通過預測得到的結果可以保持良好的一致性波丰,但是和單幀預測比起來會失去節(jié)信息。所以需要將這兩種方法結合舶得。
3.將預測結果和當前幀分割結果結合起來掰烟,得到最終的分割結果。
上圖中的第四行。
雖然本文需要用到GAN網(wǎng)絡進行特征預測纫骑,但考慮到GAN網(wǎng)絡可以離線訓練蝎亚,因此實際應用當中并不需要消耗大量計算資源,根據(jù)作者的描述先馆,處理一張1024*2048的圖片只需要0.8s发框,但還遠遠達不到實時的要求。
啟發(fā):
1.使用GAN進行數(shù)據(jù)增強可以得到較好的效果煤墙,或者利用GAN做一些出色的工作梅惯。
2.如何更高效的利用相鄰視頻幀之間的一致性還值得深入思考。
4.Semantic Video CNNs through Representation Warping
也是一篇利用相鄰幀之間的光流場來進行模型優(yōu)化的工作仿野,以較小的計算量增加為代價來提升性能铣减,適用于許多基于CNN的網(wǎng)絡架構。作者把這項技術稱為NetWarp脚作,用來對CNN網(wǎng)絡中的中間層進行進行優(yōu)化徙歼。
啟發(fā):
1.傳統(tǒng)的計算機視覺發(fā)放(光流、角點檢測鳖枕、邊緣檢測方法等)可能會對深度學習方法有幫助魄梯,如何結合經(jīng)典方法與深度學習是一個值得思考的方向。
2.深度學習模型中宾符,相鄰幀之間的特征在模型中的表達相差并不大酿秸,尤其是高層特征,如何利用這個特點減少計算量魏烫?
關于利用幀間相關性信息進行語義分割的優(yōu)秀文章還有很多辣苏,但其實在自動駕駛任務中,對實時性的要求可能更高一些哄褒,因此接下來介紹幾篇解決實時性問題的文章稀蟋。
祝好!愿與諸君一起進步呐赡。