在自動(dòng)駕駛?cè)蝿?wù)中复颈,實(shí)時(shí)性一直是急需解決的一個(gè)問題,也是極其具有挑戰(zhàn)性的一個(gè)問題沥割。一方面耗啦,現(xiàn)階段一輛裝滿所有傳感器的自動(dòng)駕駛汽車每秒收集的數(shù)據(jù)量高達(dá)1-4GB(數(shù)據(jù)來自網(wǎng)絡(luò),不一定準(zhǔn)確)机杜,另一方面帜讲,為保證汽車長時(shí)間的續(xù)航能力,自動(dòng)駕駛汽車應(yīng)盡可能的保證節(jié)省電力椒拗,同時(shí)大功率的計(jì)算部件其散熱也是一個(gè)必須解決的問題似将。
因此,如何在減少計(jì)算量的同時(shí)保證得到的結(jié)果準(zhǔn)確魯棒就是計(jì)算機(jī)視覺科學(xué)家應(yīng)該審慎思考的一個(gè)問題了蚀苛,目前針對降低自動(dòng)駕駛視頻語義分割延遲的相關(guān)工作已經(jīng)發(fā)表了很多在验,我選取其中的幾篇進(jìn)行簡答介紹。
1.SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling
參考資料:卷積神經(jīng)網(wǎng)絡(luò)CNN(4)—— SegNet
SegNet使劍橋大學(xué)機(jī)器智能實(shí)驗(yàn)室提出的在FCN的基礎(chǔ)上修改的一種比較優(yōu)美的網(wǎng)絡(luò)結(jié)構(gòu)堵未,由于其官網(wǎng)上提供了很詳盡的學(xué)習(xí)資料腋舌,因此在其基礎(chǔ)上也衍生出了很多優(yōu)秀工作。
網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)感興趣的可以看論文渗蟹,由于篇幅問題這里比詳細(xì)闡述了块饺。SegNet的架構(gòu)可以看作一個(gè)Encoder-Decoder模型,前一半可以看作一個(gè)使用CNN和polling的編碼器雌芽,后一部分使用upsampling與deconvolution組成對應(yīng)的解碼器授艰。
值得注意的是,相比于其他網(wǎng)絡(luò)結(jié)構(gòu)的pooling層世落,SegNet中的pooling層多了一個(gè)index的功能淮腾,即記錄最大池化時(shí)所選取的數(shù)值的位置信息,以便在上采樣過程中進(jìn)行恢復(fù)。谷朝、
Bayesian SegNet
在SeNet中最后每個(gè)像素都會對每一類的概率進(jìn)行計(jì)算篮灼,再通過Softmax輸出概率最大的一個(gè),然后這個(gè)像素點(diǎn)就認(rèn)為是這一類別徘禁,對應(yīng)的概率就是這一像素屬于該類的概率诅诱。這種由原因到結(jié)果的推導(dǎo),可以稱為先驗(yàn)概率送朱,任何先驗(yàn)概率使用都會出現(xiàn)一個(gè)問題娘荡,不能知道這一結(jié)果的可靠性,即便先驗(yàn)概率非常大驶沼,但是對于不同的樣本炮沐,先驗(yàn)概率無法保證一定正確。正是如此回怜,才需要有從結(jié)果尋找原因的貝葉斯概率大年,即后驗(yàn)概率,它能給出結(jié)果的可信程度玉雾,即置信度翔试。Bayesian SegNet正是通過后驗(yàn)概率,告訴我們圖像語義分割結(jié)果的置信度是多少复旬。
可見垦缅,在網(wǎng)絡(luò)中加入一層Dropout即可得到語義分割圖像的不確定性灰度圖,具體的原理參考Dropout as a Bayesian approximation: Representing model uncertainty in deep learning驹碍。
高斯過程是指任意有限個(gè)隨機(jī)變量都服從聯(lián)合高斯分布壁涎,同時(shí)只需要知道均值與協(xié)防差就能夠確定一個(gè)高斯過程,所以高斯過程可以用于從有限維到無限維的回歸問題志秃,從已知高斯分布怔球,增加新的隨機(jī)變量分布可以求出新的高斯分布,根據(jù)新的分布可以求出其均值與方差浮还。?
如何確定一個(gè)高斯分布竟坛?需要多次采樣才能確定一個(gè)分布。蒙特卡羅抽樣告訴我們可以通過設(shè)計(jì)一個(gè)試驗(yàn)方法將一個(gè)事件的頻率轉(zhuǎn)化為概率碑定,因?yàn)樵谧銐虼蟮臉颖局辛髀耄录l(fā)生的頻率會趨向事件發(fā)生的概率,因此可以很方便地求出一個(gè)未知分布延刘。通過蒙特卡羅抽樣,就可以求出一個(gè)新分布的均值與方差六敬,這樣使用方差大小就可以知道一個(gè)分布對于樣本的差異性碘赖,方差越大差異越大。
在Bayesian SegNet中通過DropOut層實(shí)現(xiàn)多次采樣,多次采樣的樣本值為最后輸出普泡,方差最為其不確定度播掷,方差越大不確定度越大,多次采樣后就可以得到不確定性的灰度圖撼班。
可以看到歧匈,不確定性灰度圖很像圖像的邊界提取,這也直觀的表明了在語義分割問題中邊界的不確定性較大的問題砰嘁。
2.Low-Latency Video Semantic Segmentation
參考資料:CVPR 2018 | 商湯科技Spotlight論文詳解:極低延遲性的視頻語義分割
算法核心思想
本文算法使用視頻分割中經(jīng)典的基于關(guān)鍵幀調(diào)度的模式來有效平衡計(jì)算量和精度件炉。具體來說,如果當(dāng)前處理幀為關(guān)鍵幀矮湘,則使用整個(gè)分割網(wǎng)絡(luò)來獲得語義分割的標(biāo)簽斟冕,如圖2左部分所示;如果當(dāng)前幀不為關(guān)鍵幀缅阳,則變換分割網(wǎng)絡(luò)高層歷史幀特征為當(dāng)前幀高層特征磕蛇,再使用分割網(wǎng)絡(luò)的語義分類操作獲得當(dāng)前幀的語義標(biāo)簽,如圖2右部分所示十办。關(guān)鍵幀的選擇和特征跨幀傳播兩個(gè)操作均基于同樣的網(wǎng)絡(luò)低層特征秀撇,具體操作在之后章節(jié)詳述。在劃分分割網(wǎng)絡(luò)結(jié)構(gòu)時(shí)向族,算法盡量保證低層網(wǎng)絡(luò)的運(yùn)行時(shí)間遠(yuǎn)小于高層網(wǎng)絡(luò)捌袜,(如圖2所示)低層網(wǎng)絡(luò)耗時(shí)61ms,而高層網(wǎng)絡(luò)耗時(shí)300ms炸枣。這樣考慮的出發(fā)點(diǎn)在于:因低層網(wǎng)絡(luò)的計(jì)算代價(jià)很小虏等,算法可以基于低層網(wǎng)絡(luò)提取的特征,增加少部分額外的計(jì)算來完成關(guān)鍵幀選擇和特征跨幀傳播适肠;當(dāng)前幀的低層特征同樣包含當(dāng)前幀的信息霍衫,可以互補(bǔ)來自不同時(shí)間的傳播特征;所有的操作均復(fù)用了逐幀模型的結(jié)構(gòu)侯养,算法整體模型更加簡潔敦跌。
由于實(shí)現(xiàn)過程中涉及到一種關(guān)鍵幀調(diào)度的問題,而以往的關(guān)鍵幀選取方法要么簡化為固定時(shí)間間隔選取逛揩,要么計(jì)算高層特征差異柠傍,根據(jù)設(shè)定閾值選取。前者無法適應(yīng)視頻幀內(nèi)容變化辩稽,容易錯(cuò)過關(guān)鍵幀或者浪費(fèi)計(jì)算資源惧笛,后者由于特征變化較大,閾值難以確定逞泄。因此作者使用當(dāng)前幀語義標(biāo)簽和前一個(gè)關(guān)鍵幀語義標(biāo)簽的差異值來作為視頻內(nèi)容變化程度的判斷依據(jù)患整,當(dāng)差值超過某個(gè)閾值的時(shí)候拜效,則選擇該幀作為關(guān)鍵幀。但是直接計(jì)算這樣一個(gè)差異值較為困難各谚,作者在Cityscapes和Camvid兩個(gè)數(shù)據(jù)集上發(fā)現(xiàn)低層特征和語義標(biāo)簽的變化值有很大的關(guān)聯(lián)紧憾,因而利用低層特征來預(yù)測這樣該差值,即輸入歷史幀低層特征和當(dāng)前幀低層特征到一個(gè)回歸器來回歸該差異值昌渤。
當(dāng)視頻的序列幀不斷輸入時(shí)赴穗,在第一幀時(shí)刻,進(jìn)行初始化操作膀息,即輸入圖片幀給整個(gè)網(wǎng)絡(luò)般眉,獲得低層特征和高層特征。在接下來的時(shí)刻t進(jìn)行自適應(yīng)的計(jì)算履婉,首先計(jì)算低層特征:輸入和上一個(gè)關(guān)鍵幀低層特征至自適應(yīng)關(guān)鍵幀選擇模塊煤篙,判斷當(dāng)前幀是否為關(guān)鍵幀。若為關(guān)鍵幀毁腿,則輸入底層特征至高層網(wǎng)絡(luò)獲得高層特征辑奈;否則輸入底層特征至自適應(yīng)特征傳播模塊獲得當(dāng)前幀高層特征,進(jìn)而通過語義分類獲得當(dāng)前幀語義標(biāo)簽已烤。
本文在犧牲較小精度的條件下極大的降低了系統(tǒng)延遲鸠窗,這種低延遲調(diào)度策略可將延遲由360ms降低到119ms。但是本文方法在場景變化劇烈的條件下(即關(guān)鍵幀采樣比較密集)仍然無法有效降低延遲胯究,因此論文作者希望在未來工作中在模型壓縮和模型設(shè)計(jì)方面進(jìn)一步降低算法的總體延遲和計(jì)算量稍计。
祝好!愿與諸君一起進(jìn)步裕循。