摘要
????????在本文中睦番,作者探索了Atrous空間金字塔池化模塊(ASPP)的新的更深版本鲸伴,并應(yīng)用了長(zhǎng)殘差連接和短殘差連接以及深度可分離卷積巨坊,從而產(chǎn)生了一個(gè)快速有效的模型。 作者引入了LiteSeg體系結(jié)構(gòu)摇邦,并通過(guò)Darknet19恤煞,MobileNet和ShuffleNet等多個(gè)骨干網(wǎng)絡(luò)進(jìn)行了測(cè)試,以在準(zhǔn)確性和計(jì)算成本之間提供多種折衷方案施籍。
? ? ? ? 收到編碼-解碼結(jié)構(gòu)居扒,空洞空間金字塔池化(ASPP),空洞卷積核深度可分離卷積的啟發(fā)丑慎,作者設(shè)計(jì)了一個(gè)新穎的結(jié)構(gòu)——LIteSeg喜喂,它能夠適應(yīng)任何backbone網(wǎng)絡(luò)瓤摧,通過(guò)選擇不同的backbone網(wǎng)絡(luò),LiteSeg將允許在計(jì)算成本和準(zhǔn)確性之間進(jìn)行多種取舍夜惭,以適應(yīng)多種需求。
方法介紹
空洞卷積:空洞卷積結(jié)構(gòu)中铛绰,下采樣操作將導(dǎo)致空間信息丟失诈茧,這可歸因于跨步卷積和池化層。為了解決整個(gè)問(wèn)題捂掰,采用空洞卷積可以在增加感受野的同時(shí)不見(jiàn)效特征圖的分辨率敢会,同時(shí)沒(méi)有增加可訓(xùn)練的參數(shù)。這使網(wǎng)絡(luò)可以學(xué)習(xí)整個(gè)圖像的全局上下文特征这嚣,來(lái)精修全分辨率預(yù)測(cè)鸥昏。
深度可分離卷積:深度可分離卷積的主要思想是將輸入和內(nèi)核分成通道(它們共享相同數(shù)量的通道),并且每個(gè)輸入通道將與相應(yīng)的內(nèi)核通道卷積姐帚。 然后吏垮,使用1×1卷積執(zhí)行逐點(diǎn)卷積,以將深度卷積的輸出投影到新的通道空間中罐旗。 實(shí)驗(yàn)證明膳汪,采用深度可分離卷積[26]可以降低計(jì)算成本,并且具有相似或更好的性能九秀。
短距離長(zhǎng)距離殘差連接:事實(shí)證明遗嗽,融合和重用低層特征(包括顏色斑點(diǎn)或邊緣)和頂層的高層特征有助于高分辨率分割[27]。這種融合可以通過(guò)短殘差連接(SRC)從近層的特征圖和通過(guò)長(zhǎng)殘差連接(LRC)在遠(yuǎn)層的特征圖之間完成鼓蜒。 這些連接充當(dāng)網(wǎng)絡(luò)中的存儲(chǔ)單元[28]痹换,因?yàn)樗鼈冊(cè)试S保留從底層到頂層的信息。殘差連接的兩種方式是1.逐元素的相加(add操作)2.通道的級(jí)聯(lián)(concatenate操作)這里都弹,作者采用級(jí)聯(lián)方法作為元素級(jí)加法娇豫,要求殘差輸出和輸入具有相同的尺寸寬度,高度和深度畅厢,而不是傳統(tǒng)的級(jí)聯(lián)锤躁,后者僅需要相同的寬度和高度尺寸。作者發(fā)現(xiàn)長(zhǎng)跳躍連接有助于使語(yǔ)義邊界更清晰或详,而DASPP短跳躍連接有助于對(duì)語(yǔ)義分割進(jìn)行細(xì)調(diào)系羞,從而提供更豐富的幾何信息(圖1)。
編碼器:作者所提出的編碼器包含backbone網(wǎng)絡(luò)體系結(jié)構(gòu)霸琴,該backbone網(wǎng)絡(luò)體系結(jié)構(gòu)用作用于特征提取的圖像分類體系結(jié)構(gòu)椒振。選擇這些架構(gòu)是為了滿足我們的性能標(biāo)準(zhǔn),因此我們使用了不同的三種輕量模型MobileNet梧乘,ShuffleNet和Darknet19來(lái)測(cè)試了該架構(gòu)澎迎。不僅backbone的的類型能控制性能庐杨,輸出步幅[4]也(定義為輸入圖像大小與編碼器的最后特征圖之間的比率)能控制網(wǎng)絡(luò)的性能。假設(shè)高度H夹供,寬度W和深度C為輸入圖像尺寸灵份,并且主干網(wǎng)絡(luò)的輸出為h,w和c哮洽,因此將輸出步幅定義為os = H×W / h×w填渠。輸出步幅的減小會(huì)導(dǎo)致具有高分辨率的特征圖,并且還會(huì)得到更好的結(jié)果[4]鸟辅,因?yàn)楸A袅苏麄€(gè)網(wǎng)絡(luò)中更多的空間信息氛什,但是這會(huì)帶來(lái)計(jì)算成本。backbone網(wǎng)絡(luò)的輸出步長(zhǎng)是通過(guò)刪除最大池層并修改最后卷積層的跨度來(lái)控制的匪凉。輸出步幅等于16的Deeplabv3 + [2]是精度和計(jì)算效率之間的最佳折衷方案枪眉。此外,他們發(fā)現(xiàn)再层,使用等于8的輸出步幅可以大大提高精度贸铜,但計(jì)算量巨大,并且可以通過(guò)將輸出步幅增加到32來(lái)提高計(jì)算效率聂受,但會(huì)降低精度萨脑。因此,作者所提議的backbone網(wǎng)絡(luò)配置了MobileNetV2 [23]和ShuffleNet [24]的輸出步幅為32饺饭,以及輸出步長(zhǎng)為16的Darknet19渤早,以實(shí)現(xiàn)精度和速度之間的不同權(quán)衡。 DeepLabv3 [4]使用Atrous空間金字塔遵循ParseNet [29]中提出的方法瘫俊,使用具有不同膨脹率的(ASPP)模塊來(lái)捕獲多尺度信息鹊杖。在這里,作者提出了一種新的更深版本的ASPP模塊(稱為“更深的Atrous空間金字塔池(DASPP)”)扛芽,方法是在3×3的空洞卷積之后添加標(biāo)準(zhǔn)的3×3的卷積來(lái)精修特征骂蓖,并通過(guò)短殘差連接來(lái)融合輸入和DASPP模塊的輸出。同樣川尖,ASPP的卷積核的數(shù)量從255減少到96登下,從而獲得了更快的計(jì)算性能。
解碼器:Deeplabv3 + [2]提出了一種簡(jiǎn)化的解碼器叮喳,該解碼器由標(biāo)準(zhǔn)的3×3卷積和上采樣層組成被芳。在這里,作者添加了另一個(gè)3×3卷積層馍悟,并將所有3×3卷積的濾波器數(shù)量從256減少到96 計(jì)算性能增益畔濒。 另外,通過(guò)長(zhǎng)距離殘差連接锣咒,可以從backbone網(wǎng)絡(luò)的較早層使用低層特征增強(qiáng)編碼器的輸出侵状。 這些低級(jí)特征可能具有大量的特征圖赞弥,并且為了解決該問(wèn)題,利用1×1卷積來(lái)減少低層特征的通道數(shù)量趣兄。 否則绽左,在某些輕型backbone網(wǎng)中,由于通道數(shù)量較少(例如艇潭,在使用MobileNet的情況下為24個(gè)通道)拼窥,因此無(wú)需在低級(jí)特征上應(yīng)用1×1卷積
實(shí)驗(yàn)結(jié)果
DASPP模塊:圖3表一中的第二行所示,當(dāng)將DarkNet19的輸出步長(zhǎng)從32減小到16時(shí)暴区,準(zhǔn)確率上漲了2.37%闯团。保持MobileNetV2 和ShufleNet 步長(zhǎng)為32不變時(shí)辛臊,準(zhǔn)確率分別上漲了0.1%和0.9%仙粱。作者將DASPP模塊中的空洞卷積率設(shè)置為了3,6彻舰,9伐割,后面接了標(biāo)準(zhǔn)的3x3卷積。
預(yù)訓(xùn)練:作者采用了在粗略標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練的模型刃唤,結(jié)果如表1中的第三行隔心,結(jié)果分別上漲了0.7%,1.6%和1.3%尚胞。
多尺度輸入:表1中的第四行是多尺度輸出后預(yù)測(cè)結(jié)果的平均值硬霍,可以看出多尺度輸入對(duì)于網(wǎng)絡(luò)的準(zhǔn)確率提升是有幫助的。
深度可分離卷積:作者采用深度可分離卷積笼裳,來(lái)替換標(biāo)準(zhǔn)卷積唯卖,不僅降低了浮點(diǎn)運(yùn)算,而且還一定程度上提升了準(zhǔn)確率躬柬,如表1第五行所示拜轨。
? ? ? ? 作者將LiteSeg在cityscapes測(cè)試集中進(jìn)行實(shí)驗(yàn),允青,并將其結(jié)果與其他模型的結(jié)果進(jìn)行比較橄碾。? 如圖5所示,我們將測(cè)試集上的結(jié)果與其他用于語(yǔ)義圖像分割的最新實(shí)時(shí)模型進(jìn)行了比較颠锉。 盡管LiteSeg-DarkNet19與ERFNet相比具有較高的GFLOPS法牲,但它分別將ERFNet和DSNet的準(zhǔn)確度分別提高了2.75%和1.45%(如圖4),而速度上相對(duì)于ERFNet和DSNet僅僅慢了7 FPS和2.5 FPS(在360x640)琼掠。