從任務(wù)上來看澎现,語義分割要實現(xiàn)的最終目標(biāo)是像素級分類: 從像素層次來識別圖像猜拾,即為圖像中的每個像素指定類別標(biāo)記疏咐。
分割網(wǎng)絡(luò):Deeplabv3p
用一個簡單有效的解碼器模塊擴展DeepLabv3優(yōu)化細(xì)分結(jié)果担扑,尤其是沿目標(biāo)邊界琴许。此外,在這種編碼器—解碼器結(jié)構(gòu)中晾浴,可以通過空洞卷積(在模型的最后一個特征圖應(yīng)用全局平均池化)任意地控制所提取的編碼器特征的分辨率负乡,以折中準(zhǔn)確率和運行時間。
綜合了以下三個特點:
1脊凰、提高感受野的大卸都;
2狸涌、提高Encoder網(wǎng)絡(luò)的層數(shù)切省;
3、擴大了卷積核可觸達的區(qū)域即意味著擴大卷積所包含的信息范圍帕胆。
骨干網(wǎng)絡(luò):MobileNetv3
MobileNetv3作為一種輕量級網(wǎng)絡(luò)朝捆,其參數(shù)量還是一如既往的小,只有三四百萬參數(shù)量懒豹,不容易過擬合芙盘,分為large和small兩類,前者用于高資源用例脸秽,后者性能好儒老。主要利用網(wǎng)絡(luò)架構(gòu)搜索(NAS—NetAdapt Search)優(yōu)化每個網(wǎng)絡(luò)塊來搜索全局網(wǎng)絡(luò)結(jié)構(gòu)的一種算法,先升維后降維记餐,但當(dāng)降維過度時驮樊,ReLU會造成信息丟失,升維后容易保持可逆剥扣。優(yōu)化了網(wǎng)絡(luò)端部的最后階段巩剖,將最后一步的平均池化層前移并移除最后一個卷積層。
綜合了以下四個特點:
1钠怯、深度可分離卷積depthwise separable convolutions,在輸入1x1卷積進行升維度后曙聂,進行3x3深度可分離卷積晦炊,減少參數(shù)量和計算量,本質(zhì)是對冗余信息更少的稀疏化表達;
2断国、具有線性瓶頸的逆殘差結(jié)構(gòu)the inverted residual with linear bottleneck贤姆,先利用1x1卷積進行升維度,再進行下面的操作稳衬,并具有殘差邊霞捡,加深網(wǎng)絡(luò)層數(shù);
3薄疚、輕量級的注意力模型碧信,可調(diào)整每個通道的權(quán)重;
4街夭、利用hard-swish代替swish函數(shù)砰碴,由于在更深的網(wǎng)絡(luò)層中使用h-swish才能體現(xiàn)其優(yōu)勢,建議通常在模型的后半部分使用板丽,提高性能呈枉。