Panoptic FPN

Panoptic Feature Pyramid Networks

Jan 2019

Alexander Kirillov, Ross Girshick, Kaiming He, Piotr Dollár

[Facebook AI Research]

https://arxiv.org/abs/1901.02446

https://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Feature_Pyramid_Networks_CVPR_2019_paper.pdf

其它相關(guān):

FPN:https://zhuanlan.zhihu.com/p/62604038

FCN谷誓,F(xiàn)PN绒障,UNet對比總結(jié):http://www.reibang.com/p/f594850b8467

https://github.com/Andy-zhujunwen/FPN-Semantic-segmentation/blob/master/FPN-Seg/model/FPN.py

摘要:最近引入的全景分割任務(wù)重新激發(fā)了我們社區(qū)對統(tǒng)一實例分割(針對對象類)和語義分割(針對對象類)任務(wù)的興趣。然而捍歪,目前用于這項聯(lián)合任務(wù)的最先進的方法分別對語義分割和實例分割使用獨立和不同的網(wǎng)絡(luò)户辱,而不執(zhí)行任何計算共享。在這項工作中糙臼,我們的目標(biāo)是在架構(gòu)級別統(tǒng)一這些方法庐镐,為這兩項任務(wù)設(shè)計一個單一的網(wǎng)絡(luò)。我們的方法是賦予Mask R-CNN(一種流行的實例分割方法)一個語義分割分支弓摘,使用共享特征金字塔網(wǎng)絡(luò)(FPN)主干焚鹊。令人驚訝的是痕届,這個簡單的基線不僅對實例分割仍然有效韧献,而且還產(chǎn)生了一種輕量級的、性能一流的語義分割方法研叫。在這項工作中锤窑,我們對這個最小擴展版本的帶FPN的Mask R-CNN進行了詳細研究,我們稱之為Panoptic FPN嚷炉,并表明它是兩項任務(wù)的可靠和準(zhǔn)確的基線渊啰。鑒于其有效性和概念上的簡單性,我們希望我們的方法可以作為一個強大的基線,并幫助在全景分割未來的研究绘证。

1? ? 引言

我們的社區(qū)見證了語義分割的快速發(fā)展隧膏,其任務(wù)是為每個像素分配一個類標(biāo)簽(例如,對于stuff類)嚷那,以及最近的實例分割胞枕,其任務(wù)是檢測和分割每個對象實例(例如,對于thing類)魏宽。這些進步得益于簡單而強大的基線方法腐泻,包括分別用于語義和實例分割的全卷積網(wǎng)絡(luò)(FCN)[41]和Mask R-CNN[24]。這些方法在概念上簡單队询、快速派桩、靈活,為這些領(lǐng)域的大部分后續(xù)進展奠定了基礎(chǔ)蚌斩。在這項工作中铆惑,我們的目標(biāo)是為全景分割[30]的聯(lián)合任務(wù)提出一個類似簡單的單一網(wǎng)絡(luò)基線,該任務(wù)包括語義和實例分割送膳。

雖然概念上很簡單鸭津,但設(shè)計一個單一的網(wǎng)絡(luò)來實現(xiàn)兩項任務(wù)的高精度是一個挑戰(zhàn),因為兩項任務(wù)的最佳執(zhí)行方法有很多不同肠缨。在語義分割方面逆趋,通過擴張卷積[57,10]增強的具有專門主干的FCN在流行排行榜上占據(jù)主導(dǎo)地位[18,14]。對于實例分割晒奕,基于特征金字塔網(wǎng)絡(luò)(FPN)[36 ]主干的基于區(qū)域的Mask R-CNN(24)已被用作最近識別挑戰(zhàn)中的所有先進方法的基礎(chǔ)[37, 60, 43 ]闻书。雖然有人試圖統(tǒng)一語義和實例分割[46,1,9],但鑒于它們的并行開發(fā)和單獨的基準(zhǔn)脑慧,目前在每一個方面實現(xiàn)最佳性能所需的專業(yè)化可能是不可避免的魄眉。

考慮到這些頂級方法的架構(gòu)差異,人們可能會認(rèn)為闷袒,在為這兩個任務(wù)設(shè)計單一網(wǎng)絡(luò)時坑律,在實例或語義分割上都需要犧牲準(zhǔn)確性。相反囊骤,我們展示了一個簡單晃择、靈活、有效的架構(gòu)也物,它可以使用一個單一的網(wǎng)絡(luò)宫屠,同時生成基于區(qū)域的輸出(實例分割)和密集像素輸出(用于語義分割),來匹配兩個任務(wù)的精度滑蚯。

我們的方法從FPN[36]主干(在實例識別[24]中常用)開始浪蹂,并添加了一個用于執(zhí)行語義分割的分支抵栈,與現(xiàn)有的基于區(qū)域的分支(例如實例分割)并行,見圖1坤次。在添加密集預(yù)測分支時古劲,我們不改變FPN主干,使其與現(xiàn)有的實例分割方法兼容缰猴。我們的方法稱為Panoptic FPN绢慢,因為它能夠通過FPN生成實例和語義分割,在Mask R-CNN框架下易于實現(xiàn)[23]洛波。

圖1:Panoptic FPN:(a) 我們從FPN主干[36]開始胰舆,該主干廣泛用于物體檢測,用于提取豐富的多尺度特征蹬挤。(b) 和Mask R-CNN[24]一樣缚窿,我們使用FPN頂部的基于區(qū)域的分支進行實例分割。(c) 同時焰扳,我們在相同F(xiàn)PN特征之上添加了一個輕量級的密集表示分支倦零,用于語義分割。這種帶有FPN的Mask RCNN的簡單擴展是兩項任務(wù)的快速準(zhǔn)確基線吨悍。Figure 1: Panoptic FPN: (a) We start with an FPN backbone [36], widely used in object detection, for extracting rich multi-scale features. (b) As in Mask R-CNN [24], we use a region-based branch on top of FPN for instance segmentation. (c) In parallel, we add a lightweight denseprediction branch on top of the same FPN features for semantic segmentation. This simple extension of Mask RCNN with FPN is a fast and accurate baseline for both tasks.

雖然全景FPN是帶FPN的Mask RCNN的直觀擴展扫茅,但正確地訓(xùn)練這兩個分支以實現(xiàn)同時基于區(qū)域和密集像素的預(yù)測對于獲得良好的結(jié)果非常重要。我們在聯(lián)合環(huán)境中仔細研究了如何平衡兩個分支的損失育瓜,有效地構(gòu)建小批量葫隙,調(diào)整學(xué)習(xí)率計劃,以及執(zhí)行數(shù)據(jù)擴充躏仇。我們還探討了語義分割分支的各種設(shè)計(所有其他網(wǎng)絡(luò)組件都遵循Mask R-CNN)恋脚。總的來說焰手,雖然我們的方法對精確的設(shè)計選擇很魯棒糟描,但正確解決這些問題是取得良好結(jié)果的關(guān)鍵。

當(dāng)針對每個任務(wù)進行獨立訓(xùn)練時书妻,我們的方法在COCO[37]和Cityscapes[14]上的實例和語義分割都取得了優(yōu)異的結(jié)果船响。對于實例分割,這是預(yù)期的躲履,因為我們在這種情況下的方法相當(dāng)于Mask R-CNN见间。對于語義分割,我們簡單的密集預(yù)測分支附加到FPN崇呵,達到了與最新的基于擴張卷積的方法(例如最近的DeepLabV3+[12])相當(dāng)?shù)臏?zhǔn)確度缤剧。

對于全景分割[30]馅袁,我們證明域慷,通過適當(dāng)?shù)挠?xùn)練,使用一個FPN同時解決兩個任務(wù)可以獲得相當(dāng)于訓(xùn)練兩個獨立FPN的精度,計算量大約為一半犹褒。在相同的計算量下抵窒,兩個任務(wù)的聯(lián)合網(wǎng)絡(luò)比兩個獨立網(wǎng)絡(luò)的性能要好得多。圖2顯示了示例全景分割結(jié)果叠骑。

圖2:使用單個ResNet-101-FPN網(wǎng)絡(luò)對COCO(頂部)和Cityscapes(底部)的Panoptic FPN結(jié)果李皇。Figure 2: Panoptic FPN results on COCO (top) and Cityscapes (bottom) using a single ResNet-101-FPN network.

全景FPN的內(nèi)存和計算效率都很高,與Mask R-CNN相比只產(chǎn)生了少量開銷宙枷。通過避免使用具有高開銷的擴張卷積掉房,我們的方法可以使用任何標(biāo)準(zhǔn)的性能最好的主干網(wǎng)(例如,大型ResNeXt[55])慰丛。我們相信這種靈活性卓囚,再加上我們方法的快速訓(xùn)練和推理速度,將有助于未來的全景分割研究诅病。

我們使用了我們的模型的初步版本(僅語義分割分支)作為基礎(chǔ)的第一次獲獎的條目在COCO stuff 分割[ 6 ]賽道在2017哪亿。(We used a preliminary version of our model (semantic segmentation branch only) as the foundation of the first-place winning entry in the COCO Stuff Segmentation [6] track in 2017.)自那以后,這種單一分支模式已被2018年COCO和Mapillary Challenges 1中的多個條目采用和推廣贤笆,顯示出其靈活性和有效性蝇棉。我們希望我們提出的聯(lián)合全景分割基線同樣有效。

2????相關(guān)工作

全景分割:? ? thing and stuff分割的聯(lián)合任務(wù)有著豐富的歷史芥永,包括場景解析[51]篡殷、圖像解析[52]和整體場景理解[56]的早期工作。隨著最近聯(lián)合全景分割任務(wù)[30]的引入埋涧,包括一個簡單的任務(wù)規(guī)范和精心設(shè)計的任務(wù)度量贴唇,人們對聯(lián)合任務(wù)重新產(chǎn)生了興趣。

今年的COCO和Mapillary識別挑戰(zhàn)[37,43]展示了廣受歡迎的全景分割賽道飞袋。然而戳气,在全景挑戰(zhàn)中,每個競爭對手對語義分割和實例分割都使用單獨的網(wǎng)絡(luò)巧鸭,沒有計算的共享瓶您。我們的目標(biāo)是為這兩項任務(wù)設(shè)計一個有效的單一網(wǎng)絡(luò),作為未來工作的基線纲仍。

實例分割:????基于區(qū)域的目標(biāo)檢測方法呀袱,包括Slow/Fast/Faster/Mask R-CNN系列[22,21,48,24],在候選目標(biāo)區(qū)域應(yīng)用深度網(wǎng)絡(luò)郑叠,已被證明非常成功夜赵。COCO檢測挑戰(zhàn)賽的所有近期獲獎?wù)叨际腔趲в蠪PN[36]的Mask R-CNN[24],包括2017年[39,45]和2018年乡革。最近的創(chuàng)新包括級聯(lián)R-CNN[7]寇僧、可變形卷積[15]和sync batch norm[45]摊腋。在這項工作中,帶有FPN的原始Mask R-CNN作為我們基線的起點嘁傀,為我們提供了出色的實例分割性能兴蒸,并使我們的方法與這些最新進展完全兼容。

基于區(qū)域的實例分割的一種替代方法是從像素級語義分割開始细办,然后執(zhí)行分組以提取實例[31,38,1]橙凳。這一方向具有創(chuàng)新性和前景。然而笑撞,這些方法傾向于使用單獨的網(wǎng)絡(luò)來預(yù)測instance-level信息(例如岛啸,[31,1,38]分別使用單獨的網(wǎng)絡(luò)來預(yù)測實例邊、邊界框和對象斷點)茴肥。我們的目標(biāo)是為聯(lián)合任務(wù)設(shè)計一個單一的網(wǎng)絡(luò)值戳。另一個有趣的方向是使用位置敏感像素標(biāo)記[35]對實例信息進行完全卷積編碼;[46,9]以此為基礎(chǔ)炉爆。

然而堕虹,基于區(qū)域的方法在檢測排行榜上仍然占主導(dǎo)地位[37,60,43]。雖然這促使我們從基于區(qū)域的實例分割方法開始芬首,但我們的方法與實例分割的密集預(yù)測分支完全兼容(編者注:這里似乎是原文筆誤赴捞,應(yīng)該是“但我們的方法與語義分割的密集預(yù)測分支完全兼容”)。

語義分割:????FCNS(41)是現(xiàn)代語義分割方法的基礎(chǔ)郁稍。為了提高生成高質(zhì)量結(jié)果所必需的特征分辨率赦政,最近的頂級方法[12、58耀怜、5恢着、59]嚴(yán)重依賴于使用擴張卷積[57](也稱為孔洞卷積[10])。這種方法雖然有效财破,但顯著增加計算和內(nèi)存掰派,從而限制可使用的主干網(wǎng)絡(luò)類型。為了保持這種靈活性左痢,更重要的是保持與Mask R-CNN的兼容性靡羡,我們選擇了不同的方法。

作為擴張卷積的替代方案俊性,可以使用編碼器-解碼器[2]或“U-Net”[49]架構(gòu)來提高特征分辨率[26略步、44、20定页、47]趟薄。編碼器-解碼器逐步增加采樣,并將前饋網(wǎng)絡(luò)的高級特征與低級特征相結(jié)合典徊,最終生成語義上有意義的高分辨率特征(見圖5)杭煎。雖然擴展網(wǎng)絡(luò)目前更受歡迎恩够,并在排行榜上占據(jù)主導(dǎo)地位,但編碼器-解碼器也被用于語義分割[49,2,20]岔帽。

在我們的工作中玫鸟,我們采用了一種編碼器-解碼器框架秒紧,即FPN[36]挺身。與“對稱”解碼器[49]相比副女,F(xiàn)PN使用了一個輕量級解碼器(見圖5)。FPN的設(shè)計就是為了進行實例分割贾费,它是Mask R-CNN的默認(rèn)主干。我們發(fā)現(xiàn)檐盟,在不做任何改變的情況下褂萧,F(xiàn)PN也可以非常有效地進行語義分割。

多任務(wù)學(xué)習(xí):????我們的方法與多任務(wù)學(xué)習(xí)相關(guān)葵萎。一般來說导犹,使用一個網(wǎng)絡(luò)來解決多個不同的任務(wù)會降低性能[32],但各種策略可以緩解這一問題[29,42]羡忘。對于相關(guān)任務(wù)谎痢,可以從多任務(wù)學(xué)習(xí)中獲得收益,例如卷雕,Mask R-CNN中的box分支受益于Mask分支[24]节猿,對thing類的聯(lián)合檢測和語義分割也顯示了收益[3,8,17,46]。我們的工作研究了多任務(wù)訓(xùn)練對stuff and thing分割的好處漫雕。

3????Panoptic FPN

我們的方法是一個簡單的單一網(wǎng)絡(luò)基線滨嘱,其目標(biāo)是在實例和語義分割以及它們的聯(lián)合任務(wù):全景分割[30]上實現(xiàn)最佳性能。我們的設(shè)計原則是從帶有FPN的Mask R-CNN開始浸间,F(xiàn)PN是一個強大的實例分割基線太雨,我們對其進行最小的更改,以生成語義分割密集的像素輸出(見圖1)魁蒜。

3.1????模型架構(gòu)

特征金字塔網(wǎng)絡(luò):????我們首先簡要回顧FPN[36]躺彬。FPN采用具有多個空間分辨率特征的標(biāo)準(zhǔn)網(wǎng)絡(luò)(如ResNet[25]),并添加了帶有橫向連接的輕型自上而下路徑梅惯,見圖1a宪拥。自上而下的路徑從網(wǎng)絡(luò)的最深層開始,并逐漸上采樣铣减,同時從自下而上的路徑添加更高分辨率特征的轉(zhuǎn)換版本她君。FPN生成一個金字塔,通常具有1/32到1/4分辨率的比例葫哗,其中每個金字塔級別具有相同的通道維度(默認(rèn)為256)缔刹。

(FPN takes a standard network with features at multiple spatial resolutions (e.g., ResNet [25]), and adds a light top-down pathway with lateral connections, see Figure 1a. The top-down pathway starts from the deepest layer of the network and progressively upsamples it while adding in transformed versions of higher-resolution features from the bottom-up pathway. FPN generates a pyramid, typically with scales from 1/32 to 1/4 resolution, where each pyramid level has the same channel dimension (256 by default).)

實例分割分支:????FPN的設(shè)計球涛,尤其是對所有金字塔級使用相同的通道數(shù),使得附加基于區(qū)域的物體檢測頭變得很容易校镐,比如Faster R-CNN[48]亿扁。Faster R-CNN在不同的金字塔級上執(zhí)行感興趣區(qū)域(RoI)pooling,并應(yīng)用共享網(wǎng)絡(luò)分支來預(yù)測每個區(qū)域的優(yōu)化框和類標(biāo)簽鸟廓。為了輸出實例分割从祝,我們使用Mask R-CNN[24],它通過添加一個FCN分支來預(yù)測每個候選區(qū)域的二進制分割掩碼引谜,從而擴展了Faster R-CNN牍陌,見圖1b。

Panoptic FPN:????如前所述员咽,我們的方法是修改帶FPN的Mask R-CNN毒涧,以實現(xiàn)像素級語義分割預(yù)測。然而贝室,為了實現(xiàn)準(zhǔn)確的預(yù)測契讲,用于此任務(wù)的功能應(yīng)該:(1)具有適當(dāng)?shù)母叻直媛室圆东@精細結(jié)構(gòu),(2)編碼足夠豐富的語義以準(zhǔn)確預(yù)測類標(biāo)簽滑频,以及(3)捕獲多尺度信息以在多個分辨率下預(yù)測stuff區(qū)域捡偏。雖然FPN是為目標(biāo)檢測而設(shè)計的,但這些要求——高分辨率误趴、豐富霹琼、多尺度的特征——準(zhǔn)確地對應(yīng)了FPN的特征。因此凉当,我們建議在FPN上附加一個簡單而快速的語義分割分支枣申,如下所述。

語義分割分支:????為了從FPN特征生成語義分割輸出看杭,我們提出了一種簡單的設(shè)計忠藤,將FPN金字塔的所有級的信息合并到一個輸出中。圖3對其進行了詳細說明楼雹。從最深的FPN級別(1/32尺寸)開始模孩,我們執(zhí)行三個上采樣階段,以產(chǎn)生1/4尺寸的特征圖贮缅,其中每個上采樣階段包括3×3卷積榨咐、group norm[54]、ReLU和2×雙線性上采樣谴供。對于FPN的1/16块茁、1/8和1/4尺寸重復(fù)該策略(上采樣階段逐漸減少)。結(jié)果是一組具有相同1/4尺寸的特征圖,然后按元素求和数焊。最后使用1×1卷積永淌、4×雙線性上采樣和softmax以原始圖像分辨率生成每像素類別標(biāo)簽。除了stuff類別佩耳,該分支還為屬于物體的所有像素輸出一個特殊的“other”類(以避免預(yù)測此類像素的為stuff類)遂蛀。(編者注:人,車等有固定形狀的物體屬于 things 類別(可數(shù)名詞通常屬于 things)干厚;天空李滴,草地等沒有固定形狀的物體屬于 stuff 類別(不可數(shù)名詞屬于 stuff))

圖3:語義分割分支。每個FPN級(左)通過卷積和雙線性插值進行上采樣萍诱,直到達到1/4尺寸(右)悬嗓,然后將這些輸出相加污呼,最終轉(zhuǎn)換為像素級輸出裕坊。Figure 3: Semantic segmentation branch. Each FPN level (left) is upsampled by convolutions and bilinear upsampling until it reaches 1/4 scale (right), theses outputs are then summed and finally transformed into a pixel-wise output.

實施細節(jié):????我們使用標(biāo)準(zhǔn)的FPN配置,每個尺寸有256個輸出通道燕酷,我們的語義分割分支將其減少到128個通道籍凝。對于(預(yù)FPN)主干,我們使用在ImageNet[50]上使用批處理歸一化(BN)[28]預(yù)訓(xùn)練的ResNet/ResNeXt[25,55]模型苗缩。當(dāng)用于微調(diào)時饵蒂,我們用固定的通道仿射變換(a fixed channel-wise affine transformation)替換BN,這是典型的[25]酱讶。

3.2????推理與訓(xùn)練

全景推理:????全景輸出格式[30]要求為每個輸出像素分配一個類標(biāo)簽(或void)和實例id(對于stuff類忽略實例id)退盯。由于全景FPN的實例和語義分割輸出可能重疊;我們應(yīng)用[30]中提出的簡單后處理來解決所有重疊泻肯。這種后處理在本質(zhì)上類似于非最大化抑制渊迁,其操作方式是:(1)根據(jù)不同實例的置信度得分解決不同實例之間的重疊,(2)解決實例和語義分割輸出之間的重疊灶挟,以利于實例琉朽,以及(3)移除標(biāo)記為“other”或低于給定區(qū)域閾值的任何填充區(qū)域。

聯(lián)合訓(xùn)練:????在訓(xùn)練期間稚铣,實例分割分支有三個損失[24]:L_\texttt{c}(分類損失)箱叁、L_\texttt(邊框損失)和L_\texttt{m}(掩碼損失)惕医「總實例分割損失是這些損失的總和,其中L_\texttt{c}L_\texttt抬伺通過采樣ROI的數(shù)量標(biāo)準(zhǔn)化螟够,L_\texttt{m}通過前景ROI的數(shù)量標(biāo)準(zhǔn)化。語義分割損失L_\texttt{s}計算為預(yù)測和真值標(biāo)簽之間的每像素交叉熵?fù)p失沛简,通過標(biāo)記圖像像素數(shù)進行歸一化齐鲤。

我們觀察到斥废,這兩個分支的損失具有不同的規(guī)模和歸一化策略。簡單地兩者相加會降低其中一項任務(wù)的最終性能给郊。這可以通過在總實例分割損失和語義分割損失之間進行簡單的損失重新加權(quán)來糾正牡肉。因此,我們的最終損失是:L = \lambda_\texttt{i} \left( L_\texttt{c} +  L_\texttt淆九 + L_\texttt{m} \right) + \lambda_\texttt{s} L_\texttt{s}统锤。通過調(diào)整\lambda_\texttt{i}\lambda_\texttt{s},可以訓(xùn)練一個與兩個單獨的任務(wù)特定模型相當(dāng)?shù)哪P吞棵恚嬎懔考s為一半饲窿。

3.3????分析????

我們使用FPN預(yù)測語義分割的動機是創(chuàng)建一個簡單、單一的網(wǎng)絡(luò)基線焕蹄,可以執(zhí)行實例和語義分割逾雄。然而,有趣的是鸦泳,考慮我們的方法的內(nèi)存和計算足跡相對流行的語義分割的模型架構(gòu)永品。產(chǎn)生高分辨率輸出的最常見設(shè)計是擴張卷積(圖5b)和對稱編碼器模型,它們具有帶橫向連接的鏡像解碼器(圖5c)鼎姐。雖然我們的主要動機是與Mask R-CNN的兼容性钾麸,但我們注意到FPN比通常使用的dilation-8網(wǎng)絡(luò)輕得多炕桨,比對稱編碼器-解碼器的效率高~2倍,大致相當(dāng)于dilation-16網(wǎng)絡(luò)(同時產(chǎn)生4倍更高的分辨率輸出)谋作。參見圖4芋肠。

圖4:主干架構(gòu)效率。我們比較了提高語義分割特征分辨率的方法帖池,包括擴張網(wǎng)絡(luò)吭净、對稱解碼器和FPN,見圖5囚巴。我們計算將ResNet-101應(yīng)用于200萬像素圖像時使用的乘法加法和內(nèi)存。輸出比例為1/4的FPN在計算上類似于擴張-16(1/16分辨率輸出)彤叉,但產(chǎn)生4倍更高的分辨率輸出秽浇。通過擴張將分辨率提高到1/8,需要更多約3倍的計算和內(nèi)存柬焕。Figure 4: Backbone architecture efficiency. We compare methods for increasing feature resolution for semantic segmentation, including dilated networks, symmetric decoders, and FPN, see Figure 5. We count multiply-adds and memory used when applying ResNet-101 to a 2 megapixel image. FPN at output scale 1/4 is similar computationally to dilation-16 (1/16 resolution output), but produces a 4× higher resolution output. Increasing resolution to 1/8 via dilation uses a further ~3× more compute and memory.
圖5:提高特征分辨率的主干架構(gòu)斑举。(a)標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)(維度表示為#塊×#信道×分辨率)。(b)一種常見的方法是減少選擇卷積的步長璧坟,然后使用擴展卷積進行補償凌彬。(c)U-Net[49]風(fēng)格的網(wǎng)絡(luò)使用對稱解碼器铲敛,該解碼器鏡像自底向上的路徑会钝,但反過來。(d)FPN可以看作是一種不對稱的先鱼、輕量級的解碼器奸鬓,其自頂向下的路徑每個階段只有一個塊,并且使用共享的通道維度串远。關(guān)于這些模型的效率比較澡罚,請參見圖4。Figure 5: Backbone architectures for increasing feature resolution. (a) A standard convolutional network (dimensions are denoted as #blocks×#channels×resolution). (b) A common approach is to reduce the stride of select convolutions and use dilated convolutions after to compensate. (c) A U-Net [49] style network uses a symmetric decoder that mirrors the bottom-up pathway, but in reverse. (d) FPN can be seen as an asymmetric, lightweight decoder whose top-down pathway has only one block per stage and uses a shared channel dimension. For a comparison of the efficiency of these models, please see Figure 4.

4????實驗

我們的目標(biāo)是證明我們的方法更胖,全景FPN,可以作為簡單有效的單一網(wǎng)絡(luò)基線却妨,用于實例分割彪标、語義分割,以及它們的全景分割聯(lián)合任務(wù)[30]账锹。對于實例分割坷襟,這是預(yù)期的,因為我們的方法用FPN擴展了Mask R-CNN婴程。對于語義分割档叔,我們只需在FPN上附加一個輕量級的密集像素預(yù)測分支(圖3),我們需要證明它可以與最新的方法競爭铃肯。最后,我們必須證明押逼,全景FPN可以在多任務(wù)環(huán)境中進行訓(xùn)練惦界,而不會損失單個任務(wù)的準(zhǔn)確性沾歪。

因此,我們首先測試我們的語義分割方法(我們將這個單一任務(wù)變量稱為Semantic FPN)挫望。令人驚訝的是确镊,這個簡單的模型在COCO[37]和Cityscapes[14]數(shù)據(jù)集上獲得了有競爭力的語義分割結(jié)果蕾域。接下來到旦,我們分析了語義分割分支與Mask R-CNN的整合巨缘,以及聯(lián)合訓(xùn)練的效果若锁。最后,我們展示了全景分割的結(jié)果仲器,同樣是在COCO和城市景觀上仰冠。定性結(jié)果如圖2和圖6所示。接下來我們將介紹實驗設(shè)置辆沦。

4.1????實驗設(shè)置

COCO:????COCO數(shù)據(jù)集[37]的開發(fā)側(cè)重于實例分割肢扯,但最近添加了內(nèi)容注釋[6]担锤。對于實例分割,我們使用2017年的數(shù)據(jù)劃分蛛株,其中包含118k/5k/20k train/val/測試圖像和80個thing類。對于語義分割欢摄,我們使用2017年的stuff數(shù)據(jù)怀挠,其中包含40k/5k/5k劃分和92個stuff類。最后闷畸,全景分割[30]使用了2017年所有COCO圖像吞滞,注釋了80個thing 和53個stuff類。

城市景觀:????Cityscapes[14]是一個以ego-centric的街景數(shù)據(jù)集殿漠。它有5k個高分辨率圖像(1024×2048像素)绞幌,帶有精細的像素精確注釋:2975個訓(xùn)練樣本、500個驗證樣本和1525個測試樣本谭确。另外還有20k帶有粗略注釋的圖像票渠,我們在實驗中不使用這些圖像庄新。共有19個類,其中8個具有實例級掩碼

單任務(wù)指標(biāo):????我們使用每個數(shù)據(jù)集提供的評估代碼報告單個任務(wù)的標(biāo)準(zhǔn)語義和實例分割度量械蹋。對于語義分割羞芍,mIoU(聯(lián)合的平均交集)[18]是COCO和城市景觀的主要指標(biāo)荷科。我們還報告了COCO[6]上的fIoU(頻率加權(quán)IoU)和城市景觀[14]上的iIoU(實例級IoU)。對于實例分割胆胰,AP(average precision averaged over categories and IoU thresholds)[37]是主要指標(biāo)刻获,AP50和AP75是選定的補充指標(biāo)蝎毡。

全景分割度量:????我們使用PQ(全景質(zhì)量)作為衡量全景FPN性能的默認(rèn)指標(biāo),詳情請參見[30]别垮。PQ捕獲識別和分割質(zhì)量扎谎,并以統(tǒng)一的方式處理stuff和thing類別。這個單一的移袍、統(tǒng)一的指標(biāo)允許我們直接比較方法葡盗。此外,我們使用\text{PQ}^\text{St}\text{PQ}^\text{Th}分別報告stuff和thing性能胶背。請注意钳吟,PQ是在對語義和實例分支的輸出后處理合并過程之后用于評估全景FPN預(yù)測窘拯。

COCO訓(xùn)練:????我們使用默認(rèn)的Mask R-CNN 1×訓(xùn)練設(shè)置[23],帶有縮放抖動(圖像短邊在[640,800]范圍)暇番。對于語義分割壁酬,對于所有80個thing類別恨课,我們預(yù)測53個stuff類和一個“other”類別剂公。

城市景觀訓(xùn)練:????在將每個圖像隨機縮放0.5到2.0倍后,我們從32個隨機的512×1024個圖像裁剪(每個GPU 4個裁剪)構(gòu)建每個小批量斜纪。我們訓(xùn)練65k次迭代文兑,從學(xué)習(xí)率為0.01開始腺劣,在40k和55k次迭代時降低10倍橘原。這不同于原始的Mask R-CNN設(shè)置[24]涡上,但對實例和語義分割都有效吩愧。對于語義分割的最大主干增显,我們執(zhí)行顏色增強[40]和裁剪引導(dǎo)[5]。對于語義分割同云,預(yù)測所有事物類炸站,而不是單一的“其他”標(biāo)簽,性能更好(對于全景推理禁偎,我們放棄這些預(yù)測)如暖。由于mIoU的高方差(高達0.4)全释,我們報告了在城市景觀上每個實驗的5個試驗的平均性能浸船。

4.2????用于語義分割的FPN

城市景觀:????表1a中,我們首先將我們的基線語義FPN與城市景觀val分割的現(xiàn)有方法進行比較登淘。我們將其與最新的高性能方法進行比較封字,但與通常使用模型集成阔籽、COCO預(yù)訓(xùn)練、測試時增強等的競爭實體不進行比較绅这。我們的方法是FPN的最小擴展证薇,與經(jīng)過多次設(shè)計迭代的DeepLabV3+[12]等系統(tǒng)相比,能夠獲得強大的結(jié)果寇窑。在計算和內(nèi)存方面箩张,語義FPN比典型的擴張模型輕伏钠,同時產(chǎn)生更高分辨率的特征(見圖4)。我們注意到缎浇,在FPN中添加擴張可能會產(chǎn)生進一步的改進赴肚,但超出了本工作的范圍。此外指厌,在我們的基線中踊跟,我們故意避免了非局部[53]或SE[27]等正交架構(gòu)改進商玫,這可能會產(chǎn)生進一步的收益∠欤總的來說御铃,這些結(jié)果表明我們的方法是一個強大的語義分割基線沈矿。

COCO:????我們的方法的早期版本贏得了2017年COCO Stuff挑戰(zhàn)賽羹膳。結(jié)果見表1b。由于這是一個早期設(shè)計湃缎,語義分支的功能稍有不同(每個上采樣模塊有兩個3×3 conv層和ReLU蠢壹,然后再雙線性上縮放到最終分辨率图贸,特征是串聯(lián)的,而不是求和的偿洁,請與圖3進行比較)涕滋。正如我們不久將在燒蝕中展示的挠阁,結(jié)果對于精確的分支設(shè)計是相當(dāng)可靠的侵俗。我們的參賽作品接受了色彩增強訓(xùn)練[40],在測試時平衡了類別分布增拥,并使用了多尺度推理掌栅。最后熄求,我們注意到弟晚,當(dāng)時我們使用了一個特定于語義分割的訓(xùn)練計劃,類似于我們的城市景觀計劃(但學(xué)習(xí)率加倍枚钓,批量減半)搀捷。

消融:????我們進行了一些消融來分析我們提出的語義分割分支(如圖3所示)。為了與本文中的進一步實驗保持一致氢烘,我們使用了COCO全景數(shù)據(jù)集中的stuff標(biāo)注(正如所討論的播玖,這些標(biāo)注不同于COCO-stuff競賽中使用的標(biāo)注)饭于。表1c顯示了在語義分支中具有不同通道數(shù)的ResNet-50語義FPN掰吕。我們發(fā)現(xiàn)128在準(zhǔn)確性和效率之間取得了很好的平衡。在表1d中局待,我們比較了從不同F(xiàn)PN級聚合特征圖的元素求和與拼接燎猛。雖然兩者的準(zhǔn)確度相當(dāng)照皆,但求和更高效膜毁。總的來說候醒,我們觀察到倒淫,新的密集像素標(biāo)簽分支的簡單架構(gòu)對于精確的設(shè)計選擇是魯棒的败玉。

4.3????多任務(wù)訓(xùn)練

我們方法的單任務(wù)性能相當(dāng)有效运翼;對于語義分割血淌,上一節(jié)中的結(jié)果證明了這一點,例對于實例分割癌淮,我們是從Mask R-CNN開始该默。然而,我們能否在多任務(wù)環(huán)境中為這兩項任務(wù)進行聯(lián)合訓(xùn)練店诗?

為了將我們的語義分割分支與Mask R-CNN中的實例分割分支結(jié)合起來,我們需要確定如何訓(xùn)練一個單一的捧弃、統(tǒng)一的網(wǎng)絡(luò)违霞。之前的研究表明瞬场,多任務(wù)訓(xùn)練往往具有挑戰(zhàn)性贯被,可能會導(dǎo)致結(jié)果下降[32,29]彤灶。我們同樣觀察到,對于語義或?qū)嵗指钏薪c單個任務(wù)基線相比棚唆,添加輔助任務(wù)可能會降低準(zhǔn)確性搬卒。

在表2中契邀,我們表明,在ResNet-50-FPN情況下微饥,使用一個簡單的損失縮放加權(quán)欠橘,在語義分割損失\lambda_\texttt{s}肃续,或者在實例分割損失上\lambda_\texttt{i}始锚,我們可以獲得一個重新加權(quán),從而改善單個任務(wù)基線的結(jié)果棵里。具體來說殿怜,添加帶有適當(dāng)\lambda_\texttt{s}的語義分割分支可以改進實例分割曙砂,反之亦然麦轰。這可以用來改善單個任務(wù)的結(jié)果款侵。然而新锈,我們的主要目標(biāo)是同時解決這兩項任務(wù),我們將在下一節(jié)中對此進行探討块请。

4.4????全景FPN

現(xiàn)在我們轉(zhuǎn)向我們的主要結(jié)果:測試全景FPN墩新,以完成全景分割的聯(lián)合任務(wù)[30]海渊,其中網(wǎng)絡(luò)必須聯(lián)合且準(zhǔn)確地輸出stuff and thing分割臣疑。對于以下實驗,對于每個設(shè)置郁岩,我們從{0.5,0.75,1.0}中選擇最佳的\lambda_\texttt{s}\lambda_\texttt{i}问慎,確保結(jié)果不會因λ的固定選擇而扭曲(skewed)蝴乔。

主要結(jié)果:????在表3a中,我們比較了兩個單獨訓(xùn)練的網(wǎng)絡(luò)與單主干的全景FPN片酝。全景FPN的精度相當(dāng),但計算量約為一半(主干網(wǎng)主導(dǎo)計算雕沿,因此減少了近50%)练湿。我們還通過比較兩個單獨的使用ResNet50主干的網(wǎng)絡(luò),與使用ResNet-101主干的Panopoptic FPN审轮,來平衡計算預(yù)算肥哎,見表3b。使用大致相同的計算預(yù)算疾渣,全景FPN的性能明顯優(yōu)于兩個獨立的網(wǎng)絡(luò)篡诽。綜上所述榴捡,這些結(jié)果表明杈女,聯(lián)合方法是絕對有益的,我們的全景FPN可以作為聯(lián)合任務(wù)的堅實基線吊圾。

消融:????我們使用ResNet-50對全景FPN進行額外的消融达椰。首先,默認(rèn)情況下项乒,我們在每次梯度更新期間將實例和語義損失結(jié)合在一起啰劲。不同的策略是在每次迭代中交替損失(這可能很有用,因為兩個任務(wù)可以使用不同的增強策略)檀何。我們在表3c中比較了這兩個選項蝇裤;組合損失顯示出更好的性能廷支。接下來,在表3d中猖辫,我們將FPN通道分為兩組酥泞,每個任務(wù)使用兩個特征集中的一個作為其輸入。雖然結(jié)果喜憂參半啃憎,但我們預(yù)計更復(fù)雜的多任務(wù)方法可能會帶來更大的收益芝囤。

比較:????我們通過比較全景FPN和現(xiàn)有方法得出結(jié)論。在這些實驗中辛萍,我們使用了帶有ResNet-101主干的全景FPN悯姊,并且沒有bells-and-whistles。在表4a中贩毕,我們表明悯许,在最近的COCO全景分割挑戰(zhàn)中,全景FPN顯著優(yōu)于所有單一模型條目辉阶。這為全景分割任務(wù)建立了一個新的基線先壕。在城市景觀方面,我們將全景FPN與表4b中[1]最近提出的全景分割方法進行了比較谆甜。全景FPN以 4.3 point PQ margin優(yōu)于[1]垃僚。

5????結(jié)論

我們介紹了一個概念簡單但有效的全景分割基線。該方法從帶有FPN的Mask R-CNN開始规辱,并在其中添加了一個輕量級語義分割分支谆棺,用于密集像素預(yù)測。希望能為今后的研究打下堅實的基礎(chǔ)罕袋。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末改淑,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子浴讯,更是在濱河造成了極大的恐慌朵夏,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兰珍,死亡現(xiàn)場離奇詭異侍郭,居然都是意外死亡,警方通過查閱死者的電腦和手機掠河,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門亮元,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人唠摹,你說我怎么就攤上這事爆捞。” “怎么了勾拉?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵煮甥,是天一觀的道長盗温。 經(jīng)常有香客問我,道長成肘,這世上最難降的妖魔是什么卖局? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮双霍,結(jié)果婚禮上砚偶,老公的妹妹穿的比我還像新娘。我一直安慰自己洒闸,他們只是感情好染坯,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著丘逸,像睡著了一般单鹿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上深纲,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天仲锄,我揣著相機與錄音,去河邊找鬼湃鹊。 笑死昼窗,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涛舍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼唆途,長吁一口氣:“原來是場噩夢啊……” “哼富雅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起肛搬,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤没佑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后温赔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛤奢,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡陶贼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年啤贩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痹屹。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡培廓,死狀恐怖肩钠,靈堂內(nèi)的尸體忽然破棺而出蔬将,到底是詐尸還是另有隱情霞怀,我是刑警寧澤毙石,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布鳞骤,位于F島的核電站黍判,受9級特大地震影響榴嗅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜优炬,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一蠢护、第九天 我趴在偏房一處隱蔽的房頂上張望葵硕。 院中可真熱鬧悄谐,春花似錦们陆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽弓乙。三九已至,卻和暖如春巧婶,著一層夾襖步出監(jiān)牢的瞬間湿右,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工赵刑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人场刑。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓般此,卻偏偏與公主長得像,于是被迫代替她去往敵國和親牵现。 傳聞我的和親對象是個殘疾皇子铐懊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容