用于語義分割的物體上下文表示

https://paperswithcode.com/paper/object-contextual-representations-for#code

https://github.com/HRNet/HRNet-Semantic-Segmentation/tree/HRNet-OCR

HRNet v2 + OCR +SigFix

這實際上是3篇論文

https://arxiv.org/abs/1909.11065v5

https://github.com/openseg-group/openseg.pytorch

作者還特別推薦他們做的SigFix

可以考慮一個（擴張的）mobilenet v3 + OCR + SegFix的

或者（擴張的） ResNeSt + OCR + SegFix

用于語義分割的物體上下文表示? ?

Object-Contextual Representations for Semantic Segmentation

摘要：本文研究語義分割中上下文信息的聚合( aggregation)的問題拧揽。我們提出一個簡單而有效的方法憨募，即物體的上下文表示，利用對應物體的類別的表示來刻畫一個像素见秽。首先盔然，在分割的真值的監(jiān)督下學習物體的區(qū)域桅打。然后，將物體區(qū)域內(nèi)的像素的表示進行聚合轻纪，以計算物體區(qū)域表示油额。最后叠纷，計算每個像素和每個區(qū)域之間的關系刻帚，并使用物體上下文表示來擴展每個像素的表示，其中涩嚣，物體區(qū)域表示是所有物體區(qū)域表示的加權(quán)聚合崇众。實驗證明，我們的方法在不同的基準上取得了有競爭力的表現(xiàn)：Cityscapes航厚、ADE20K顷歌、LIP、PASCAL-Context和COCO-Stuff幔睬。在Cityscapes排行榜上眯漩，我們在ECCV2020提交截止日期前，我們的“HRNet+OCR+SegFix”模型排名第一麻顶。代碼在https://git.io/openseg以及https://git.io/HRNet.OCR

關鍵詞：語義分割赦抖，上下文信息聚合

1 引言

有很多關于語義分割的研究，例如高分辨率表示學習[7,55]辅肾，上下文信息聚合[79,6]队萤，等等。本文關注的也是上下文信息聚合矫钓。

一個位置的像素的上下文要尔，通常是指一系列位置舍杜，例如，周圍的像素赵辕。早期的研究主要是有關空間上的尺度既绩，即空間上的范圍，例如ASPP[6]和PPM[79]还惠，使用不同尺度的上下文熬词。近年來的一些工作，例如DANet[16]吸重，CFNet[76]和OCNet[71]互拾，是考慮一個位置的像素和它的上下文位置像素的關系，并用更高的權(quán)重對相似的上下文位置像素表示進行聚合嚎幸。

我們的思路是研究一個位置的像素和它的上下文之間的關系颜矿。動機是，一個像素的類標簽是該像素所屬物體的類別嫉晶。目的是骑疆，利用對應類別的物體區(qū)域表示來增強一個像素的表示。實驗證明替废，這種特征增強方案是有效的箍铭，如圖1所示，當給定物體區(qū)域的真值標簽時椎镣，分割質(zhì)量有顯著的提高诈火。

我們的方法分3步。首先状答，將上下文像素劃分為一組soft物體區(qū)域冷守，每個區(qū)域?qū)粋€類別，也即惊科，一個由深度網(wǎng)絡（例如ResNet[23]或HRNet[55]）輸出的粗soft分割拍摇。該劃分是在分割真值的監(jiān)督下學習的。然后馆截，通過聚合每個物體區(qū)域中的像素表示來估計對應的物體區(qū)域的表示充活。最后，使用物體的上下文表示（OCR）來增強每個像素的表示蜡娶。OCR是所有物體區(qū)域表示的加權(quán)聚合混卵，權(quán)重是根據(jù)像素和物體區(qū)域之間的關系來計算的。

我們提出的OCR方法不同于傳統(tǒng)的多尺度上下文方案翎蹈。我們的OCR區(qū)別對待同類物體的上下文像素和不同類物體的上下文像素淮菠，而多尺度上下文，例如ASPP[6]和PPM[79]則不做這種區(qū)分荤堪，而只是區(qū)別對待不同空間位置的像素合陵。圖2所示是我們的OCR上下文和多尺度上下文之間的區(qū)別的例子枢赔。

另一方面，我們的OCR方法也不同于以前的關系上下文方法[63,16,71,74,76]拥知。我們的方法將上下文像素構(gòu)造為物體區(qū)域踏拜，并利用像素和物體區(qū)域之間的關系。相比之下低剔，以前的關系上下文方案是分別地考慮上下文像素速梗，只利用像素和上下文像素之間的關系[16,71,76]，或者僅僅根據(jù)像素來預測關系襟齿，而不考慮區(qū)域[74]姻锁。

我們在不同的有挑戰(zhàn)性的語義分割基準上評估我們的方法。我們的方法優(yōu)于PSPNet猜欺、DeepLabv3等多尺度上下文方案和DANet等最新的關系上下文方案位隶，而且速度也更好。我們的方法在5個基準測試上取得了有競爭力的性能开皿，在Cityscapes test上是84.5%涧黄，在ADE20K val上是45.66%，在LIP val上是56.65%赋荆，在PASCAL-Context test 上是56.2%笋妥，在COCO Stuff test 上是40.5%此外，我們將我們的方法應用到Panoptic-FPN[29]上窄潭，并且在COCO全景分割任務上證明了我們方法的有效性春宣，Panoptic FPN+OCR在COCO-val上達到44.2%。

2 相關工作

多尺度上下文? ? PSPNet[79]對金字塔池化表示進行常規(guī)卷積狈孔，以捕獲多尺度上下文信认。DeepLab系列[5,6]采用不同擴張率的并行擴張卷積（每個擴張率捕捉不同尺度的上下文）材义。最近有一些不同的擴展版本均抽，例如，DenseASPP[68]使用更密集的擴張率其掂，以覆蓋更大范圍的尺度變化油挥。其他一些研究[7,42,17]構(gòu)造編碼-解碼的結(jié)構(gòu)，以利用多個不同分辨率的特征作為多尺度上下文款熬。

關系上下文? ? DANet[16]深寥，CFNet[76]和OCNet[71]通過聚合上下文像素的表示來增加每個像素的表示，其中上下文由所有像素組成贤牛。與全局上下文[46]不同惋鹅，這些工作基于自注意力方案[63,61]，考慮像素之間的關系（或相似性）殉簸，并以相似度作為權(quán)重進行加權(quán)聚合闰集。

雙注意力及其相關工作[8,74,9,40,38,73,34,24]和ACFNet[74]將像素分組到一系列區(qū)域中沽讹，然后通過聚合區(qū)域表示來增強像素表示，其中武鲁，它們的上下文關系是根據(jù)使用到的像素表示來預測的爽雄。

我們的方法是一種關系上下文方法，與雙注意力和ACFNet有關沐鼠。不同之處在于區(qū)域形成和像素-區(qū)域之間的關系計算挚瘟。在我們的方法中，區(qū)域是通過分割真值的有監(jiān)督學習習得的饲梭。相比之下乘盖，以前的方法，除了ACFNet憔涉，區(qū)域都是無監(jiān)督獲得的侧漓。另一方面，我們的方法中监氢，一個像素和一個區(qū)域之間的關系的計算布蔗，會同時考慮像素表示和區(qū)域表示。而以前的工作只是從像素表示來計算關系浪腐。

從粗到細的分割????已經(jīng)有一些從粗到細的分割方案[15,18,33,59,27,32,84]纵揍，逐步地細化分割圖，使之從粗糙變精細议街。例如泽谨，[33]將粗的分割圖視為一個額外的表示，并將其與原始圖像或者其它表示拼接起來特漩，以計算一個精細的分割圖吧雹。

從某種意義上講，我們的方法也可以看作是一個由粗到細的方案涂身。不同之處在于我們使用粗分割圖來生成上下文表示雄卷，而不是直接作為額外的表示。在補充材料中蛤售，我們將我們的方法與傳統(tǒng)的由粗到細的方案進行了比較丁鹉。

區(qū)域?qū)用娴姆指????已有許多區(qū)域?qū)用娴姆指罘椒╗1,2,21,20,64,50,2,60]，將像素組織（organize）為一系列區(qū)域（通常是超像素）悴能，然后對每個區(qū)域進行分類揣钦，以獲得分割結(jié)果。我們的方法沒有對每個區(qū)域進行分類漠酿，而是使用區(qū)域來學習更好的像素表示冯凹，從而得到更好的像素標記。

3 方法

語義分割是對一張圖像 $I$ 的每個像素 $p_{i}$ 預測一個標簽 $l_{i}$ 炒嘲，其中宇姚， $l_{i}$ 是 $K$ 個類別之一团驱。

3.1 背景

多尺度上下文????ASPP[5]模塊通過執(zhí)行幾個具有不同擴張率的并行擴張卷積來捕獲多尺度上下文信息[5,6,70]：

$y_{i}^d =\sum_{p_{s} =p_{i}+d\Delta _{t} }K_{t}^d x_{s}$

其中， $p_{s} =p_{i}+d\Delta _{t}$ 是擴張率為 $d$ 的擴張卷積在位置 $p_{i}$ 的第 $s$ 個采樣位置空凸，DeepLabv3[6]中嚎花， $d$ =12,24,36。 $t$ 是一個卷積的位置序號呀洲，例如紊选，對于3×3卷積， $\left\{ \Delta _{t} =(\Delta _{w} ,\Delta _{h} \vert\Delta _{w}=-1,0,1, \Delta _{h}=-1,0,1) \right\}$ 道逗。 $x_{s}$ 是 $p_{s}$ 處的表示兵罢， $y_{i}^d$ 是在 $p_{i}$ 處，第 $d$ 個擴張卷積的輸出表示滓窍。 $K_{t}^d$ 是第 $d$ 個擴張卷積在位置 $t$ 的卷積核參數(shù)卖词。輸出的多尺度上下文表示是由并行擴張卷積輸出的表示的拼接。

基于擴展卷積的多尺度上下文方案在保留分辨率的情況下捕獲多尺度的上下文吏夯。PSPNet[79]中的金字塔池化模塊對不同尺度的表示進行常規(guī)卷積此蜈，也可以捕獲多個尺度的上下文，但是對于大尺度的上下文則失去分辨率噪生。

關系上下文????關系上下文方案[16,71,76]通過考慮以下關系來計算每個像素的上下文：

$y_{i} =\rho (\sum_{s\in L } w_{is} \delta (x_{s} ))$

其中裆赵， $L$ 指圖像中的一些列像素， $w_{is}$ 是 $x_{i}$ 和 $x_{s}$ 之間的關系跺嗽，其僅能從 $x_{i}$ 預測得到战授，或者從 $x_{i}$ 到 $x_{s}$ 計算得到。 $\delta (\cdot )$ 和 $\rho (\cdot )$ 是兩種不同的變換函數(shù)桨嫁，如自注意力[61]中所做的那樣植兰。全局上下文方案是關系上下文的一種特例，即令 $w_{is}=1/\vert L \vert$ 璃吧。

3.2 Formulation

像素 $p_{i}$ 的標簽 $l_{i}$ 本質(zhì)是像素 $p_{i}$ 所在的物體的類別標簽楣导。基于此肚逸，我們提出了一種物體上下文表示方法爷辙，通過利用相應的物體表示來刻畫每個像素。

所提的物體上下文表示的方案朦促，步驟(1)是將圖像 $I$ 中所有像素劃分(structurizes)為 $K$ 個soft物體區(qū)域；步驟(2)是聚合第 $k$ 個物體區(qū)域里的所有像素的表示栓始，作為第 $k$ 個物體區(qū)域的區(qū)域表示 $f_{k}$ 务冕；步驟(3)是考慮像素和所有物體區(qū)域的關系，聚合 $K$ 個物體區(qū)域表示到像素表示上幻赚，以增強像素表示：

$y_{i} =\rho \sum_{k=1}^K w_{ik} \delta (f_{k} )$

其中禀忆， $f_{k}$ 是第 $k$ 個物體區(qū)域的表示臊旭， $w_{ik}$ 是第 $i$ 個像素到第 $k$ 個物體區(qū)域之間的關系。 $\delta (\cdot )$ 和 $\rho (\cdot )$ 是變換函數(shù)箩退。

soft物體區(qū)域????我們將圖像 $I$ 劃分為 $K$ 個soft物體區(qū)域 $\left\{ M_{1} ,M_{2} ,... , M_{K} \right\}$ 离熏。每個物體區(qū)域 $M_{k}$ 對應的是類別 $k$ ，并且其表示為一個2D的圖(map)戴涝，或者粗分割圖滋戳，其中每個entry表示對應像素屬于第 $k$ 類的程度。

我們從主干網(wǎng)絡（例如ResNet或HRNet）的中間輸出表示來計算 $K$ 個物體區(qū)域啥刻。訓練過程中奸鸯，使用交叉熵損失從分割真值的監(jiān)督學習下生成物體區(qū)域。

物體區(qū)域表示? ? 我們加權(quán)聚合所有像素的表示可帽，加權(quán)的權(quán)重是該像素屬于第 $k$ 個物體區(qū)域的程度娄涩，這樣就計算出第 $k$ 個物體區(qū)域的表示：

$f_{k} =\sum_{i\in L}\check{m} _{ki} x_{i}$

其中， $x_{i}$ 是像素 $p_{i}$ 的表示映跟， $\check{m} _{ki}$ 是經(jīng)過歸一化的蓄拣、像素 $p_{i}$ 屬于第 $k$ 個物體區(qū)域的程度。我們使用空間softmax來歸一化每個物體區(qū)域 $M_{k}$ 努隙。

物體上下文表示????我們計算每個像素到每個區(qū)域的關系：

$w_{ik} =\frac{e^{\kappa(x_{i},f_{k} )} } {\sum_{j=1}^K e^{\kappa(x_{i},f_{j} )}}$

其中弯蚜， $\kappa (x,f)=\phi (x)^T\psi (f)$ 是未歸一化的計算關系的函數(shù)。 $\phi (\cdot )$ 和 $\psi (\cdot )$ 是兩個變換函數(shù)剃法，由1×1 卷積→ BN → ReLU實現(xiàn)碎捺。這是受自注意力[61]的啟發(fā)，以便更好地估計關系贷洲。

像素 $p_{i}$ 物體上下文表示 $y_{i}$ 根據(jù)公式(3)計算收厨。公式(3)中， $\delta (\cdot )$ 和 $\rho (\cdot )$ 都是變換函數(shù)优构，實現(xiàn)是1×1 卷積→ BN → ReLU诵叁，而這是跟隨non-local網(wǎng)絡[63]的工作。

表示的增強????像素 $p_{i}$ 的最終表示由兩個部分的聚合來更新钦椭，部分(1)是原來的表示 $x_{i}$ 拧额，部分(2)是物體上下文表示 $y_{i}$ :

$z_{i} =g([x_{i}^T ,y_{i}^T ])$

其中， $g(\cdot )$ 是變換函數(shù)彪腔，來融合原始表示和物體上下文表示侥锦，實現(xiàn)是1×1 卷積→ BN → ReLU。我們方法的整個流程如圖3所示德挣。

評論：最近的一些研究恭垦，如雙注意力[8]和ACFNet[74]，和公式(3)類似，但在某些方面與我們的方法不同番挺。例如唠帝，雙注意力中形成的區(qū)域和物體的類別是不對應的，而ACFNet[74]中關系的計算僅僅使用像素表示玄柏，沒有使用物體區(qū)域表示襟衰。

3.3 架構(gòu)

主干網(wǎng)絡? ? 我們使用擴張的ResNet-101[23]（output stride 8）或者HRNet-W48[55]（output stride 4）。對于擴張的ResNet-101粪摘，OCR模塊的輸入包括兩個表示瀑晒，第一個表示來自Stage 3，用來預測粗分割（物體區(qū)域）赶熟，另一個表示來自Stage 4 瑰妄，它經(jīng)過一個3×3的卷積，輸出通道數(shù)是512映砖，然后輸入給OCR模塊间坐。對于HRNet-W48，僅僅使用最后一層的表示作為OCR模塊的輸入邑退。

OCR模塊????如圖3所示竹宋，我們將上述的方法實現(xiàn)為OCR模塊。我們用一個線性函數(shù)（1×1卷積）來預測監(jiān)督下的粗分割（軟物體區(qū)域）地技，使用像素級的交叉熵損失蜈七。所有的變換函數(shù)， $\psi (\cdot )$ 莫矗， $\phi (\cdot )$ 飒硅， $\delta (\cdot )$ ， $\rho (\cdot )$ 作谚， $g(\cdot )$ 三娩，實現(xiàn)都是1×1 卷積→ BN → ReLU，前三個輸出256個通道妹懒，最后兩個輸出512通道雀监。我們使用線性函數(shù)從最終表示中預測最終分割，并在最終分割預測中使用像素層級的交叉熵損失眨唬。

3.4? ? 實證分析

我們以擴張的ResNet-101為主干会前，對Cityscapes驗證集進行實證分析實驗。

物體區(qū)域的有監(jiān)督學習? ? 我們研究了物體區(qū)域有監(jiān)督學習的影響匾竿。我們將我們的方法修改下：移除軟物體區(qū)域的有監(jiān)督學習（即損失函數(shù)）瓦宜，并在ResNet-101的Stage 3中添加另一個輔助損失。保持其它的設置不變搂橙，并在表1最左邊2列報告結(jié)果歉提〉烟梗可見区转，形成物體區(qū)域的有監(jiān)督學習對性能是關鍵的苔巨。

像素和區(qū)域之間的關系? ? 我們將我們的方法和其它兩種不使用區(qū)域表示來估計像素-區(qū)域關系的方法進行對比：(i)雙重注意力DA[8]使用像素表示來預測關系，(ii)ACFNet[74]直接使用一個中間分割圖來預測關系废离。我們自己使用了這兩種方法侄泽，只使用擴張的ResNet-101作為主干，不使用多尺度上下文（ACFNet的結(jié)果通過使用ASPP[74]得到了改進）蜻韭。

表1中的比較表明悼尾，我們的方法性能更好。原因是我們利用像素表示和區(qū)域表示來計算關系肖方。區(qū)域表示能夠刻畫具體圖像中的物體闺魏，因此，對于具體圖像俯画，相比僅僅使用像素表示析桥，計算出來的關系要更為準確。

使用分割真值的OCR? ?我們研究了使用分割真值來形成物體區(qū)域表示艰垂，以及形成像素和區(qū)域之間的關系泡仗，來分割。我們稱之為使用分割真值的OCR（GT-OCR）猜憎，以驗證我們的假設（motivation）是對的娩怎。(i)物體區(qū)域使用分割真值：將屬于第 $k$ 個物體區(qū)域的像素 $i$ 的置信度設為1，即 $m_{ki} =1$ 胰柑，如果真值標簽 $l_{i} \equiv k$ 并且 $m_{ki} =0$ 的話截亦，反之同理。(ii)使用真值來計算像素和區(qū)域之間的關系：將像素和區(qū)域之間的關系設置為1柬讨，即 $w_{ik} =1$ 崩瓤，如果真值標簽 $l_{i} \equiv k$ 并且 $m_{ki} =0$ 的話，反之同理姐浮。我們在圖1中展示了GT-OCR在四個不同基準上的詳細結(jié)果谷遂。

4 實驗：語義分割

4.1數(shù)據(jù)集

Cityscapes? ? Cityscapes數(shù)據(jù)集[11]的任務是理解城市場景，總共有30個類別卖鲤，只有19個類別用來評估解析肾扰。數(shù)據(jù)集包含5k張高質(zhì)量的像素層級的精細標注圖片，以及20k張粗標注圖片蛋逾。5k張精細標注的圖片中集晚，2975張作為訓練集，500張作為驗證集区匣，1525張作為測試集偷拔。

ADE20K????????ADE20K數(shù)據(jù)集[81]用于ImageNet場景解析挑戰(zhàn)賽2016。有150個類別和不同的場景，有1038個圖像層級的標注莲绰，20k張作為訓練集欺旧，2k張作為驗證集，3k張作為測試集蛤签。

LIP????LIP數(shù)據(jù)集[19]在2016年LIP挑戰(zhàn)賽中用于單人解析任務辞友。大約有50K個圖像，有20個類別震肮，其中19個是人體部位語義類別称龙，1個是背景類別。訓練集戳晌、驗證集鲫尊、測試集分別有30k、10k沦偎、10k張圖像疫向。

PASCAL-Context????PASCAL-Context數(shù)據(jù)集[49]是一個具有挑戰(zhàn)性的場景解析數(shù)據(jù)集，包含59個語義類和1個背景類扛施。訓練集和測試集分別有4998和5105張圖像鸿捧。

COCO-Stuff????COCO-Stuff數(shù)據(jù)集[3]是一個具有挑戰(zhàn)性的場景解析數(shù)據(jù)集，包含171個語義類別疙渣。訓練集和測試集分別有9k張和1k張圖像匙奴。

4.2 實現(xiàn)細節(jié)

訓練設置????我們用在ImageNet上的預訓練模型來初始化主干網(wǎng)絡，隨機初始化OCR模塊妄荔。使用polynomial學習率策略泼菌，其中因子是 $(1-(\frac{iter}{iter_{max} } )^{0.9} )$ ，最終損失的權(quán)重設置為1啦租，用于監(jiān)督物體區(qū)域估計的輔助損失的權(quán)重設為0.4哗伯。使用InPlace-ABN-sync[53]來同步多個GPU上BN的平均值和標準差。數(shù)據(jù)增擴部分篷角，我們使用隨機的水平翻轉(zhuǎn)焊刹、在[0.5，2]范圍內(nèi)的隨機縮放恳蹲，在[-10虐块，10]范圍內(nèi)的亮度的隨機抖動。我們在復現(xiàn)別人的方法的時候嘉蕾，如PPM贺奠，ASPP，使用相同的訓練參數(shù)错忱，以保證比較的公平儡率。我們按照先前的工作[6,75,79]來在基準數(shù)據(jù)集上設置訓練參數(shù)挂据。

Cityscapes? ? 初始學習率是0.01，權(quán)重衰減是0.0005儿普，裁剪尺寸為769×769崎逃，batch size是8。對于在驗證集上評估的時候箕肃，在訓練集上迭代40k次婚脱；在測試集上評估的時候今魔，在訓練集+驗證集上迭代100k次（iterations）勺像。對于用額外的數(shù)據(jù)來數(shù)據(jù)增擴的實驗：(i)使用粗標注，首先在訓練集+驗證集上訓練错森，100k次iterations吟宦，初始學習率為0.001，然后在粗標注數(shù)據(jù)集上微調(diào)涩维，50k次iterations殃姓，然后繼續(xù)在訓練集+驗證集上微調(diào)，20k次iterations瓦阐，兩次微調(diào)的初始學習率都設為0.001蜗侈。(ii)使用粗標注和 Mapillary[50]數(shù)據(jù)集，首先在Mapillary的訓練集上訓練哟忍，500k次iterations跨琳，batchsize是16漱牵，初始學習率是0.01，（在Mapillary的驗證集上達到50.8%）该面，然后在Cityscapes上多次微調(diào)，順序是信卡，訓練集+驗證集100k次iterations → 粗標注數(shù)據(jù)50k次iterations → 訓練集+驗證集20k次iterations隔缀，三個微調(diào)的初始學習率都設為0.001，批量大小都設為8傍菇。

ADE20K????如果沒有特別說明猾瘸，設定初始學習率為0.02，權(quán)重衰減為0.0001丢习，裁剪大小為520×520牵触，批量大小為16，訓練迭代次數(shù)為150K泛领。?

LIP????如果沒有特別說明荒吏，初始學習率為0.007，權(quán)重衰減為0.0005渊鞋，裁剪大小為473×473绰更，批量大小為32瞧挤，訓練迭代次數(shù)為100K。

?PASCAL-Context????如果沒有特別說明儡湾，初始學習率為0.001特恬，權(quán)重衰減為0.0001，裁剪大小為520×520徐钠，批量大小為16癌刽，訓練迭代次數(shù)為30K。

COCO-Stuff????如果沒有特別說明尝丐，初始學習率為0.001显拜，權(quán)重衰減為0.0001，裁剪大小為520×520爹袁，批量大小為16远荠，訓練迭代次數(shù)為60K。

4.3與現(xiàn)有上下文方案的比較

我們以擴展的ResNet-101為主干進行實驗失息，使用相同的訓練/測試設置來保證公平性譬淳。

多尺度上下文。我們將OCR與包括PPM[79]和ASPP[6]在內(nèi)的多尺度上下文方案在包括城市景觀在內(nèi)的三個基準上進行了比較

試驗盹兢，ADE20K val和LIP val見表2邻梆。我們復制的PPM/ASPP out 執(zhí)行[79,6]中最初報告的數(shù)字。從表2可以看出绎秒，我們的OCR在很大程度上優(yōu)于兩種多尺度上下文方案浦妄。例如，四個比較的OCR相對于PPM（ASPP）的絕對增益分別為1.5%（0.8%）替裆、0.8%（0.7%）校辩、0.78%（0.68%）、0.84%（0.5%）辆童。據(jù)我們所知宜咒，考慮到基線（使用擴展的ResNet-101）已經(jīng)很強大，并且OCR的復雜性要小得多把鉴，這些改進已經(jīng)非常顯著故黑。

關系上下文。

我們在城市景觀測試庭砍、ADE20K val和LIP val這三個相同的基準上场晶，將OCR與包括自我注意[61,63]、Criss Cross Attention[26]（CC Attention）怠缸、DANet[16]和Double Attention[8]的關系上下文方案進行比較诗轻，我們微調(diào)區(qū)域的數(shù)量（因為它對超參數(shù)的選擇非常敏感），我們選擇性能最好的64個揭北。補充材料中說明了更多詳細的分析和比較扳炬。

從表3的結(jié)果可以看出吏颖，在公平比較的情況下，我們的OCR優(yōu)于這些關系上下文方案恨樟。值得注意的是半醉，我們的OCR的復雜性比大多數(shù)其他方法小得多。復雜性劝术。我們將OCR的效率與多尺度上下文方案和關系上下文方案的效率進行了比較缩多。我們測量上下文模塊引入的增加的參數(shù)、GPU內(nèi)存养晋、計算復雜度（以flop數(shù)度量）和推理時間衬吆，不從主干計算復雜度。表4中的比較顯示了所提出的OCR方案的優(yōu)越性匙握。參數(shù)：與多尺度上下文方案相比咆槽，大多數(shù)關系上下文方案需要更少的參數(shù)。例如圈纺，我們的OCR只需要PPM和ASPP參數(shù)的1/2和2/3。內(nèi)存：與其他方法（例如麦射，DANet蛾娶、PPM）相比，OCR和Double-Attention都需要更少的GPU內(nèi)存潜秋。例如蛔琅，我們的GPU內(nèi)存消耗分別是PPM、DANet峻呛、CC-Attention和Self-Attention的1/4罗售、1/10、1/2钩述、1/10寨躁。 FLOPs：我們的OCR只需要1/2、7/10牙勘、3/10职恳、2/5和1/2的FLOPs，分別基于PPM方面、ASPP放钦、DANet、CC-Attention和Self-Attention恭金。運行時間：OCR的運行時間非常胁儋鳌：只有PPM、ASPP横腿、DANet颓屑、CC-Attention和Self-Attention的運行時間的1/2辙培、1/2、1/3邢锯、1/3和1/2扬蕊。一般來說，如果考慮性能丹擎、內(nèi)存復雜性尾抑、GFLOPs和運行時間之間的平衡，OCR是一個更好的選擇蒂培。4.4與現(xiàn)有技術(shù)的比較考慮到不同的方法對不同的基線進行改進以獲得最佳性能再愈，我們將現(xiàn)有的作品根據(jù)其應用的基線分為兩組：（i）簡單基線：擴展的ResNet-101，步長為8护戳；（ii）高級基線：PSPNet翎冲，DeepLabv3，多網(wǎng)格（MG）編解碼器結(jié)構(gòu)媳荒，通過Stride4或更強大的主干網(wǎng)（如WideResNet-38抗悍、Exception-71和HRNet）實現(xiàn)更高分辨率的輸出。為了公平比較兩組患者钳枕，我們在簡單基線（擴張的ResNet-101和步幅8）和高級基線（HRNet-W48和步幅4）上進行OCR缴渊。值得注意的是，與其他先進的HRW48方法相比鱼炒，HRW48的凈收益與其他方法相比有顯著的提高衔沼。例如，DGCNet[77]使用多網(wǎng)格時昔瞧，其收益為0.7%指蚁，而OCR在城市景觀上的主干測試中獲得了0.6%的收益。我們總結(jié)了表5中的所有結(jié)果自晰，并分別說明了每個基準的比較細節(jié)凝化，如下所示。城市景觀缀磕。與基于粗糙數(shù)據(jù)的城市景觀測試簡單基線方法相比缘圈，我們的方法達到了81.8%的最佳性能，已經(jīng)可以與基于先進基線的DANet袜蚕、ACFNet等方法相媲美糟把。我們的方法通過利用粗注釋圖像進行訓練，獲得了82.4%的較好性能牲剃。

為了與基于高級基線的方法進行比較遣疯，我們在HRNet-W48上執(zhí)行OCR，并在Mapillary數(shù)據(jù)集上對模型進行預訓練[50]凿傅。我們的方法在城市景觀測試中達到84.2%缠犀。我們進一步應用了一種新的后處理方案SegFix[72]來細化邊界質(zhì)量数苫，帶來了0.3%↑的改善。我們最終提交的“HRNet+OCR+SegFix”達到了84.5%辨液，在我們提交時已在城市景觀排行榜上排名第一虐急。事實上，我們在HRNet-W48上分別進行了PPM和ASPP的測試滔迈，實驗發(fā)現(xiàn)直接應用PPM或ASPP并沒有提高性能止吁，甚至會降低性能，而我們的OCR卻一直在提高性能燎悍。

值得注意的是敬惦，最近的工作[57]將我們的“HRNet+OCR”和新的分層多尺度注意力機制相結(jié)合，在城市景觀排行榜上創(chuàng)造了85.4%的最新表現(xiàn)谈山。

ADE20K俄删。從表5可以看出，與以前大多數(shù)基于簡單基線和高級基線的方法相比奏路，我們的OCR實現(xiàn)了具有競爭力的性能（45.28%和45.66%）畴椰。例如，ACFNet[22]同時利用多尺度上下文和關系上下文來實現(xiàn)更高的性能思劳。最近的ACNet[17]通過結(jié)合更豐富的本地和全球環(huán)境實現(xiàn)了最佳性能迅矛。

嘴唇∏迸眩基于簡單的基線，我們的方法在LIP-val上達到了55.60%的最佳性能壶硅。采用更強的主干網(wǎng)HRNetV2-W48進一步提高了性能威兜，達到56.65%，優(yōu)于以往的方法庐椒。最近的工作CNIF[62]通過注入人體部分的層次結(jié)構(gòu)知識椒舵，獲得了最好的性能（56.93%）。我們的方法可能受益于這種層次結(jié)構(gòu)知識约谈。所有的結(jié)果都是基于翻轉(zhuǎn)測試笔宿，沒有多尺度測試6。

帕斯卡上下文棱诱。我們根據(jù)[55]評估了59個類別的績效泼橘。可以看出迈勋，我們的方法優(yōu)于以往基于簡單基線的最佳方法和基于高級基線的最佳方法炬灭。HRNet-W48+OCR方法的最佳性能為56.2%，顯著優(yōu)于次優(yōu)的ACPNet（54.7%）和ACNet（54.1%）靡菇。

可可的東西重归∶自福可以看出，我們的方法達到了最好的性能鼻吮，基于ResNet-101的39.5%和基于HRNetV2-48的40.5%育苟。定性結(jié)果。由于篇幅有限椎木，我們在補充材料中說明了定性結(jié)果违柏。

5個實驗：全景分割

為了驗證我們方法的泛化能力，我們將OCR方案應用于更具挑戰(zhàn)性的全景分割任務[30]拓哺，它將實例分割任務和語義分割任務結(jié)合起來勇垛。

數(shù)據(jù)集。我們選擇COCO數(shù)據(jù)集[43]來研究我們的方法在全景分割中的有效性士鸥。我們沿用了之前的工作[29]闲孤，使用了所有2017年的COCO圖片，注釋了80個thing和53個stuff類烤礁。

培訓詳情讼积。我們遵循Detectron2[65]中默認的“COCO Panoptic Segmentation Baselines with Panoptic FPN（3×learning schedule）”7的默認訓練設置。復制的panopoptic FPN比文[29]中的原始數(shù)字（panopoptic FPN w/ResNet-50脚仔，PQ:39.2%/Panoptic FPN w/ResNet-101勤众，PQ:40.3%）達到了更高的性能，我們選擇更高的復制結(jié)果作為基線鲤脏。

在我們的實現(xiàn)中们颜，我們使用來自語義分割頭（在全景FPN中）的原始預測來計算軟對象區(qū)域，然后使用OCR頭部來預測精確的語義分割圖猎醇。我們將原始語義分割頭和OCR頭的損失權(quán)重設置為0.25窥突。為了公平比較，所有其他培訓設置都保持不變硫嘶。我們直接使用相同的OCR實現(xiàn)（用于語義分割任務）阻问，而無需任何調(diào)整。

結(jié)果沦疾。在表6中称近，我們可以看到OCR將全景FPN（ResNet-101）的PQ性能從43.0%提高到44.2%，其中主要的改進來自于mIoU和PQSt測量的填充區(qū)域更好的分割質(zhì)量哮塞。具體地說刨秆，我們的OCR使全景FPN（ResNet-101）的mIoU和PQSt分別提高了1.0%和2.3%〕固遥總的來說坛善，“全景式FPN+OCR”的性能與各種最新的方法相比是非常有競爭力的[66,44,69]。我們還報告了全光FPN與PPM和ASPP的結(jié)果，以說明我們的OCR在補充材料方面的優(yōu)勢眠屎。

6結(jié)論

在這項工作中剔交，我們提出了一種用于語義分割的對象上下文表示方法。成功的主要原因是像素的標簽是像素所在對象的標簽改衩，通過對每個像素進行相應的對象區(qū)域表示來增強像素表示岖常。我們的經(jīng)驗表明，我們的方法在各種基準上帶來了一致的改進葫督。

確認本工作得到國家自然科學基金第61390511號合同和中國科學院前沿科學重點研究項目QYZDJ-SSW-JSC009部分資助竭鞍。

7補充

在A部分，我們將我們的方法與現(xiàn)有的從粗到細的方法進行了比較橄镜。在第二節(jié)中偎快，我們研究了區(qū)域數(shù)的影響，并用雙重注意說明了定性結(jié)果洽胶。在C部分中晒夹，我們報告了COCO val 2017上的Panoptic FPN+PPM/ASPP的結(jié)果，以及COCO test-dev上的Panoptic FPN/Panoptic FPN+OCR的結(jié)果姊氓。在D部分丐怯，我們將OCR應用于MobileNetV2，以驗證我們的方法在實時應用中的有效性翔横。在E部分读跷，我們根據(jù)最近的MMSegmentation代碼基[67]，驗證了我們的OCR相對于傳統(tǒng)的DeepLabv3[6]和DeepLabv3+[7]的優(yōu)勢禾唁。最后效览，在F部分，我們舉例說明了基于OCR方案的質(zhì)量改進的一些例子荡短。

與由粗到細的方案相比钦铺，許多現(xiàn)有的研究[15,18,33,59]利用各種粗到細的方案來利用粗分割結(jié)果來提高最終的分割結(jié)果。我們主要將OCR與兩種流行的機制進行比較肢预，包括：

標簽細化[18,25]：將輸入圖像或特征映射與粗略預測相結(jié)合，以預測改進的標簽映射洼哎。我們將粗分割圖與ResNet-101第4階段輸出的特征圖連接起來烫映，并在拼接后的特征圖上應用最終分類器來預測精細分割圖。

label Ensement[37,51]：直接將粗分割圖與細分割圖進行集成噩峦。我們直接使用粗分割圖和細分割圖的加權(quán)和作為最終的精細預測锭沟。

此外，我們還報告了僅使用粗分割圖（來自ResNet階段3的預測）和僅使用精細分割圖（來自ResNet階段4的預測）的性能识补。我們選擇擴張的ResNet-101作為基線族淮。從表7中的結(jié)果可以看出，我們的OCR在很大程度上優(yōu)于所有其他從粗到細的方法。

雙重注意消融研究

區(qū)域數(shù)量我們在雙注意[8]方法中對區(qū)域數(shù)量進行微調(diào)祝辣，并將城市景觀val的結(jié)果報告在表8中贴妻。如果沒有指定，我們選擇K=64蝙斜。此外名惩，可以看出，雙注意的表現(xiàn)對區(qū)域數(shù)目的選擇非常敏感孕荠，并且我們的方法（固定區(qū)域數(shù)）始終優(yōu)于不同區(qū)域數(shù)的雙重注意娩鹉。

定性結(jié)果

在圖4中，我們用雙重注意可視化預測區(qū)域和OCR預測的目標區(qū)域稚伍⊥溆瑁可以看出，OCR預測的目標區(qū)域都分別對應于明確的語義个曙，如道路锈嫩、人行道和汽車類別，而雙注意預測區(qū)域主要突出輪廓像素而沒有特定的語義困檩，這可能是我們方法的主要優(yōu)點祠挫。

更多全景分割結(jié)果

首先，我們直接將PPM或ASPP頭應用于全景FPN中的語義分割頭之前悼沿，而無需任何其他修改等舔。在表9中，

我們報告了這兩種方法的結(jié)果糟趾，我們可以發(fā)現(xiàn)我們的OCR優(yōu)于PPM頭和基于全景FPN的應用程序頭慌植。值得注意的是，如本文所示义郑，我們的OCR也比PPM和ASPP更有效蝶柿。其次，我們還報告了基于

表10中的OCR非驮。我們可以看到交汤，我們的OCR在COCO-val集和test-dev集上都持續(xù)改進了結(jié)果。

應用于MobileNetV2

我們將OCR應用到MobileNetV2上劫笙，并在表5中報告性能芙扎。具體來說，我們按照相同的訓練設置訓練MobileNetV2填大，比如將批處理大小更改為16戒洼，訓練迭代次數(shù)為100K≡驶可以看出圈浇，我們的OCR顯著提高了城市景觀val的分段性能寥掐，同時略微增加了推斷時間（或更小的FPS）。

M分段結(jié)果

為了驗證我們的OCR方法能夠很好地在不同的代碼基上進行推廣磷蜀，我們進一步比較了OCR召耘、DeepLabv3和DeepLabv3+基于最新的代碼基MMSegmentation的分割結(jié)果[67]。具體地說蠕搜，我們在兩種不同的訓練迭代計劃下評估不同的方法：（i）40K次迭代怎茫，（ii）80K次迭代。我們將初始學習率設置為0.02妓灌，批大小為16轨蛤。為了保證比較的公平性，我們默認所有方法的裁剪尺寸為1024×512虫埂，主干為擴展的ResNet-101祥山，輸出步長為8。

我們在表11中報告了GPU內(nèi)存消耗（用于培訓）掉伏、推理速度（用于測試）和mIoUs（在城市景觀驗證集上）缝呕。我們可以看到，在這兩種訓練環(huán)境下斧散，OCR的性能都比DeepLabv3和DeepLabv3+要好或相當供常。特別是，我們的OCR需要更少的GPU內(nèi)存消耗鸡捐，并在城市景觀基準上實現(xiàn)更高的FPS栈暇。