啟發(fā)式物體掩膜的對(duì)比檢測(cè)

DetCon? ??https://arxiv.org/abs/2103.10957

Efficient Visual Pretraining with Contrastive Detection

自監(jiān)督的預(yù)訓(xùn)練已經(jīng)被證明能為遷移學(xué)習(xí)提供有力的表征。然而幽纷，這些性能的提高需要大量的計(jì)算成本式塌，而最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量。我們通過引入一個(gè)新的自監(jiān)督目標(biāo)友浸，即對(duì)比檢測(cè)峰尝，來解決這個(gè)計(jì)算瓶頸，對(duì)比檢測(cè)的任務(wù)是辨別不同增強(qiáng)視圖的物體級(jí)的特征收恢。這一目標(biāo)為每幅圖像提取了豐富的學(xué)習(xí)信號(hào)武学，從而實(shí)現(xiàn)了從ImageNet到COCO的最先進(jìn)的遷移性能，同時(shí)所需的預(yù)訓(xùn)練成本減少了5倍伦意。特別是火窒，我們最強(qiáng)的ImageNet預(yù)訓(xùn)練模型的性能與SEER相當(dāng)，SEER是迄今為止最大的自監(jiān)督系統(tǒng)之一驮肉，它使用了1000倍以上的預(yù)訓(xùn)練數(shù)據(jù)熏矿。最后，我們的目標(biāo)無縫地處理更復(fù)雜的圖像（如COCO中的圖像）的預(yù)訓(xùn)練，彌補(bǔ)了與監(jiān)督遷移學(xué)習(xí)（從COCO到PASCAL）的差距票编。

圖1?使用DetCon進(jìn)行高效的自監(jiān)督預(yù)訓(xùn)練褪储。使用SimCLR[8]的自監(jiān)督預(yù)訓(xùn)練僅在給定10倍以上的訓(xùn)練迭代次數(shù)時(shí)才與監(jiān)督預(yù)訓(xùn)練的傳遞性能相匹配。我們提出的DetCon目標(biāo)優(yōu)于兩者慧域，同時(shí)需要比SimCLR少5倍的計(jì)算量鲤竹。遷移性能通過使用Mask RCNN在COCO數(shù)據(jù)集上微調(diào)表示12個(gè)epoch來測(cè)量

1. 引言

自從AlexNet在ImageNet上取得突破性進(jìn)展以來，從大型標(biāo)記數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)已成為計(jì)算機(jī)視覺領(lǐng)域的主流范式[34昔榴，49]辛藻。盡管自監(jiān)督學(xué)習(xí)的最新進(jìn)展緩解了對(duì)標(biāo)簽的依賴性，但這是以巨大的計(jì)算成本完成的互订，最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量[7吱肌，9，20]屁奏。然而岩榆，自監(jiān)督學(xué)習(xí)的前景是利用大量未標(biāo)記的數(shù)據(jù)集，使其計(jì)算成本成為一個(gè)關(guān)鍵的瓶頸坟瓢。

在這項(xiàng)工作中，我們旨在減輕自監(jiān)督預(yù)訓(xùn)練的計(jì)算負(fù)擔(dān)犹撒。為此折联，我們引入了對(duì)比檢測(cè)，這是一個(gè)新的目標(biāo)识颊，最大化不同視圖同一物體的物體級(jí)特征之間的相似性诚镰。

這一目標(biāo)的好處有三個(gè)。首先祥款，它從圖像中的所有物體中提取單獨(dú)的學(xué)習(xí)信號(hào)清笨，無額外成本地豐富了每個(gè)訓(xùn)練樣本提供的信息，因?yàn)槲矬w級(jí)的特征可以簡(jiǎn)單地從中間特征arrays中獲取刃跛。第二抠艾，它提供了更大規(guī)模、更多樣化的負(fù)樣本集桨昙，這也加速了學(xué)習(xí)检号。最后，這個(gè)目標(biāo)非常適合于從包含很多物體的復(fù)雜場(chǎng)景蛙酪，這種場(chǎng)景已被證明是對(duì)自監(jiān)督方法來說具有挑戰(zhàn)性的齐苛。

我們通過使用無監(jiān)督分割算法來識(shí)別圖像中近似的基于物體的區(qū)域。Perceptual grouping[32,40]——也就是數(shù)據(jù)中的低級(jí)或中級(jí)的特征桂塞，如顏色凹蜂、方向和紋理，可以將場(chǎng)景近似解析為連接的表面或物體部分的想法帆锋，長(zhǎng)期以來一直被認(rèn)為是視覺的有力先驗(yàn)[21朵纷，39，54]蝌借。我們對(duì)局部特征向量進(jìn)行相應(yīng)地分類來利用這些先驗(yàn)知識(shí)卿啡，并將我們的對(duì)比目標(biāo)分別應(yīng)用于每個(gè)物體級(jí)特征吟吝。我們調(diào)查了幾種無監(jiān)督、圖像可計(jì)算的掩模的使用情況[16颈娜，2]剑逃，發(fā)現(xiàn)盡管它們不準(zhǔn)確，但我們的目標(biāo)仍能很好地工作官辽。

我們通過將目標(biāo)應(yīng)用于ImageNet數(shù)據(jù)集并測(cè)量其在COCO檢測(cè)和實(shí)例分割等挑戰(zhàn)性任務(wù)上的遷移性能蛹磺，測(cè)試了目標(biāo)快速學(xué)習(xí)可遷移表示的能力。與最近的自監(jiān)督目標(biāo)（如SimCLR和BYOL）[8,20]相比同仆，我們的表示更精確萤捆，并且可以用更少的訓(xùn)練時(shí)間獲得。我們還發(fā)現(xiàn)這個(gè)學(xué)習(xí)目標(biāo)可以更好地處理更復(fù)雜場(chǎng)景的圖像俗批，彌合了與有監(jiān)督遷移學(xué)習(xí)（從COCO數(shù)據(jù)集遷移）的差距俗或。總之岁忘，我們做出了以下貢獻(xiàn)：

（1）我們提出了一個(gè)新的對(duì)比目標(biāo)辛慰，該目標(biāo)通過一個(gè)簡(jiǎn)單的、無監(jiān)督的啟發(fā)式算法來提供物體區(qū)域干像，使得對(duì)于場(chǎng)景中所有物體帅腌，不同增強(qiáng)視圖下同一物體的特征的相似性最大化。我們剖析了這一新目標(biāo)麻汰，并評(píng)估了每一個(gè)要素所帶來的改進(jìn)速客。

（2）我們發(fā)現(xiàn)這個(gè)目標(biāo)可以減輕自監(jiān)督遷移學(xué)習(xí)的計(jì)算負(fù)擔(dān)，將ImageNet的有監(jiān)督遷移學(xué)習(xí)所需的計(jì)算量減少5倍五鲫。更長(zhǎng)的訓(xùn)練時(shí)間會(huì)導(dǎo)致最先進(jìn)的COCO檢測(cè)和實(shí)例分割溺职，我們的最佳模型與最新的最先進(jìn)的自監(jiān)督系統(tǒng)SEER[19]相當(dāng)，SEER是在差不多1000×更多的圖像上訓(xùn)練的臣镣。

（3）當(dāng)從復(fù)雜場(chǎng)景數(shù)據(jù)集（如COCO）遷移時(shí)辅愿，我們的方法彌補(bǔ)了與有監(jiān)督遷移學(xué)習(xí)（其依賴于人工標(biāo)注的分割的標(biāo)簽）的差距。

（4）最后忆某，我們?cè)u(píng)估了在高質(zhì)量圖像分割的前提下点待，現(xiàn)有的對(duì)比學(xué)習(xí)范式在多大程度上可以簡(jiǎn)化，提出了問題并為未來的工作開辟了道路弃舒。

2. 相關(guān)工作

將包含在一個(gè)任務(wù)和數(shù)據(jù)集中的知識(shí)遷移到解決其他下游任務(wù)（即遷移學(xué)習(xí)）已被證明在一系列計(jì)算機(jī)視覺問題中非常成功[18癞埠，38]状原。早期的工作集中在改善預(yù)訓(xùn)練的結(jié)構(gòu)[26,50]和數(shù)據(jù)[51]，而最近的自監(jiān)督學(xué)習(xí)工作則集中在預(yù)訓(xùn)練目標(biāo)和任務(wù)的選擇上苗踪。早期的自監(jiān)督預(yù)訓(xùn)練通常涉及圖像恢復(fù)颠区，包括去噪[58]、修復(fù)[45]通铲、著色[64,35]毕莱、拍攝者運(yùn)動(dòng)預(yù)測(cè)（egomotion prediction）[1]等[14,42,65]。更高層次的借口任務(wù)也被研究過颅夺，例如預(yù)測(cè)上下文[12]朋截、方向[17]、空間布局吧黄、時(shí)間順序[41]和聚類分配[5]部服。

對(duì)比目標(biāo)，它最大化一個(gè)表示在不同視圖間的相似性拗慨，同時(shí)最小化了其與分散注意力的負(fù)樣本（distracting negative samples）的相似性廓八，最近獲得了相當(dāng)大的吸引力[22]。視圖被定義為局部和全局的裁剪[29赵抢、4剧蹂、55、28]或不同的輸入通道[52]烦却。實(shí)例辨別方法通過數(shù)據(jù)增強(qiáng)生成圖像的全局隨機(jī)視圖国夜，并最大化它們之間的相似性（相對(duì)于marginally sampled negatives）[8，13短绸，15，23筹裕，61]醋闭，盡管最近，對(duì)負(fù)樣本是否必需提出了質(zhì)疑[11朝卒，20]证逻。盡管實(shí)例識(shí)別方法的優(yōu)點(diǎn)主要局限于從ImageNet等簡(jiǎn)單數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，但基于聚類的預(yù)訓(xùn)練已證明在利用大量未處理圖像進(jìn)行遷移學(xué)習(xí)方面非常成功[3抗斤，6囚企，7，19瑞眼，31]龙宏。

雖然大多數(shù)工作都集中在學(xué)習(xí)整個(gè)圖像表示，但人們對(duì)學(xué)習(xí)與下游任務(wù)（如檢測(cè)和分割）更相關(guān)的局部表示越來越感興趣伤疙。這類工作的例子包括增加額外的輔助損失[53]银酗、結(jié)構(gòu)組件[47]或兩者兼而有之[62辆影，Propagate Urself]。雖然perceptual?grouping長(zhǎng)期以來一直被用于表征學(xué)習(xí)黍特，通常依賴于視頻中的連貫運(yùn)動(dòng)[36蛙讥，44，59]灭衷，但直到最近才與對(duì)比學(xué)習(xí)相結(jié)合[30次慢，57，66]翔曲。與我們的工作最相關(guān)的是[57,66]（57就是MaskContrast）迫像，它們也利用圖像分割進(jìn)行自監(jiān)督學(xué)習(xí)，盡管兩者與我們的不同之處在于它們學(xué)習(xí)專門用于語(yǔ)義分割的主干部默，并使用不同的損失函數(shù)侵蒙。雖然這些工作在無監(jiān)督的情況下取得了很高的分割精度，但對(duì)于COCO檢測(cè)和實(shí)例分割等遷移學(xué)習(xí)任務(wù)傅蹂，都沒有報(bào)告在預(yù)訓(xùn)練的效率上有所提高纷闺，我們接下來將對(duì)其進(jìn)行研究。

3 方法

我們引入了一個(gè)新的對(duì)比目標(biāo)份蝴，它最大限度地提高了表示同一物體的局部特征視圖之間的相似性（圖2）犁功。為了分離這些變化帶來的好處，我們?cè)诳赡艿那闆r下有意選擇重新使用現(xiàn)有對(duì)比學(xué)習(xí)框架的元素婚夫。為了測(cè)試我們的方法的通用性浸卦，我們分別基于最近的兩個(gè)自監(jiān)督基線SimCLR[8]和BYOL[20]，導(dǎo)出了兩個(gè)變體DetCon_S和DetCon_B案糙。我們采用了這些方法的數(shù)據(jù)擴(kuò)充過程和網(wǎng)絡(luò)結(jié)構(gòu)限嫌，并將我們提出的對(duì)比檢測(cè)方法應(yīng)用于每種方法。

圖2?對(duì)比檢測(cè)方法时捌。我們使用近似的圖像可計(jì)算分割算法識(shí)別基于對(duì)象的區(qū)域（底部）怒医。這些掩模通過兩個(gè)隨機(jī)數(shù)據(jù)增強(qiáng)和一個(gè)卷積特征提取，在每個(gè)視圖（中間）中創(chuàng)建一組特征向量奢讨。然后稚叹，對(duì)比檢測(cè)目標(biāo)將來自同一遮罩（跨視圖）的集合特征向量拉到一起，并將來自不同遮罩和不同圖像的特征分開（上圖）

3.1 對(duì)比檢測(cè)框架

數(shù)據(jù)增強(qiáng)拿诸。????每個(gè)圖像被隨機(jī)增強(qiáng)兩次扒袖，得到兩個(gè)圖像： $x,x’$ 。DetCon_S和DetCon_B分別選擇SimCLR和BYOL的增強(qiáng)管道亩码，大致包括隨機(jī)裁剪季率、翻轉(zhuǎn)、模糊和逐點(diǎn)顏色變換蟀伸。更多詳情請(qǐng)參閱附錄A.1蚀同。在所有情況下缅刽，圖像的大小都調(diào)整為224×224像素分辨率。此外蠢络，我們?yōu)槊總€(gè)圖像計(jì)算一組掩膜衰猛，將圖像分割為不同的部分。如第3.2節(jié)所述刹孔，這些掩姆仁。可以使用計(jì)算高效地、只計(jì)算一次然后使用現(xiàn)成結(jié)果的髓霞、無監(jiān)督的分割算法來計(jì)算卦睹。如果可用，也可以使用帶人工標(biāo)注的掩膜方库。在任何情況下结序，我們使用與underlying（底下的）RGB圖像相同的裁剪和調(diào)整大小來變換每個(gè)掩膜（表示為二值圖像），得到兩組掩膜 $\left\{ m \right\} ,\left\{ m’ \right\}$ 纵潦，其與增強(qiáng)的圖像 $x,x’$ 是對(duì)齊的（參見圖2徐鹤，augmented views）。

結(jié)構(gòu)邀层。????我們使用卷積特征提取器 $f$ 對(duì)每個(gè)圖像編碼為隱藏向量的空間映射： $h=f(x)$ 返敬，其中 $h\in R^{H×W×D}$ 。在最終的平均池層之前寥院，我們使用標(biāo)準(zhǔn)ResNet-50編碼器[26]的輸出劲赠，這樣隱藏層就形成7×7、2048通道的向量 $h[i,j]$ 秸谢。對(duì)于每個(gè)與圖像相關(guān)的掩模 $m$ 凛澎，我們計(jì)算一個(gè)掩模池化隱藏向量：

其通過平均池化將二值掩膜在空間上下采樣為7×7的大小。然后估蹄，我們用兩層MLP變換每個(gè)向量预厌，得到非線性映射 $z_{m} =g(h_{m} )\in R^d$ 。注意元媚，在這一步中，我們?nèi)绻褂玫氖菃蝹€(gè)的全局的掩膜苗沧，就是SimCLR和BYOL的結(jié)構(gòu)刊棕。

對(duì)于DetCon_S，我們使用相同的編碼器 $f_{θ}$ 和投影網(wǎng)絡(luò) $g_{θ}$ 處理兩個(gè)視圖待逞，其中 $θ$ 是學(xué)習(xí)的參數(shù)甥角。對(duì)于DetCon_B，一個(gè)視圖用 $f_{θ}$ 和 $g_{θ}$ 處理识樱，另一個(gè)用 $f_{ξ}$ 和 $g_{ξ}$ 處理嗤无，其中 $ξ$ 是 $θ$ 的指數(shù)移動(dòng)平均震束。第一個(gè)視圖被預(yù)測(cè)網(wǎng)絡(luò) $q_{θ}$ 進(jìn)一步地變換。在這里当犯，我們?cè)俅卧谕队昂皖A(yù)測(cè)網(wǎng)絡(luò)的定義中分別重用了DetCon_S和DetCon_B的SimCLR和BYOL的細(xì)節(jié)（見附錄A.2）垢村。總之嚎卫，我們將每個(gè)視圖和掩碼表示為潛在變量（latents） $v_{m}$ 和 ${ v’ }_{ m’ }$ 嘉栓，其中，對(duì)于DetCon_S拓诸，有

對(duì)于DetCon_B侵佃，有

我們用一個(gè)溫度參數(shù) $τ$ 重新縮放所有的latents，使得它們的范數(shù)等于 $1/\sqrt{τ}$ 奠支， $τ=0.1$ 馋辈。注意，對(duì)于下游任務(wù)倍谜，我們只保留特征提取器 $f_{θ}$ 迈螟，而丟棄網(wǎng)絡(luò)的所有其他部分（預(yù)測(cè)和投影頭，以及任何指數(shù)移動(dòng)平均）枢劝。

目的：對(duì)比檢測(cè)井联。令 $v_{m} ,{ v’ }_{ m’ }$ 為視圖 $x,x’$ 中的掩膜 $m,m’$ 的latent表示，對(duì)比損失為：

其定義為一個(gè)預(yù)測(cè)任務(wù)：在觀察到投影 $v_m$ 后您旁，學(xué)習(xí)在負(fù)樣本 $\left\{ v_{n} \right\}$ 存在的情況下認(rèn)出 ${ v’ }_{ m’ }$ 烙常。我們的負(fù)樣本來自同一圖像的不同掩膜，以及同一批量中的不同圖像鹤盒。請(qǐng)注意蚕脏，我們對(duì)這些掩膜不做任何假設(shè)，允許負(fù)掩膜罩與正掩膜重疊侦锯。

這種損失的自然延伸是聯(lián)合對(duì)原始圖像中對(duì)應(yīng)于相同區(qū)域的成對(duì)遮罩 $m,m’$ 進(jìn)行采樣驼鞭，并最大化它們的特征表示的相似性：

我們對(duì)這個(gè)目標(biāo)做了一些實(shí)際的改變。首先尺碰，為了便于批量計(jì)算挣棕，我們?cè)诿看蔚鷷r(shí)從數(shù)量可變的掩膜 $\left\{ m \right\} ,\left\{ m’ \right\}$ 中隨機(jī)抽取一組16個(gè)（可能是冗余的）。然后亲桥，我們密集地評(píng)估所有掩模對(duì)和所有圖像之間的相似性洛心，這樣，每幅圖像為公式(1)中的集合 $\left\{ v_{n} \right\}$ 提供16個(gè)負(fù)樣本题篷，而不是一個(gè)词身。我們通過選擇與場(chǎng)景中不同物體大致匹配的掩膜，使這些負(fù)樣本盡可能的多樣化（第3.2節(jié)）番枚。最后法严，我們屏蔽了損失（mask out the loss）损敷，以最大限度地提高成對(duì)位置的相似性，使我們能夠處理一個(gè)掩膜出現(xiàn)在一個(gè)視圖中而不是另一個(gè)視圖中的情況（見圖2）深啤∞致總之，這些簡(jiǎn)單的修改將我們帶到DetCon目標(biāo)：

其中二值變量 $1_{m,m’ }$ 表示掩膜 $m,m’$ 是否對(duì)應(yīng)于圖像上的同一塊區(qū)域墓塌。

優(yōu)化瘟忱。????在ImageNet上進(jìn)行預(yù)訓(xùn)練時(shí)，采用SimCLR和BYOL的優(yōu)化細(xì)節(jié)分別訓(xùn)練DetCon_S和DetCon_B苫幢。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí)访诱，我們會(huì)對(duì)學(xué)習(xí)計(jì)劃做一些小的改變，以減輕過度擬合（見附錄A.3）韩肝。

計(jì)算成本触菜。????自監(jiān)督學(xué)習(xí)的計(jì)算要求很大程度上是由于通過卷積主干的前向傳播和后向傳播。對(duì)于應(yīng)用于224×224分辨率圖像的典型ResNet-50體系結(jié)構(gòu)哀峻，單個(gè)前向過程需要大約4B FLOPS涡相。SimCLR和DetConS中的額外投影頭需要額外的4M FLOPS。由于我們對(duì)投影頭輸入16個(gè)隱藏向量而不是1個(gè)剩蟀，因此我們將forward過程的計(jì)算量增加了67M FLOPS催蝗，不到總數(shù)的2%。加上對(duì)比損失的增加復(fù)雜性育特，DetCon S和DetConB的增加分別為5.3%和11.6%（見附錄A.2）丙号。最后，計(jì)算圖像分割的成本可以忽略不計(jì)缰冤，因?yàn)樗鼈兛梢灾挥?jì)算一次然后一直重復(fù)使用犬缨。因此，我們的方法相對(duì)于基線的復(fù)雜度增加非常小棉浸，這樣怀薛，相對(duì)于基線的訓(xùn)練迭代和計(jì)算成本的增加就非常小。

3.2 無監(jiān)督掩膜生成

為了生成DetCon目標(biāo)所需的掩模迷郑，我們研究了幾個(gè)分割過程枝恋，從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法。

圖3嗡害。DetCon模型使用的示例掩膜鼓择。第一列：來自COCO訓(xùn)練集的隨機(jī)圖片。第二列：僅基于空間接近度的掩膜就漾。全局掩碼（top）由SimCLR、MoCo和BYOL等方法隱式使用念搬。第三列：從Felzenszwalb-Huttenlocher（FH抑堡，[16]）算法獲得的圖像可計(jì)算掩模摆出，s=500。第四列：使用多尺度組合分組（MCG）推斷的圖像可計(jì)算掩模[2]首妖。第五列：“oracle”掩膜用于評(píng)估高質(zhì)量分割帶來的潛在改進(jìn)偎漫。

為了產(chǎn)生DetCon目標(biāo)所需的掩碼，我們研究了幾種分割過程有缆，從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法（ graph-based algorithms）象踊。

Spatial heuristic??空間啟發(fā)式。最簡(jiǎn)單的分割我們只考慮基于空間接近度的組位置棚壁。具體來說杯矩，我們將圖像劃分為一個(gè)n×n的非重疊方塊區(qū)域網(wǎng)格（圖3，第2列）袖外。如第3.1節(jié)所述史隆，當(dāng)使用單個(gè)全局掩碼（n=1）時(shí)，DetConS目標(biāo)恢復(fù)為SimCLR曼验。

Image-computable masks: FH.????圖像可計(jì)算掩模泌射。我們還考慮Felzenszwalb-Huttenlocher算法[16]，一個(gè)經(jīng)典的分割過程鬓照，使用基于像素的相似性迭代合并區(qū)域（圖3熔酷，第3列）。我們通過改變尺度s和最小簇大小c這兩個(gè)超參數(shù)豺裆，在COCO上訓(xùn)練時(shí)使用s∈{500拒秘，1000，1500}和c=s留储，在ImageNet上訓(xùn)練時(shí)使用s=1000翼抠，生成了一組不同的掩模。（Efficient graph-based image segmentation获讳，2004）

Image-computable masks: MCG. ?圖像可計(jì)算掩模阴颖。多尺度組合分組[2]是一種更復(fù)雜的算法，它在中級(jí)分類器的指導(dǎo)下丐膝，將超像素分組到許多重疊的對(duì)象建議區(qū)域（圖3量愧，第4列）。對(duì)于每幅圖像帅矗，我們使用16 MCG最高分?jǐn)?shù)的掩模偎肃。注意，我們的公式支持掩幕氪耍可以重疊的事實(shí)累颂。（Multiscale combinatorial grouping，2014）

Human annotated masks. ?人類標(biāo)注。在這項(xiàng)工作中紊馏，我們考慮了使用上述無監(jiān)督mask所帶來的好處料饥。在最后一節(jié)中，我們?cè)儐柛哔|(zhì)量的掩碼（由人工注釋器提供朱监；圖3岸啡，第5列）是否可以改進(jìn)我們的結(jié)果。

3.3 評(píng)估協(xié)議

在一個(gè)無監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)中訓(xùn)練了一個(gè)特征抽取器赫编，通過將其轉(zhuǎn)換到COCO檢測(cè)巡蘸、COCO實(shí)例分割和PASCAL語(yǔ)義分割任務(wù)中來評(píng)價(jià)特征抽取的質(zhì)量。

遷移到COCO擂送。我們使用該表示來初始化Mask RCNN[25]的特征提取器悦荒，Mask RCNN結(jié)構(gòu)包含特征金字塔網(wǎng)絡(luò)[37]和cross-replica batch-norm[46]。我們采用了公開的云TPU 實(shí)現(xiàn)（注釋https://github.com/tensorflow/tpu/tree/master/models/official/detection）团甲，使用時(shí)不做任何修改逾冬。我們端到端地微調(diào)整個(gè)模型，并在VAL2017集上報(bào)告邊界框AP（AP bb）和掩碼AP（AP mk）躺苦。我們使用兩個(gè)標(biāo)準(zhǔn)的訓(xùn)練計(jì)劃：12個(gè)epoch（“1×計(jì)劃”）和24個(gè)epoch（“2×計(jì)劃”）[23]身腻。

遷移到PASCAL。按照[23]匹厘，我們將一個(gè)全卷積的網(wǎng)絡(luò)[38]堆疊在表示之上嘀趟，并對(duì)網(wǎng)絡(luò)進(jìn)行端到端的語(yǔ)義分割訓(xùn)練。我們?cè)趖rainaug2012愈诚，在val2012集上報(bào)告mIoU她按。

4. 實(shí)驗(yàn)

我們的主要自監(jiān)督學(xué)習(xí)實(shí)驗(yàn)采用FH掩碼，因?yàn)槲覀儗⒄故究蝗幔褂肈etCon酌泰，F(xiàn)H比簡(jiǎn)單的空間啟發(fā)式效果要好，性能接近MCG掩碼匕累，但比MCG的計(jì)算要快得多陵刹，鑒于其在scikit image中的可用性[56]，其更容易在大規(guī)模數(shù)據(jù)集（如ImageNet）上使用欢嘿。

圖4衰琐。高效的ImageNet預(yù)訓(xùn)練。我們?cè)贗mageNet上用SimCLR炼蹦、DetConS或監(jiān)督學(xué)習(xí)用不同epoch進(jìn)行預(yù)訓(xùn)練羡宙，并通過對(duì)COCO上的12個(gè)epoch或PASCAL上的45個(gè)epoch進(jìn)行微調(diào)，評(píng)估它們?cè)贑OCO檢測(cè)（左）掐隐、COCO實(shí)例分割（中）或PASCAL語(yǔ)義分割（右）方面的準(zhǔn)確性狗热。DetCon的性能優(yōu)于SimCLR，計(jì)算量減少了5倍。

表1匿刮。高效的ImageNet預(yù)訓(xùn)練指攒。我們?cè)贗mageNet上用SimCLR、BYOL僻焚、DetConS和DetConB進(jìn)行預(yù)訓(xùn)練，并在COCO上微調(diào)12個(gè)epoch,報(bào)告邊界框AP（APbb）和掩碼AP（APmk）膝擂。顏色突出了模型之間的比較虑啤，說明了在預(yù)訓(xùn)練效率的提高。

4.1 從ImageNet遷移

我們首先研究DetCon目標(biāo)是否提高了ImageNet遷移學(xué)習(xí)的預(yù)訓(xùn)練效率架馋。

訓(xùn)練效率狞山。? ? 我們?cè)贗mageNet上為100、200叉寂、500和1000個(gè)epoch訓(xùn)練SimCLR和DetConS模型萍启，并將它們遷移到COCO和PASCAL。當(dāng)在COCO上進(jìn)行微調(diào)時(shí)屏鳍，DetConS在所有的訓(xùn)練模式中都顯著地優(yōu)于SimCLR（圖4勘纯，左，中）钓瞭。SimCLR所獲得的最大性能是由DetCon S通過5×更少的訓(xùn)練迭代而達(dá)到的（表1驳遵，頂部）。我們還將這些相同的模型遷移到PASCAL上的語(yǔ)義分割山涡，并發(fā)現(xiàn)類似的結(jié)果（DetConS產(chǎn)生2倍的預(yù)訓(xùn)練效率增益堤结；圖4，右）鸭丛。

我們還評(píng)估了在ImageNet上訓(xùn)練的監(jiān)督預(yù)訓(xùn)練ResNet-50的遷移性能（圖4竞穷，紅色）。請(qǐng)注意鳞溉，盡管SimCLR達(dá)到了有監(jiān)督遷移的精度瘾带，但與之前的工作一致[8,23]，它這樣做的計(jì)算成本大大增加穿挨，需要10×更多的預(yù)訓(xùn)練迭代才能達(dá)到這種表示質(zhì)量月弛。相比之下，DetCon S的收斂速度要快得多科盛，能夠得到有用的表示：遷移到COCO上200個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練帽衙，遷移到PASCAL上500個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練。

從BYOL到DetConB贞绵。? ? DetCon有多通用厉萝？我們通過比較DetConB與其基線BYOL來測(cè)試這一點(diǎn)。在這里，我們也不加修改地采用底層框架細(xì)節(jié)（關(guān)于架構(gòu)谴垫、優(yōu)化等）章母，這可能使DetCon目標(biāo)處于不利地位。盡管如此翩剪，DetCon_B表現(xiàn)得比BYOL要好乳怎，預(yù)訓(xùn)練效率提高了3倍（表1，底部）前弯。

與現(xiàn)有工作比較蚪缀。????我們現(xiàn)在將自監(jiān)督遷移學(xué)習(xí)與以前的工作進(jìn)行比較，并使用經(jīng)過充分訓(xùn)練的DetCon_S和Detcon_B模型進(jìn)行比較恕出。請(qǐng)注意询枚，其他方法使用了略有不同的MaskRCNN實(shí)現(xiàn)[60]，但是它們對(duì)ImageNet監(jiān)督預(yù)訓(xùn)練和SimCLR的結(jié)果與我們自己的結(jié)果相匹配[53浙巫，62]金蜀，因此比較可以看做是公平的。表2a顯示的畴，DetCon在有監(jiān)督和自監(jiān)督遷移學(xué)習(xí)方面優(yōu)于所有其他方法渊抄。

表2。與現(xiàn)有技術(shù)的比較：所有方法在ImageNet上進(jìn)行預(yù)訓(xùn)練苗傅，然后在COCO上進(jìn)行12個(gè)epoch（1x計(jì)劃）或24個(gè)epoch（2x計(jì)劃）的微調(diào)抒线。邊界框AP（APbb）和掩碼AP（APmk）在COCO val2017set上進(jìn)行評(píng)估。

縮放模型容量渣慕。????在自監(jiān)督學(xué)習(xí)方面的前期工作已經(jīng)證明可以很好地?cái)U(kuò)展模型容量[13嘶炭，33，8]逊桦。DetCon帶來的收益會(huì)隨著更大的型號(hào)而消失嗎眨猎？我們?cè)贗mageNet上訓(xùn)練SimCLR、BYOL和DetConB模型强经，使用ResNet-101睡陪、ResNet-152和ResNet-200特征提取器而不是ResNet-50。表2和2c以及圖5顯示匿情，在這種更高容量的情況下兰迫，DetCon繼續(xù)優(yōu)于其他方法。

圖5.將DetCon擴(kuò)展到更大的模型炬称。我們使用監(jiān)督學(xué)習(xí)汁果、SimCLR、BYOL或DetConB在ImageNet上預(yù)訓(xùn)練ResNet-50玲躯、ResNet-101据德、ResNet-152和ResNet-200特征提取器鳄乏，并在COCO上微調(diào)12個(gè)epoch。

我們更進(jìn)一步棘利，訓(xùn)練了一個(gè)具有2×寬度乘數(shù)[33]的ResNet-200橱野，包含2.5億個(gè)參數(shù)。令人驚訝的是善玫，盡管只在ImageNet上進(jìn)行了訓(xùn)練水援，但該模型的遷移性能與最近提出的大規(guī)模自監(jiān)督模型SEER[19]相匹配，SEER具有693M的參數(shù)茅郎，并在1000×更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練（表3）裹唆。雖然比較是不完善的（大范圍的數(shù)據(jù)必然更多噪聲），但它突出了單獨(dú)從自監(jiān)督學(xué)習(xí)目標(biāo)改進(jìn)的潛力只洒。

表3?與大規(guī)模遷移學(xué)習(xí)的比較：所有方法對(duì)主干進(jìn)行預(yù)訓(xùn)練，并使用Mask-RCNN進(jìn)行COCO檢測(cè)和實(shí)例分割劳坑。SEER在Instagram圖片上訓(xùn)練毕谴，而DetConS在ImageNet上訓(xùn)練（130萬張圖片）。SEER和監(jiān)督基線使用最新的RegNet架構(gòu)[48]距芬，而DetConS使用的ResNet-200是2x寬度涝开。盡管如此，DetCon預(yù)訓(xùn)練與大規(guī)模SEER預(yù)訓(xùn)練的性能相匹配

4.2 從COCO遷移

接下來我們將研究DetCon目標(biāo)處理具有多個(gè)對(duì)象的復(fù)雜場(chǎng)景的能力框仔。為此舀武，我們對(duì)COCO數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練，并與SimCLR進(jìn)行了比較离斩。

圖6??COCO的高效遷移银舱。我們使用SimCLR或DetConS在COCO上用不同epoch進(jìn)行預(yù)訓(xùn)練，并將其遷移到PASCAL語(yǔ)義分割上微調(diào)45個(gè)epoch跛梗。

預(yù)訓(xùn)練效率寻馏。????我們對(duì)SimCLR和DetConS進(jìn)行了一系列不同epoch的訓(xùn)練（324-5184個(gè)epoch），并將所有模型遷移到PASCAL上的語(yǔ)義分割核偿。我們發(fā)現(xiàn)DetConS在預(yù)訓(xùn)練成本方面優(yōu)于SimCLR（圖6）诚欠。DetConS要達(dá)到SimCLR的最大準(zhǔn)確度只需要1/4的訓(xùn)練時(shí)間。

超過了COCO的監(jiān)督傳輸漾岳。????我們還評(píng)估了監(jiān)督預(yù)訓(xùn)練轰绵，從COCO遷移的性能。具體的是尼荆，我們訓(xùn)練了一個(gè)長(zhǎng)時(shí)間的Mask-RCNN（108個(gè)epoch左腔，一個(gè)“9×” schedule），并使用學(xué)習(xí)的特征提取器（ResNet-50耀找，對(duì)于SimCLR和DetCon預(yù)訓(xùn)練）作為PASCAL分割的表示翔悠。雖然DetCon預(yù)訓(xùn)練超過了監(jiān)督基線的性能业崖，但SimCLR仍然落后（圖6）。

4.3 燒蝕和分析

我們現(xiàn)在剖析DetCon目標(biāo)的組成部分蓄愁，并評(píng)估每一個(gè)目標(biāo)的好處双炕。為此，我們對(duì)COCO進(jìn)行了預(yù)訓(xùn)練撮抓，因?yàn)樗膱D片是包含許多物體的復(fù)雜場(chǎng)景妇斤，并且有相應(yīng)的掩膜，使我們能夠準(zhǔn)確地測(cè)量分割它們的影響丹拯。我們通過凍結(jié)特征來評(píng)估學(xué)習(xí)到的表示站超，其中的特征提取器是固定的，而我們?cè)贑OCO上訓(xùn)練MaskRCNN的其它層乖酬。此受控設(shè)置類似于用于評(píng)估圖像識(shí)別的自監(jiān)督表示質(zhì)量的線性分類協(xié)議[12死相、14、44咬像、64]算撮。

什么樣的掩膜是好的？? ? DetCon目標(biāo)可以使用各種不同的圖像分割县昂，哪種分割可以得到最佳的表現(xiàn)肮柜？我們首先考慮將圖像劃分為2×2、5×5或10×10網(wǎng)格的空間啟發(fā)式算法倒彰，1×1網(wǎng)格相當(dāng)于使用Sim-CLR目標(biāo)审洞。我們發(fā)現(xiàn)下游性能隨著網(wǎng)格的細(xì)化而提高，5×5網(wǎng)格是最佳的（圖7）待讳。

接下來我們考慮圖像可計(jì)算的FH和MCG掩模芒澜，這兩種掩模都優(yōu)于空間啟發(fā)式掩模，MCG掩模導(dǎo)致稍微更好的表示创淡。有趣的是撰糠，表示的質(zhì)量與預(yù)訓(xùn)練掩模和真值掩膜之間的重疊非常相關(guān)，每個(gè)真值物體被某個(gè)掩模覆蓋得越好辩昆，DetCon的表現(xiàn)就越好阅酪。

圖7.DetCon中使用的掩膜類型的效果。我們?cè)贑OCO數(shù)據(jù)集上訓(xùn)練DetCon模型，使用無監(jiān)督掩膜（藍(lán)色），或真值掩膜（灰色）悲雳。使用單個(gè)全局掩碼（即“1x1”網(wǎng)格）相當(dāng)于SimCLR（橙色）摸吠。我們通過測(cè)量每個(gè)真值掩模和最近的預(yù)訓(xùn)練掩模之間的IoU，并對(duì)所有真值實(shí)例和圖像進(jìn)行平均來計(jì)算平均最佳重疊（ABO，x軸）。我們使用凍結(jié)特征范式（y軸）評(píng)估每個(gè)模型對(duì)COCO檢測(cè)的準(zhǔn)確性。

對(duì)比檢測(cè)vs對(duì)比識(shí)別? ? DetCon目標(biāo)如何從這些圖像分割中獲益瑞躺？我們通過將每個(gè)組件增量添加到SimCLR框架來評(píng)估它們的影響敷搪。如第3.1節(jié)所述，我們?cè)贒etCon目標(biāo)中使用單個(gè)全局掩碼時(shí)恢復(fù)SimCLR幢哨。作為一種安全性檢查赡勘，我們驗(yàn)證了，將次掩膜（global）復(fù)制多次捞镰，并將復(fù)制的結(jié)果（這些相同的特征）包含到DetCon中闸与，這樣對(duì)表示質(zhì)量沒有影響（表4，a行）岸售。有趣的是践樱，使用FH掩模但僅對(duì)每幅圖像采樣一個(gè)掩模會(huì)略微降低性能，這可能是因?yàn)槟Ｐ驮诿看蔚鷷r(shí)僅從圖像的一部分進(jìn)行學(xué)習(xí)（表4凸丸，b行）拷邢。通過對(duì)目標(biāo)區(qū)域進(jìn)行密集采樣，DetConS可以從整個(gè)圖像中進(jìn)行學(xué)習(xí)屎慢，同時(shí)還可以從一組不同的正樣本和負(fù)樣本中獲益解孙，從而提高檢測(cè)和分割精度（表4，最后一行）抛人。

表4 消融：從SimCLR到DetConS。我們對(duì)COCO進(jìn)行了預(yù)訓(xùn)練脐瑰，并對(duì)COCO的特征精度進(jìn)行了評(píng)估妖枚。掩膜：隱藏向量是否被全局地池化，或者只使用單個(gè)的FH掩膜苍在。latents:掩膜的數(shù)量绝页。

如果分割得到解決怎么辦？盡管使用了相當(dāng)接近的分割模板寂恬，但DetCon目標(biāo)函數(shù)導(dǎo)致了快速的遷移學(xué)習(xí)和強(qiáng)大的性能续誉。在第4.3節(jié)中，我們發(fā)現(xiàn)更高質(zhì)量分割（例如使用MCG計(jì)算的分割初肉，或從人類標(biāo)注獲得的分割）以提高表示質(zhì)量酷鸦。如果分割更準(zhǔn)確，我們?nèi)绾翁岣邔W(xué)習(xí)目標(biāo)牙咏？我們通過重新考慮對(duì)比目標(biāo)的設(shè)計(jì)選擇來評(píng)估這個(gè)問題臼隔，給出COCO數(shù)據(jù)集的真值掩模，而不是近似的FH掩模妄壶。

縮放圖像分辨率摔握。我們假設(shè)，更高的圖像分辨率可能會(huì)使網(wǎng)絡(luò)從這些信息量更大的分割中受益更多丁寄。為了保留細(xì)粒度信息氨淌，我們?cè)诿總€(gè)掩膜內(nèi)采樣局部特征泊愧，并使用DetCon目標(biāo)對(duì)其進(jìn)行優(yōu)化。我們?cè)?84×384或512×512分辨率的圖像上預(yù)訓(xùn)練配備了FH或真值（GT）掩模的SimCLR和DetConS模型盛正。雖然帶FH掩模的DetCon只獲得了適度的益處删咱，而帶高分辨率圖像的SimCLR的性能惡化，帶GT掩模的DetCon得到了顯著的改善（圖8）蛮艰。請(qǐng)注意腋腮，這完全是由于提高了表示質(zhì)量；用于下游評(píng)估的圖像分辨率主要保持在1024×1024（對(duì)于所有模型）壤蚜。

圖8即寡。更好的分割得益于更高的分辨率。我們?cè)贑OCO上使用SimCLR和DetConS（帶FH或GT掩膜）以不同的分辨率預(yù)訓(xùn)練主干網(wǎng)袜刷。我們報(bào)告了固定分辨率為1024x1024的功能性能聪富。

重新審視對(duì)比框架。最后著蟹，我們提出了一個(gè)問題墩蔓，即當(dāng)前的對(duì)比學(xué)習(xí)范式（利用不同的隨機(jī)增強(qiáng)產(chǎn)生的大量的負(fù)樣本和預(yù)測(cè)）在DetCon目標(biāo)并具有高質(zhì)量的分割掩膜的背景下，仍然是最優(yōu)的萧豆。

表5 簡(jiǎn)化對(duì)比框架奸披。我們?cè)贑OCO上使用近似FH掩模或更高質(zhì)量的真值（GT）掩模訓(xùn)練DetConS模型涮雷，并在凍結(jié)特征設(shè)置下對(duì)其進(jìn)行評(píng)估阵面。“global neg”：從整個(gè)批次中采集陰性樣本洪鸭，而不是僅在一個(gè)worker（默認(rèn)是128個(gè)worker）內(nèi)采集样刷。“兩個(gè)視圖”：對(duì)比學(xué)習(xí)是否使用不同的視圖览爵，而不是僅僅一個(gè)視圖置鼻。

是否需要大量的負(fù)樣本？????不用高質(zhì)量的掩膜蜓竹。將負(fù)樣本數(shù)量除以128（實(shí)現(xiàn)是箕母，僅僅用一個(gè)worker來收集負(fù)樣本），DetCon（帶FH掩膜）的表現(xiàn)下降（表5俱济，row a）司蔬，與當(dāng)前的對(duì)比學(xué)習(xí)框架一致[8，23]姨蝴。相比之下俊啼，使用GT掩模的DetCon S盡管有此限制，但仍有改進(jìn)左医。

在不同增強(qiáng)視圖中采樣正樣本是否必要授帕？不用高質(zhì)量的掩膜同木。我們運(yùn)行DetCon模型，同時(shí)為每個(gè)圖像采樣單個(gè)增強(qiáng)跛十，并在該視圖中最大化基于掩碼的特征的相似性彤路。在這里，DetCon目標(biāo)在使用近似FH遮罩時(shí)會(huì)遇到這種障礙芥映，但在使用高質(zhì)量分段時(shí)不會(huì)遇到這種障礙（表5洲尊，b行）。

這是怎么回事奈偏？????一種解釋是坞嘀，其他圖片給我們提供了干凈的負(fù)樣本，因?yàn)镃OCO中的所有圖像都描繪了不同的場(chǎng)景惊来，但這并不意味著這些圖像的負(fù)樣本的質(zhì)量高于同一圖像中的負(fù)樣本的質(zhì)量丽涩。事實(shí)上，看起來是裁蚁，來自同一個(gè)圖像的負(fù)樣本提供了更好的信號(hào)矢渊，前提是我們能確保它們是干凈的，也就是說枉证，我們沒有把同一個(gè)物體的特征去拉開（pushing apart）矮男。如果同一圖像的正樣本也是至少和來自不同增強(qiáng)視圖的正樣本一樣好，前提是室谚，它們是干凈的毡鉴，也就是說，我們沒有把來自不同物體的特征拉近（pulling together）舞萄。

討論

我們提出了DetCon，這是對(duì)現(xiàn)有自監(jiān)督學(xué)習(xí)算法（如Sim-CLR和BYOL）的一種簡(jiǎn)單而強(qiáng)大的改進(jìn)管削。DetCon利用低級(jí)線索將圖像組織成物體和背景區(qū)域等實(shí)體倒脓，將大數(shù)據(jù)集的預(yù)訓(xùn)練效率提高了5倍，同時(shí)也提高了下游任務(wù)學(xué)習(xí)表示的準(zhǔn)確性含思。在ImageNet上預(yù)訓(xùn)練的自監(jiān)督方法中崎弃，我們的最佳模型達(dá)到了最先進(jìn)的性能，與最近在更大數(shù)據(jù)集上訓(xùn)練更大模型的最先進(jìn)方法的性能相似[19]含潘。

我們表明饲做，DetCon的能力與使用的掩膜與物體邊界對(duì)齊的程度密切相關(guān)。這似乎是直觀的——DetCon目標(biāo)只能利用從每個(gè)圖像區(qū)域（如果他們包含不同的內(nèi)容）獨(dú)立的學(xué)習(xí)信號(hào)遏弱。同樣盆均，只有當(dāng)負(fù)樣本代表不同的物體時(shí)，它們才是真正不同的漱逸。然而泪姨，這在聯(lián)合學(xué)習(xí)表征和發(fā)現(xiàn)物體方面創(chuàng)造了令人興奮的研究前景游沿。考慮到DetCon表示的改進(jìn)性能肮砾，例如分割诀黍，一個(gè)自然的問題是，它們是否可以用于生成更好的無監(jiān)督分割（比預(yù)訓(xùn)練階段更好）仗处。如果是這樣的話眯勾，這些可能會(huì)被用來學(xué)習(xí)更好的表示，導(dǎo)致一個(gè)良性的熱潮婆誓，無監(jiān)督的場(chǎng)景理解吃环。

感謝作者感謝Carl Doersch、Raia Hadsell和Evan Shelhamer對(duì)手稿的深入討論和反饋旷档。

A.附錄

A.1模叙。實(shí)現(xiàn)：數(shù)據(jù)擴(kuò)充

自監(jiān)督訓(xùn)練前。每人圖像被隨機(jī)放大兩次鞋屈，結(jié)果是兩次圖像：x范咨；x0 . 算符構(gòu)造為以下操作的組合，每個(gè)操作以給定的概率應(yīng)用：

隨機(jī)裁剪：

選擇圖像的隨機(jī)面片厂庇，其面積在[0:08 a渠啊；a]中均勻采樣，其中Ais是原始圖像的面積权旷，其縱橫比在[3=4替蛉；4=3]中對(duì)數(shù)采樣。然后使用雙三次插值拄氯；

水平翻轉(zhuǎn)躲查；

3將面片調(diào)整為224×224像素。顏色抖動(dòng)：亮度译柏、對(duì)比度镣煮、飽和度和色調(diào)通過均勻分布的偏移量進(jìn)行偏移；

顏色下降：RGB圖像由其灰度值替換鄙麦；

5典唇。高斯模糊，23×23平方核胯府，標(biāo)準(zhǔn)差從[0:1介衔；2:0]；

6均勻采樣骂因。日曬：一個(gè)點(diǎn)式顏色轉(zhuǎn)換x 7炎咖！x A 1x<0:5+（1 x）A 1x→0:5，像素sin[0；1]塘装。增廣圖像x急迂；x 0分別來自分布t和t 0的增廣采樣。這些分布適用于上述具有不同概率和不同震級(jí)的原語(yǔ)蹦肴。下表為SimCLR[8]和BYOL框架[20]指定了這些參數(shù)僚碎，我們對(duì)DetCon S和DetConB采用這些參數(shù)而不進(jìn)行修改。

傳輸?shù)紺OCO阴幌。

微調(diào)勺阐，圖像隨機(jī)翻轉(zhuǎn)，并調(diào)整到最長(zhǎng)一側(cè)1024像素的分辨率矛双，其中UI在[0:8渊抽；1:25]中均勻采樣，然后進(jìn)行裁剪或者填充到1024×1024的圖像议忽。寬高比保持與原始圖像相同懒闷。在測(cè)試期間，圖像在最長(zhǎng)的一側(cè)被調(diào)整到1024像素栈幸，然后填充到1024×1024像素愤估。

轉(zhuǎn)到帕斯卡。在訓(xùn)練過程中速址，圖像會(huì)以[0:5玩焰；2:0]中的因子進(jìn)行翻轉(zhuǎn)和縮放。用513×513分辨率的圖像進(jìn)行訓(xùn)練和測(cè)試芍锚。實(shí)現(xiàn)：

體系結(jié)構(gòu)

我們的默認(rèn)特性提取器是ResNet-50[27]昔园。在第4.1節(jié)中，我們還研究了更深層次的體系結(jié)構(gòu)（ResNet-101并炮、-152和-200）和更寬的模型（ResNet-200×2）默刚，該模型通過將所有通道尺寸縮放2倍而獲得。如第3.1節(jié)所述逃魄，該編碼器產(chǎn)生一個(gè)隱藏向量的網(wǎng)格荤西，我們將其聚集在掩碼中，以獲得一組表示每個(gè)掩碼的向量hmr嗅钻。然后皂冰，在輸入對(duì)比損失之前店展，通過投影頭g（以及可選的預(yù)測(cè)頭q）對(duì)其進(jìn)行變換养篓。在SimCLR之后，投影頭是一個(gè)兩層MLP赂蕴，其隱藏和輸出尺寸是2048和128柳弄。該網(wǎng)絡(luò)使用兩個(gè)視圖的學(xué)習(xí)參數(shù)θ。DetConB公司。根據(jù)BYOL碧注，投影頭是一個(gè)兩層MLP嚣伐，其隱藏和輸出尺寸分別為4096和256。該網(wǎng)絡(luò)使用所學(xué)習(xí)的參數(shù)θ來處理一個(gè)視圖萍丐，并使用這些參數(shù)ξ的指數(shù)移動(dòng)平均值來處理第二個(gè)視圖轩端。具體地說，ξ是用ξ→Aξ+（1→）Aθ來更新的逝变，其中衰減率→在訓(xùn)練過程中使用余弦表從→0到1進(jìn)行退火[20]基茵。→當(dāng)訓(xùn)練1000個(gè)歷元時(shí)壳影，0設(shè)置為0.996拱层，當(dāng)訓(xùn)練300個(gè)歷元時(shí)，0設(shè)置為0.99宴咧。第一視圖的投影進(jìn)一步通過預(yù)測(cè)頭進(jìn)行變換根灯，預(yù)測(cè)頭的結(jié)構(gòu)與投影頭的結(jié)構(gòu)相同。

1計(jì)算成本掺栅。通過ResNet-50編碼器的正向傳遞大約需要4B次觸發(fā)器烙肺。忽略偏差項(xiàng)和逐點(diǎn)非線性的代價(jià)，DetCon S中的預(yù)測(cè)頭大約需要440萬次浮點(diǎn)運(yùn)算（即2048×2048+2048×128）柿冲。由于這是計(jì)算16次而不是一次茬高，因此與SimCLR相比，它會(huì)導(dǎo)致67M觸發(fā)器的開銷假抄。對(duì)于detconb怎栽，與BYOL相比，評(píng)估投影和預(yù)測(cè)頭的綜合成本導(dǎo)致額外的173M失敗宿饱。最后熏瞄，評(píng)估對(duì)比損失的代價(jià)是DetCon S為134M次，DetConB為268M次谬以。DetConS總共需要2.01億個(gè)額外的觸發(fā)器和4.41億個(gè)DetConB强饮，分別占主干網(wǎng)評(píng)估成本的5.3%和11.6%。與達(dá)到給定傳輸性能所需的訓(xùn)練迭代增益（例如为黎，DetCon S的500%增益）相比邮丰，該開銷足夠小

對(duì)于我們來說，沒有進(jìn)一步區(qū)分計(jì)算和訓(xùn)練時(shí)間的收益铭乾。實(shí)施：

優(yōu)化

自監(jiān)督訓(xùn)練前剪廉。我們使用LARS op timizer[63]進(jìn)行培訓(xùn)，批量大小為4096炕檩，分為128個(gè)云TPU v3工作人員斗蒋。在ImageNet上訓(xùn)練時(shí)，我們?cè)俅螌?duì)DetConS和DetConB采用SimCLR和BYOL的優(yōu)化細(xì)節(jié)，將學(xué)習(xí)速率與批量大小線性縮放泉沾，并根據(jù)余弦調(diào)度進(jìn)行衰減捞蚂。對(duì)于DetCon S，基本學(xué)習(xí)率為0.3跷究，權(quán)重衰減為106姓迅。DetConBalso在訓(xùn)練300個(gè)時(shí)期時(shí)使用這些值；在訓(xùn)練1000個(gè)時(shí)期時(shí)俊马，它們是0.2和1:5 A 10 6队贱。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí)，我們將cosine學(xué)習(xí)率表替換為一個(gè)分段常數(shù)潭袱，這被發(fā)現(xiàn)可以緩解過度擬合[24]柱嫌，在第96和98個(gè)百分位，學(xué)習(xí)率降低了10倍屯换。為了公平比較编丘，我們?cè)趯im-CLR應(yīng)用于COCO數(shù)據(jù)集時(shí)使用了相同的調(diào)度，我們還發(fā)現(xiàn)它的性能比更激進(jìn)的余弦調(diào)度更好彤悔。

遷移到COCO嘉抓。

我們使用隨機(jī)梯度下降進(jìn)行微調(diào)，在前500次迭代中線性增加學(xué)習(xí)速率晕窑，之后兩次下降10倍總訓(xùn)練時(shí)間的2 3和8 9抑片，在[60]之后。我們對(duì)ResNet-50模型使用0.3的基本學(xué)習(xí)率杨赤，對(duì)較大的模型使用0.2的基本學(xué)習(xí)率敞斋，動(dòng)量為0.9，權(quán)重衰減為4 a 10 5疾牲，批大小為64張圖像植捎，分成16個(gè)工作人員。

遷移到PASCAL阳柔。

我們使用隨機(jī)梯度下降對(duì)45個(gè)時(shí)期進(jìn)行微調(diào)焰枢，批大小為16，權(quán)重衰減為10 4舌剂。學(xué)習(xí)率為0.02济锄，在第70百分位和第90百分位下降了10倍。

最后編輯于：2021.04.20 17:22:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末霍转，一起剝皮案震驚了整個(gè)濱河市荐绝，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌谴忧，老刑警劉巖很泊，帶你破解...
沈念sama閱讀 218,284評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異沾谓，居然都是意外死亡委造，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門均驶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來昏兆，“玉大人，你說我怎么就攤上這事妇穴∨朗” “怎么了？”我有些...
開封第一講書人閱讀 164,614評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵腾它，是天一觀的道長(zhǎng)跑筝。經(jīng)常有香客問我，道長(zhǎng)瞒滴，這世上最難降的妖魔是什么曲梗？我笑而不...
開封第一講書人閱讀 58,671評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮妓忍，結(jié)果婚禮上虏两，老公的妹妹穿的比我還像新娘。我一直安慰自己世剖，他們只是感情好定罢，可當(dāng)我...
茶點(diǎn)故事閱讀 67,699評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著旁瘫，像睡著了一般祖凫。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上酬凳，一...
開封第一講書人閱讀 51,562評(píng)論 1贊 305
城市分裂傳說
那天蝙场，我揣著相機(jī)與錄音，去河邊找鬼粱年。笑死售滤，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的台诗。我是一名探鬼主播完箩，決...
沈念sama閱讀 40,309評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼拉队！你這毒婦竟也來了弊知？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,223評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤粱快，失蹤者是張志新（化名）和其女友劉穎秩彤，沒想到半個(gè)月后叔扼，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,668評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡漫雷，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,859評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年瓜富，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片降盹。...
茶點(diǎn)故事閱讀 39,981評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡与柑，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蓄坏，到底是詐尸還是另有隱情价捧，我是刑警寧澤，帶...
沈念sama閱讀 35,705評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布涡戳，位于F島的核電站结蟋，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏渔彰。R本人自食惡果不足惜椎眯，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,310評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望胳岂。院中可真熱鬧编整，春花似錦、人聲如沸乳丰。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,904評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)产园。三九已至汞斧，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間什燕，已是汗流浹背粘勒。一陣腳步聲響...
開封第一講書人閱讀 33,023評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屎即，地道東北人庙睡。一個(gè)月前我還...
沈念sama閱讀 48,146評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像技俐，于是被迫代替她去往敵國(guó)和親乘陪。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,933評(píng)論 2贊 355

啟發(fā)式物體掩膜的對(duì)比檢測(cè)

推薦閱讀更多精彩內(nèi)容