啟發(fā)式物體掩膜的對(duì)比檢測(cè)

DetCon? ??https://arxiv.org/abs/2103.10957

Efficient Visual Pretraining with Contrastive Detection

自監(jiān)督的預(yù)訓(xùn)練已經(jīng)被證明能為遷移學(xué)習(xí)提供有力的表征。然而幽纷,這些性能的提高需要大量的計(jì)算成本式塌,而最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量。我們通過引入一個(gè)新的自監(jiān)督目標(biāo)友浸,即對(duì)比檢測(cè)峰尝,來解決這個(gè)計(jì)算瓶頸,對(duì)比檢測(cè)的任務(wù)是辨別不同增強(qiáng)視圖的物體級(jí)的特征收恢。這一目標(biāo)為每幅圖像提取了豐富的學(xué)習(xí)信號(hào)武学,從而實(shí)現(xiàn)了從ImageNet到COCO的最先進(jìn)的遷移性能,同時(shí)所需的預(yù)訓(xùn)練成本減少了5倍伦意。特別是火窒,我們最強(qiáng)的ImageNet預(yù)訓(xùn)練模型的性能與SEER相當(dāng),SEER是迄今為止最大的自監(jiān)督系統(tǒng)之一驮肉,它使用了1000倍以上的預(yù)訓(xùn)練數(shù)據(jù)熏矿。最后,我們的目標(biāo)無縫地處理更復(fù)雜的圖像(如COCO中的圖像)的預(yù)訓(xùn)練,彌補(bǔ)了與監(jiān)督遷移學(xué)習(xí)(從COCO到PASCAL)的差距票编。

圖1?使用DetCon進(jìn)行高效的自監(jiān)督預(yù)訓(xùn)練褪储。使用SimCLR[8]的自監(jiān)督預(yù)訓(xùn)練僅在給定10倍以上的訓(xùn)練迭代次數(shù)時(shí)才與監(jiān)督預(yù)訓(xùn)練的傳遞性能相匹配。我們提出的DetCon目標(biāo)優(yōu)于兩者慧域,同時(shí)需要比SimCLR少5倍的計(jì)算量鲤竹。遷移性能通過使用Mask RCNN在COCO數(shù)據(jù)集上微調(diào)表示12個(gè)epoch來測(cè)量

1. 引言

自從AlexNet在ImageNet上取得突破性進(jìn)展以來,從大型標(biāo)記數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)已成為計(jì)算機(jī)視覺領(lǐng)域的主流范式[34昔榴,49]辛藻。盡管自監(jiān)督學(xué)習(xí)的最新進(jìn)展緩解了對(duì)標(biāo)簽的依賴性,但這是以巨大的計(jì)算成本完成的互订,最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量[7吱肌,9,20]屁奏。然而岩榆,自監(jiān)督學(xué)習(xí)的前景是利用大量未標(biāo)記的數(shù)據(jù)集,使其計(jì)算成本成為一個(gè)關(guān)鍵的瓶頸坟瓢。

在這項(xiàng)工作中,我們旨在減輕自監(jiān)督預(yù)訓(xùn)練的計(jì)算負(fù)擔(dān)犹撒。為此折联,我們引入了對(duì)比檢測(cè),這是一個(gè)新的目標(biāo)识颊,最大化不同視圖同一物體的物體級(jí)特征之間的相似性诚镰。

這一目標(biāo)的好處有三個(gè)。首先祥款,它從圖像中的所有物體中提取單獨(dú)的學(xué)習(xí)信號(hào)清笨,無額外成本地豐富了每個(gè)訓(xùn)練樣本提供的信息,因?yàn)槲矬w級(jí)的特征可以簡(jiǎn)單地從中間特征arrays中獲取刃跛。第二抠艾,它提供了更大規(guī)模、更多樣化的負(fù)樣本集桨昙,這也加速了學(xué)習(xí)检号。最后,這個(gè)目標(biāo)非常適合于從包含很多物體的復(fù)雜場(chǎng)景蛙酪,這種場(chǎng)景已被證明是對(duì)自監(jiān)督方法來說具有挑戰(zhàn)性的齐苛。

我們通過使用無監(jiān)督分割算法來識(shí)別圖像中近似的基于物體的區(qū)域。Perceptual grouping[32,40]——也就是數(shù)據(jù)中的低級(jí)或中級(jí)的特征桂塞,如顏色凹蜂、方向和紋理,可以將場(chǎng)景近似解析為連接的表面或物體部分的想法帆锋,長(zhǎng)期以來一直被認(rèn)為是視覺的有力先驗(yàn)[21朵纷,39,54]蝌借。我們對(duì)局部特征向量進(jìn)行相應(yīng)地分類來利用這些先驗(yàn)知識(shí)卿啡,并將我們的對(duì)比目標(biāo)分別應(yīng)用于每個(gè)物體級(jí)特征吟吝。我們調(diào)查了幾種無監(jiān)督、圖像可計(jì)算的掩模的使用情況[16颈娜,2]剑逃,發(fā)現(xiàn)盡管它們不準(zhǔn)確,但我們的目標(biāo)仍能很好地工作官辽。

我們通過將目標(biāo)應(yīng)用于ImageNet數(shù)據(jù)集并測(cè)量其在COCO檢測(cè)和實(shí)例分割等挑戰(zhàn)性任務(wù)上的遷移性能蛹磺,測(cè)試了目標(biāo)快速學(xué)習(xí)可遷移表示的能力。與最近的自監(jiān)督目標(biāo)(如SimCLR和BYOL)[8,20]相比同仆,我們的表示更精確萤捆,并且可以用更少的訓(xùn)練時(shí)間獲得。我們還發(fā)現(xiàn)這個(gè)學(xué)習(xí)目標(biāo)可以更好地處理更復(fù)雜場(chǎng)景的圖像俗批,彌合了與有監(jiān)督遷移學(xué)習(xí)(從COCO數(shù)據(jù)集遷移)的差距俗或。總之岁忘,我們做出了以下貢獻(xiàn):

(1)我們提出了一個(gè)新的對(duì)比目標(biāo)辛慰,該目標(biāo)通過一個(gè)簡(jiǎn)單的、無監(jiān)督的啟發(fā)式算法來提供物體區(qū)域干像,使得對(duì)于場(chǎng)景中所有物體帅腌,不同增強(qiáng)視圖下同一物體的特征的相似性最大化。我們剖析了這一新目標(biāo)麻汰,并評(píng)估了每一個(gè)要素所帶來的改進(jìn)速客。

(2)我們發(fā)現(xiàn)這個(gè)目標(biāo)可以減輕自監(jiān)督遷移學(xué)習(xí)的計(jì)算負(fù)擔(dān),將ImageNet的有監(jiān)督遷移學(xué)習(xí)所需的計(jì)算量減少5倍五鲫。更長(zhǎng)的訓(xùn)練時(shí)間會(huì)導(dǎo)致最先進(jìn)的COCO檢測(cè)和實(shí)例分割溺职,我們的最佳模型與最新的最先進(jìn)的自監(jiān)督系統(tǒng)SEER[19]相當(dāng),SEER是在差不多1000×更多的圖像上訓(xùn)練的臣镣。

(3)當(dāng)從復(fù)雜場(chǎng)景數(shù)據(jù)集(如COCO)遷移時(shí)辅愿,我們的方法彌補(bǔ)了與有監(jiān)督遷移學(xué)習(xí)(其依賴于人工標(biāo)注的分割的標(biāo)簽)的差距。

(4)最后忆某,我們?cè)u(píng)估了在高質(zhì)量圖像分割的前提下点待,現(xiàn)有的對(duì)比學(xué)習(xí)范式在多大程度上可以簡(jiǎn)化,提出了問題并為未來的工作開辟了道路弃舒。

2. 相關(guān)工作

將包含在一個(gè)任務(wù)和數(shù)據(jù)集中的知識(shí)遷移到解決其他下游任務(wù)(即遷移學(xué)習(xí))已被證明在一系列計(jì)算機(jī)視覺問題中非常成功[18癞埠,38]状原。早期的工作集中在改善預(yù)訓(xùn)練的結(jié)構(gòu)[26,50]和數(shù)據(jù)[51],而最近的自監(jiān)督學(xué)習(xí)工作則集中在預(yù)訓(xùn)練目標(biāo)和任務(wù)的選擇上苗踪。早期的自監(jiān)督預(yù)訓(xùn)練通常涉及圖像恢復(fù)颠区,包括去噪[58]、修復(fù)[45]通铲、著色[64,35]毕莱、拍攝者運(yùn)動(dòng)預(yù)測(cè)(egomotion prediction)[1]等[14,42,65]。更高層次的借口任務(wù)也被研究過颅夺,例如預(yù)測(cè)上下文[12]朋截、方向[17]、空間布局吧黄、時(shí)間順序[41]和聚類分配[5]部服。

對(duì)比目標(biāo),它最大化一個(gè)表示在不同視圖間的相似性拗慨,同時(shí)最小化了其與分散注意力的負(fù)樣本(distracting negative samples)的相似性廓八,最近獲得了相當(dāng)大的吸引力[22]。視圖被定義為局部和全局的裁剪[29赵抢、4剧蹂、55、28]或不同的輸入通道[52]烦却。實(shí)例辨別方法通過數(shù)據(jù)增強(qiáng)生成圖像的全局隨機(jī)視圖国夜,并最大化它們之間的相似性(相對(duì)于marginally sampled negatives)[8,13短绸,15,23筹裕,61]醋闭,盡管最近,對(duì)負(fù)樣本是否必需提出了質(zhì)疑[11朝卒,20]证逻。盡管實(shí)例識(shí)別方法的優(yōu)點(diǎn)主要局限于從ImageNet等簡(jiǎn)單數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,但基于聚類的預(yù)訓(xùn)練已證明在利用大量未處理圖像進(jìn)行遷移學(xué)習(xí)方面非常成功[3抗斤,6囚企,7,19瑞眼,31]龙宏。

雖然大多數(shù)工作都集中在學(xué)習(xí)整個(gè)圖像表示,但人們對(duì)學(xué)習(xí)與下游任務(wù)(如檢測(cè)和分割)更相關(guān)的局部表示越來越感興趣伤疙。這類工作的例子包括增加額外的輔助損失[53]银酗、結(jié)構(gòu)組件[47]或兩者兼而有之[62辆影,Propagate Urself]。雖然perceptual?grouping長(zhǎng)期以來一直被用于表征學(xué)習(xí)黍特,通常依賴于視頻中的連貫運(yùn)動(dòng)[36蛙讥,44,59]灭衷,但直到最近才與對(duì)比學(xué)習(xí)相結(jié)合[30次慢,57,66]翔曲。與我們的工作最相關(guān)的是[57,66](57就是MaskContrast)迫像,它們也利用圖像分割進(jìn)行自監(jiān)督學(xué)習(xí),盡管兩者與我們的不同之處在于它們學(xué)習(xí)專門用于語(yǔ)義分割的主干部默,并使用不同的損失函數(shù)侵蒙。雖然這些工作在無監(jiān)督的情況下取得了很高的分割精度,但對(duì)于COCO檢測(cè)和實(shí)例分割等遷移學(xué)習(xí)任務(wù)傅蹂,都沒有報(bào)告在預(yù)訓(xùn)練的效率上有所提高纷闺,我們接下來將對(duì)其進(jìn)行研究。

3 方法

我們引入了一個(gè)新的對(duì)比目標(biāo)份蝴,它最大限度地提高了表示同一物體的局部特征視圖之間的相似性(圖2)犁功。為了分離這些變化帶來的好處,我們?cè)诳赡艿那闆r下有意選擇重新使用現(xiàn)有對(duì)比學(xué)習(xí)框架的元素婚夫。為了測(cè)試我們的方法的通用性浸卦,我們分別基于最近的兩個(gè)自監(jiān)督基線SimCLR[8]和BYOL[20],導(dǎo)出了兩個(gè)變體DetCon_S和DetCon_B案糙。我們采用了這些方法的數(shù)據(jù)擴(kuò)充過程和網(wǎng)絡(luò)結(jié)構(gòu)限嫌,并將我們提出的對(duì)比檢測(cè)方法應(yīng)用于每種方法。

圖2?對(duì)比檢測(cè)方法时捌。我們使用近似的圖像可計(jì)算分割算法識(shí)別基于對(duì)象的區(qū)域(底部)怒医。這些掩模通過兩個(gè)隨機(jī)數(shù)據(jù)增強(qiáng)和一個(gè)卷積特征提取,在每個(gè)視圖(中間)中創(chuàng)建一組特征向量奢讨。然后稚叹,對(duì)比檢測(cè)目標(biāo)將來自同一遮罩(跨視圖)的集合特征向量拉到一起,并將來自不同遮罩和不同圖像的特征分開(上圖)

3.1 對(duì)比檢測(cè)框架

數(shù)據(jù)增強(qiáng)拿诸。????每個(gè)圖像被隨機(jī)增強(qiáng)兩次扒袖,得到兩個(gè)圖像:x,x’。DetCon_S和DetCon_B分別選擇SimCLR和BYOL的增強(qiáng)管道亩码,大致包括隨機(jī)裁剪季率、翻轉(zhuǎn)、模糊和逐點(diǎn)顏色變換蟀伸。更多詳情請(qǐng)參閱附錄A.1蚀同。在所有情況下缅刽,圖像的大小都調(diào)整為224×224像素分辨率。此外蠢络,我們?yōu)槊總€(gè)圖像計(jì)算一組掩膜衰猛,將圖像分割為不同的部分。如第3.2節(jié)所述刹孔,這些掩姆仁。可以使用計(jì)算高效地、只計(jì)算一次然后使用現(xiàn)成結(jié)果的髓霞、無監(jiān)督的分割算法來計(jì)算卦睹。如果可用,也可以使用帶人工標(biāo)注的掩膜方库。在任何情況下结序,我們使用與underlying(底下的)RGB圖像相同的裁剪和調(diào)整大小來變換每個(gè)掩膜(表示為二值圖像),得到兩組掩膜\left\{ m \right\} ,\left\{ m’ \right\} 纵潦,其與增強(qiáng)的圖像x,x’是對(duì)齊的(參見圖2徐鹤,augmented views)。

結(jié)構(gòu)邀层。????我們使用卷積特征提取器f對(duì)每個(gè)圖像編碼為隱藏向量的空間映射:h=f(x)返敬,其中h\in R^{H×W×D} 。在最終的平均池層之前寥院,我們使用標(biāo)準(zhǔn)ResNet-50編碼器[26]的輸出劲赠,這樣隱藏層就形成7×7、2048通道的向量h[i,j]秸谢。對(duì)于每個(gè)與圖像相關(guān)的掩模m凛澎,我們計(jì)算一個(gè)掩模池化隱藏向量:

其通過平均池化將二值掩膜在空間上下采樣為7×7的大小。然后估蹄,我們用兩層MLP變換每個(gè)向量预厌,得到非線性映射z_{m} =g(h_{m} )\in R^d 。注意元媚,在這一步中,我們?nèi)绻褂玫氖菃蝹€(gè)的全局的掩膜苗沧,就是SimCLR和BYOL的結(jié)構(gòu)刊棕。

對(duì)于DetCon_S,我們使用相同的編碼器f_{θ} 和投影網(wǎng)絡(luò)g_{θ} 處理兩個(gè)視圖待逞,其中θ是學(xué)習(xí)的參數(shù)甥角。對(duì)于DetCon_B,一個(gè)視圖用f_{θ} g_{θ} 處理识樱,另一個(gè)用f_{ξ} g_{ξ} 處理嗤无,其中ξθ的指數(shù)移動(dòng)平均震束。第一個(gè)視圖被預(yù)測(cè)網(wǎng)絡(luò)q_{θ} 進(jìn)一步地變換。在這里当犯,我們?cè)俅卧谕队昂皖A(yù)測(cè)網(wǎng)絡(luò)的定義中分別重用了DetCon_S和DetCon_B的SimCLR和BYOL的細(xì)節(jié)(見附錄A.2)垢村。總之嚎卫,我們將每個(gè)視圖和掩碼表示為潛在變量(latents)v_{m} { v’ }_{ m’ } 嘉栓,其中,對(duì)于DetCon_S拓诸,有

對(duì)于DetCon_B侵佃,有

我們用一個(gè)溫度參數(shù)τ重新縮放所有的latents,使得它們的范數(shù)等于1/\sqrt{τ} 奠支,τ=0.1馋辈。注意,對(duì)于下游任務(wù)倍谜,我們只保留特征提取器f_{θ} 迈螟,而丟棄網(wǎng)絡(luò)的所有其他部分(預(yù)測(cè)和投影頭,以及任何指數(shù)移動(dòng)平均)枢劝。

目的:對(duì)比檢測(cè)井联。令v_{m} ,{ v’ }_{ m’ } 為視圖x,x’ 中的掩膜m,m’ 的latent表示,對(duì)比損失為:

其定義為一個(gè)預(yù)測(cè)任務(wù):在觀察到投影v_m后您旁,學(xué)習(xí)在負(fù)樣本\left\{ v_{n}  \right\} 存在的情況下認(rèn)出{ v’ }_{ m’ } 烙常。我們的負(fù)樣本來自同一圖像的不同掩膜,以及同一批量中的不同圖像鹤盒。請(qǐng)注意蚕脏,我們對(duì)這些掩膜不做任何假設(shè),允許負(fù)掩膜罩與正掩膜重疊侦锯。

這種損失的自然延伸是聯(lián)合對(duì)原始圖像中對(duì)應(yīng)于相同區(qū)域的成對(duì)遮罩m,m’ 進(jìn)行采樣驼鞭,并最大化它們的特征表示的相似性:

我們對(duì)這個(gè)目標(biāo)做了一些實(shí)際的改變。首先尺碰,為了便于批量計(jì)算挣棕,我們?cè)诿看蔚鷷r(shí)從數(shù)量可變的掩膜\left\{ m \right\} ,\left\{ m’ \right\} 中隨機(jī)抽取一組16個(gè)(可能是冗余的)。然后亲桥,我們密集地評(píng)估所有掩模對(duì)和所有圖像之間的相似性洛心,這樣,每幅圖像為公式(1)中的集合\left\{ v_{n}  \right\} 提供16個(gè)負(fù)樣本题篷,而不是一個(gè)词身。我們通過選擇與場(chǎng)景中不同物體大致匹配的掩膜,使這些負(fù)樣本盡可能的多樣化(第3.2節(jié))番枚。最后法严,我們屏蔽了損失(mask out the loss)损敷,以最大限度地提高成對(duì)位置的相似性,使我們能夠處理一個(gè)掩膜出現(xiàn)在一個(gè)視圖中而不是另一個(gè)視圖中的情況(見圖2)深啤∞致總之,這些簡(jiǎn)單的修改將我們帶到DetCon目標(biāo):

其中二值變量1_{m,m’ } 表示掩膜m,m’ 是否對(duì)應(yīng)于圖像上的同一塊區(qū)域墓塌。

優(yōu)化瘟忱。????在ImageNet上進(jìn)行預(yù)訓(xùn)練時(shí),采用SimCLR和BYOL的優(yōu)化細(xì)節(jié)分別訓(xùn)練DetCon_S和DetCon_B苫幢。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí)访诱,我們會(huì)對(duì)學(xué)習(xí)計(jì)劃做一些小的改變,以減輕過度擬合(見附錄A.3)韩肝。

計(jì)算成本触菜。????自監(jiān)督學(xué)習(xí)的計(jì)算要求很大程度上是由于通過卷積主干的前向傳播和后向傳播。對(duì)于應(yīng)用于224×224分辨率圖像的典型ResNet-50體系結(jié)構(gòu)哀峻,單個(gè)前向過程需要大約4B FLOPS涡相。SimCLR和DetConS中的額外投影頭需要額外的4M FLOPS。由于我們對(duì)投影頭輸入16個(gè)隱藏向量而不是1個(gè)剩蟀,因此我們將forward過程的計(jì)算量增加了67M FLOPS催蝗,不到總數(shù)的2%。加上對(duì)比損失的增加復(fù)雜性育特,DetCon S和DetConB的增加分別為5.3%和11.6%(見附錄A.2)丙号。最后,計(jì)算圖像分割的成本可以忽略不計(jì)缰冤,因?yàn)樗鼈兛梢灾挥?jì)算一次然后一直重復(fù)使用犬缨。因此,我們的方法相對(duì)于基線的復(fù)雜度增加非常小棉浸,這樣怀薛,相對(duì)于基線的訓(xùn)練迭代和計(jì)算成本的增加就非常小。

3.2 無監(jiān)督掩膜生成

為了生成DetCon目標(biāo)所需的掩模迷郑,我們研究了幾個(gè)分割過程枝恋,從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法。

圖3嗡害。DetCon模型使用的示例掩膜鼓择。第一列:來自COCO訓(xùn)練集的隨機(jī)圖片。第二列:僅基于空間接近度的掩膜就漾。全局掩碼(top)由SimCLR、MoCo和BYOL等方法隱式使用念搬。第三列:從Felzenszwalb-Huttenlocher(FH抑堡,[16])算法獲得的圖像可計(jì)算掩模摆出,s=500。第四列:使用多尺度組合分組(MCG)推斷的圖像可計(jì)算掩模[2]首妖。第五列:“oracle”掩膜用于評(píng)估高質(zhì)量分割帶來的潛在改進(jìn)偎漫。

為了產(chǎn)生DetCon目標(biāo)所需的掩碼,我們研究了幾種分割過程有缆,從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法( graph-based algorithms)象踊。

Spatial heuristic??空間啟發(fā)式。最簡(jiǎn)單的分割我們只考慮基于空間接近度的組位置棚壁。具體來說杯矩,我們將圖像劃分為一個(gè)n×n的非重疊方塊區(qū)域網(wǎng)格(圖3,第2列)袖外。如第3.1節(jié)所述史隆,當(dāng)使用單個(gè)全局掩碼(n=1)時(shí),DetConS目標(biāo)恢復(fù)為SimCLR曼验。

Image-computable masks: FH.????圖像可計(jì)算掩模泌射。我們還考慮Felzenszwalb-Huttenlocher算法[16],一個(gè)經(jīng)典的分割過程鬓照,使用基于像素的相似性迭代合并區(qū)域(圖3熔酷,第3列)。我們通過改變尺度s和最小簇大小c這兩個(gè)超參數(shù)豺裆,在COCO上訓(xùn)練時(shí)使用s∈{500拒秘,1000,1500}和c=s留储,在ImageNet上訓(xùn)練時(shí)使用s=1000翼抠,生成了一組不同的掩模。(Efficient graph-based image segmentation获讳,2004)

Image-computable masks: MCG. ?圖像可計(jì)算掩模阴颖。多尺度組合分組[2]是一種更復(fù)雜的算法,它在中級(jí)分類器的指導(dǎo)下丐膝,將超像素分組到許多重疊的對(duì)象建議區(qū)域(圖3量愧,第4列)。對(duì)于每幅圖像帅矗,我們使用16 MCG最高分?jǐn)?shù)的掩模偎肃。注意,我們的公式支持掩幕氪耍可以重疊的事實(shí)累颂。(Multiscale combinatorial grouping,2014)

Human annotated masks. ?人類標(biāo)注。在這項(xiàng)工作中紊馏,我們考慮了使用上述無監(jiān)督mask所帶來的好處料饥。在最后一節(jié)中,我們?cè)儐柛哔|(zhì)量的掩碼(由人工注釋器提供朱监;圖3岸啡,第5列)是否可以改進(jìn)我們的結(jié)果。

3.3 評(píng)估協(xié)議

在一個(gè)無監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)中訓(xùn)練了一個(gè)特征抽取器赫编,通過將其轉(zhuǎn)換到COCO檢測(cè)巡蘸、COCO實(shí)例分割和PASCAL語(yǔ)義分割任務(wù)中來評(píng)價(jià)特征抽取的質(zhì)量。

遷移到COCO擂送。我們使用該表示來初始化Mask RCNN[25]的特征提取器悦荒,Mask RCNN結(jié)構(gòu)包含特征金字塔網(wǎng)絡(luò)[37]和cross-replica batch-norm[46]。我們采用了公開的云TPU 實(shí)現(xiàn)(注釋https://github.com/tensorflow/tpu/tree/master/models/official/detection)团甲,使用時(shí)不做任何修改逾冬。我們端到端地微調(diào)整個(gè)模型,并在VAL2017集上報(bào)告邊界框AP(AP bb)和掩碼AP(AP mk)躺苦。我們使用兩個(gè)標(biāo)準(zhǔn)的訓(xùn)練計(jì)劃:12個(gè)epoch(“1×計(jì)劃”)和24個(gè)epoch(“2×計(jì)劃”)[23]身腻。

遷移到PASCAL。按照[23]匹厘,我們將一個(gè)全卷積的網(wǎng)絡(luò)[38]堆疊在表示之上嘀趟,并對(duì)網(wǎng)絡(luò)進(jìn)行端到端的語(yǔ)義分割訓(xùn)練。我們?cè)趖rainaug2012愈诚,在val2012集上報(bào)告mIoU她按。

4. 實(shí)驗(yàn)

我們的主要自監(jiān)督學(xué)習(xí)實(shí)驗(yàn)采用FH掩碼,因?yàn)槲覀儗⒄故究蝗幔褂肈etCon酌泰,F(xiàn)H比簡(jiǎn)單的空間啟發(fā)式效果要好,性能接近MCG掩碼匕累,但比MCG的計(jì)算要快得多陵刹,鑒于其在scikit image中的可用性[56],其更容易在大規(guī)模數(shù)據(jù)集(如ImageNet)上使用欢嘿。

圖4衰琐。高效的ImageNet預(yù)訓(xùn)練。我們?cè)贗mageNet上用SimCLR炼蹦、DetConS或監(jiān)督學(xué)習(xí)用不同epoch進(jìn)行預(yù)訓(xùn)練羡宙,并通過對(duì)COCO上的12個(gè)epoch或PASCAL上的45個(gè)epoch進(jìn)行微調(diào),評(píng)估它們?cè)贑OCO檢測(cè)(左)掐隐、COCO實(shí)例分割(中)或PASCAL語(yǔ)義分割(右)方面的準(zhǔn)確性狗热。DetCon的性能優(yōu)于SimCLR,計(jì)算量減少了5倍。
表1匿刮。高效的ImageNet預(yù)訓(xùn)練指攒。我們?cè)贗mageNet上用SimCLR、BYOL僻焚、DetConS和DetConB進(jìn)行預(yù)訓(xùn)練,并在COCO上微調(diào)12個(gè)epoch,報(bào)告邊界框AP(APbb)和掩碼AP(APmk)膝擂。顏色突出了模型之間的比較虑啤,說明了在預(yù)訓(xùn)練效率的提高。

4.1 從ImageNet遷移

我們首先研究DetCon目標(biāo)是否提高了ImageNet遷移學(xué)習(xí)的預(yù)訓(xùn)練效率架馋。

訓(xùn)練效率狞山。? ? 我們?cè)贗mageNet上為100、200叉寂、500和1000個(gè)epoch訓(xùn)練SimCLR和DetConS模型萍启,并將它們遷移到COCO和PASCAL。當(dāng)在COCO上進(jìn)行微調(diào)時(shí)屏鳍,DetConS在所有的訓(xùn)練模式中都顯著地優(yōu)于SimCLR(圖4勘纯,左,中)钓瞭。SimCLR所獲得的最大性能是由DetCon S通過5×更少的訓(xùn)練迭代而達(dá)到的(表1驳遵,頂部)。我們還將這些相同的模型遷移到PASCAL上的語(yǔ)義分割山涡,并發(fā)現(xiàn)類似的結(jié)果(DetConS產(chǎn)生2倍的預(yù)訓(xùn)練效率增益堤结;圖4,右)鸭丛。

我們還評(píng)估了在ImageNet上訓(xùn)練的監(jiān)督預(yù)訓(xùn)練ResNet-50的遷移性能(圖4竞穷,紅色)。請(qǐng)注意鳞溉,盡管SimCLR達(dá)到了有監(jiān)督遷移的精度瘾带,但與之前的工作一致[8,23],它這樣做的計(jì)算成本大大增加穿挨,需要10×更多的預(yù)訓(xùn)練迭代才能達(dá)到這種表示質(zhì)量月弛。相比之下,DetCon S的收斂速度要快得多科盛,能夠得到有用的表示:遷移到COCO上200個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練帽衙,遷移到PASCAL上500個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練。

從BYOL到DetConB贞绵。? ? DetCon有多通用厉萝?我們通過比較DetConB與其基線BYOL來測(cè)試這一點(diǎn)。在這里,我們也不加修改地采用底層框架細(xì)節(jié)(關(guān)于架構(gòu)谴垫、優(yōu)化等)章母,這可能使DetCon目標(biāo)處于不利地位。盡管如此翩剪,DetCon_B表現(xiàn)得比BYOL要好乳怎,預(yù)訓(xùn)練效率提高了3倍(表1,底部)前弯。

與現(xiàn)有工作比較蚪缀。????我們現(xiàn)在將自監(jiān)督遷移學(xué)習(xí)與以前的工作進(jìn)行比較,并使用經(jīng)過充分訓(xùn)練的DetCon_S和Detcon_B模型進(jìn)行比較恕出。請(qǐng)注意询枚,其他方法使用了略有不同的MaskRCNN實(shí)現(xiàn)[60],但是它們對(duì)ImageNet監(jiān)督預(yù)訓(xùn)練和SimCLR的結(jié)果與我們自己的結(jié)果相匹配[53浙巫,62]金蜀,因此比較可以看做是公平的。表2a顯示的畴,DetCon在有監(jiān)督和自監(jiān)督遷移學(xué)習(xí)方面優(yōu)于所有其他方法渊抄。

表2。與現(xiàn)有技術(shù)的比較:所有方法在ImageNet上進(jìn)行預(yù)訓(xùn)練苗傅,然后在COCO上進(jìn)行12個(gè)epoch(1x計(jì)劃)或24個(gè)epoch(2x計(jì)劃)的微調(diào)抒线。邊界框AP(APbb)和掩碼AP(APmk)在COCO val2017set上進(jìn)行評(píng)估。

縮放模型容量渣慕。????在自監(jiān)督學(xué)習(xí)方面的前期工作已經(jīng)證明可以很好地?cái)U(kuò)展模型容量[13嘶炭,33,8]逊桦。DetCon帶來的收益會(huì)隨著更大的型號(hào)而消失嗎眨猎?我們?cè)贗mageNet上訓(xùn)練SimCLR、BYOL和DetConB模型强经,使用ResNet-101睡陪、ResNet-152和ResNet-200特征提取器而不是ResNet-50。表2和2c以及圖5顯示匿情,在這種更高容量的情況下兰迫,DetCon繼續(xù)優(yōu)于其他方法。

圖5.將DetCon擴(kuò)展到更大的模型炬称。我們使用監(jiān)督學(xué)習(xí)汁果、SimCLR、BYOL或DetConB在ImageNet上預(yù)訓(xùn)練ResNet-50玲躯、ResNet-101据德、ResNet-152和ResNet-200特征提取器鳄乏,并在COCO上微調(diào)12個(gè)epoch。

我們更進(jìn)一步棘利,訓(xùn)練了一個(gè)具有2×寬度乘數(shù)[33]的ResNet-200橱野,包含2.5億個(gè)參數(shù)。令人驚訝的是善玫,盡管只在ImageNet上進(jìn)行了訓(xùn)練水援,但該模型的遷移性能與最近提出的大規(guī)模自監(jiān)督模型SEER[19]相匹配,SEER具有693M的參數(shù)茅郎,并在1000×更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練(表3)裹唆。雖然比較是不完善的(大范圍的數(shù)據(jù)必然更多噪聲),但它突出了單獨(dú)從自監(jiān)督學(xué)習(xí)目標(biāo)改進(jìn)的潛力只洒。

表3?與大規(guī)模遷移學(xué)習(xí)的比較:所有方法對(duì)主干進(jìn)行預(yù)訓(xùn)練,并使用Mask-RCNN進(jìn)行COCO檢測(cè)和實(shí)例分割劳坑。SEER在Instagram圖片上訓(xùn)練毕谴,而DetConS在ImageNet上訓(xùn)練(130萬張圖片)。SEER和監(jiān)督基線使用最新的RegNet架構(gòu)[48]距芬,而DetConS使用的ResNet-200是2x寬度涝开。盡管如此,DetCon預(yù)訓(xùn)練與大規(guī)模SEER預(yù)訓(xùn)練的性能相匹配

4.2 從COCO遷移

接下來我們將研究DetCon目標(biāo)處理具有多個(gè)對(duì)象的復(fù)雜場(chǎng)景的能力框仔。為此舀武,我們對(duì)COCO數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,并與SimCLR進(jìn)行了比較离斩。

圖6??COCO的高效遷移银舱。我們使用SimCLR或DetConS在COCO上用不同epoch進(jìn)行預(yù)訓(xùn)練,并將其遷移到PASCAL語(yǔ)義分割上微調(diào)45個(gè)epoch跛梗。

預(yù)訓(xùn)練效率寻馏。????我們對(duì)SimCLR和DetConS進(jìn)行了一系列不同epoch的訓(xùn)練(324-5184個(gè)epoch),并將所有模型遷移到PASCAL上的語(yǔ)義分割核偿。我們發(fā)現(xiàn)DetConS在預(yù)訓(xùn)練成本方面優(yōu)于SimCLR(圖6)诚欠。DetConS要達(dá)到SimCLR的最大準(zhǔn)確度只需要1/4的訓(xùn)練時(shí)間。

超過了COCO的監(jiān)督傳輸漾岳。????我們還評(píng)估了監(jiān)督預(yù)訓(xùn)練轰绵,從COCO遷移的性能。具體的是尼荆,我們訓(xùn)練了一個(gè)長(zhǎng)時(shí)間的Mask-RCNN(108個(gè)epoch左腔,一個(gè)“9×” schedule),并使用學(xué)習(xí)的特征提取器(ResNet-50耀找,對(duì)于SimCLR和DetCon預(yù)訓(xùn)練)作為PASCAL分割的表示翔悠。雖然DetCon預(yù)訓(xùn)練超過了監(jiān)督基線的性能业崖,但SimCLR仍然落后(圖6)。

4.3 燒蝕和分析

我們現(xiàn)在剖析DetCon目標(biāo)的組成部分蓄愁,并評(píng)估每一個(gè)目標(biāo)的好處双炕。為此,我們對(duì)COCO進(jìn)行了預(yù)訓(xùn)練撮抓,因?yàn)樗膱D片是包含許多物體的復(fù)雜場(chǎng)景妇斤,并且有相應(yīng)的掩膜,使我們能夠準(zhǔn)確地測(cè)量分割它們的影響丹拯。我們通過凍結(jié)特征來評(píng)估學(xué)習(xí)到的表示站超,其中的特征提取器是固定的,而我們?cè)贑OCO上訓(xùn)練MaskRCNN的其它層乖酬。此受控設(shè)置類似于用于評(píng)估圖像識(shí)別的自監(jiān)督表示質(zhì)量的線性分類協(xié)議[12死相、14、44咬像、64]算撮。

什么樣的掩膜是好的?? ? DetCon目標(biāo)可以使用各種不同的圖像分割县昂,哪種分割可以得到最佳的表現(xiàn)肮柜?我們首先考慮將圖像劃分為2×2、5×5或10×10網(wǎng)格的空間啟發(fā)式算法倒彰,1×1網(wǎng)格相當(dāng)于使用Sim-CLR目標(biāo)审洞。我們發(fā)現(xiàn)下游性能隨著網(wǎng)格的細(xì)化而提高,5×5網(wǎng)格是最佳的(圖7)待讳。

接下來我們考慮圖像可計(jì)算的FH和MCG掩模芒澜,這兩種掩模都優(yōu)于空間啟發(fā)式掩模,MCG掩模導(dǎo)致稍微更好的表示创淡。有趣的是撰糠,表示的質(zhì)量與預(yù)訓(xùn)練掩模和真值掩膜之間的重疊非常相關(guān),每個(gè)真值物體被某個(gè)掩模覆蓋得越好辩昆,DetCon的表現(xiàn)就越好阅酪。

圖7.DetCon中使用的掩膜類型的效果。我們?cè)贑OCO數(shù)據(jù)集上訓(xùn)練DetCon模型,使用無監(jiān)督掩膜(藍(lán)色),或真值掩膜(灰色)悲雳。使用單個(gè)全局掩碼(即“1x1”網(wǎng)格)相當(dāng)于SimCLR(橙色)摸吠。我們通過測(cè)量每個(gè)真值掩模和最近的預(yù)訓(xùn)練掩模之間的IoU,并對(duì)所有真值實(shí)例和圖像進(jìn)行平均來計(jì)算平均最佳重疊(ABO,x軸)。我們使用凍結(jié)特征范式(y軸)評(píng)估每個(gè)模型對(duì)COCO檢測(cè)的準(zhǔn)確性。

對(duì)比檢測(cè)vs對(duì)比識(shí)別? ? DetCon目標(biāo)如何從這些圖像分割中獲益瑞躺?我們通過將每個(gè)組件增量添加到SimCLR框架來評(píng)估它們的影響敷搪。如第3.1節(jié)所述,我們?cè)贒etCon目標(biāo)中使用單個(gè)全局掩碼時(shí)恢復(fù)SimCLR幢哨。作為一種安全性檢查赡勘,我們驗(yàn)證了,將次掩膜(global)復(fù)制多次捞镰,并將復(fù)制的結(jié)果(這些相同的特征)包含到DetCon中闸与,這樣對(duì)表示質(zhì)量沒有影響(表4,a行)岸售。有趣的是践樱,使用FH掩模但僅對(duì)每幅圖像采樣一個(gè)掩模會(huì)略微降低性能,這可能是因?yàn)槟P驮诿看蔚鷷r(shí)僅從圖像的一部分進(jìn)行學(xué)習(xí)(表4凸丸,b行)拷邢。通過對(duì)目標(biāo)區(qū)域進(jìn)行密集采樣,DetConS可以從整個(gè)圖像中進(jìn)行學(xué)習(xí)屎慢,同時(shí)還可以從一組不同的正樣本和負(fù)樣本中獲益解孙,從而提高檢測(cè)和分割精度(表4,最后一行)抛人。

表4 消融:從SimCLR到DetConS。我們對(duì)COCO進(jìn)行了預(yù)訓(xùn)練脐瑰,并對(duì)COCO的特征精度進(jìn)行了評(píng)估妖枚。掩膜:隱藏向量是否被全局地池化,或者只使用單個(gè)的FH掩膜苍在。latents:掩膜的數(shù)量绝页。

如果分割得到解決怎么辦?盡管使用了相當(dāng)接近的分割模板寂恬,但DetCon目標(biāo)函數(shù)導(dǎo)致了快速的遷移學(xué)習(xí)和強(qiáng)大的性能续誉。在第4.3節(jié)中,我們發(fā)現(xiàn)更高質(zhì)量分割(例如使用MCG計(jì)算的分割初肉,或從人類標(biāo)注獲得的分割)以提高表示質(zhì)量酷鸦。如果分割更準(zhǔn)確,我們?nèi)绾翁岣邔W(xué)習(xí)目標(biāo)牙咏?我們通過重新考慮對(duì)比目標(biāo)的設(shè)計(jì)選擇來評(píng)估這個(gè)問題臼隔,給出COCO數(shù)據(jù)集的真值掩模,而不是近似的FH掩模妄壶。

縮放圖像分辨率摔握。我們假設(shè),更高的圖像分辨率可能會(huì)使網(wǎng)絡(luò)從這些信息量更大的分割中受益更多丁寄。為了保留細(xì)粒度信息氨淌,我們?cè)诿總€(gè)掩膜內(nèi)采樣局部特征泊愧,并使用DetCon目標(biāo)對(duì)其進(jìn)行優(yōu)化。我們?cè)?84×384或512×512分辨率的圖像上預(yù)訓(xùn)練配備了FH或真值(GT)掩模的SimCLR和DetConS模型盛正。雖然帶FH掩模的DetCon只獲得了適度的益處删咱,而帶高分辨率圖像的SimCLR的性能惡化,帶GT掩模的DetCon得到了顯著的改善(圖8)蛮艰。請(qǐng)注意腋腮,這完全是由于提高了表示質(zhì)量;用于下游評(píng)估的圖像分辨率主要保持在1024×1024(對(duì)于所有模型)壤蚜。

圖8即寡。更好的分割得益于更高的分辨率。我們?cè)贑OCO上使用SimCLR和DetConS(帶FH或GT掩膜)以不同的分辨率預(yù)訓(xùn)練主干網(wǎng)袜刷。我們報(bào)告了固定分辨率為1024x1024的功能性能聪富。

重新審視對(duì)比框架。最后著蟹,我們提出了一個(gè)問題墩蔓,即當(dāng)前的對(duì)比學(xué)習(xí)范式(利用不同的隨機(jī)增強(qiáng)產(chǎn)生的大量的負(fù)樣本和預(yù)測(cè))在DetCon目標(biāo)并具有高質(zhì)量的分割掩膜的背景下,仍然是最優(yōu)的萧豆。

表5 簡(jiǎn)化對(duì)比框架奸披。我們?cè)贑OCO上使用近似FH掩模或更高質(zhì)量的真值(GT)掩模訓(xùn)練DetConS模型涮雷,并在凍結(jié)特征設(shè)置下對(duì)其進(jìn)行評(píng)估阵面。“global neg”:從整個(gè)批次中采集陰性樣本洪鸭,而不是僅在一個(gè)worker(默認(rèn)是128個(gè)worker)內(nèi)采集样刷。“兩個(gè)視圖”:對(duì)比學(xué)習(xí)是否使用不同的視圖览爵,而不是僅僅一個(gè)視圖置鼻。

是否需要大量的負(fù)樣本?????不用高質(zhì)量的掩膜蜓竹。將負(fù)樣本數(shù)量除以128(實(shí)現(xiàn)是箕母,僅僅用一個(gè)worker來收集負(fù)樣本),DetCon(帶FH掩膜)的表現(xiàn)下降(表5俱济,row a)司蔬,與當(dāng)前的對(duì)比學(xué)習(xí)框架一致[8,23]姨蝴。相比之下俊啼,使用GT掩模的DetCon S盡管有此限制,但仍有改進(jìn)左医。

在不同增強(qiáng)視圖中采樣正樣本是否必要授帕?不用高質(zhì)量的掩膜同木。我們運(yùn)行DetCon模型,同時(shí)為每個(gè)圖像采樣單個(gè)增強(qiáng)跛十,并在該視圖中最大化基于掩碼的特征的相似性彤路。在這里,DetCon目標(biāo)在使用近似FH遮罩時(shí)會(huì)遇到這種障礙芥映,但在使用高質(zhì)量分段時(shí)不會(huì)遇到這種障礙(表5洲尊,b行)。

這是怎么回事奈偏?????一種解釋是坞嘀,其他圖片給我們提供了干凈的負(fù)樣本,因?yàn)镃OCO中的所有圖像都描繪了不同的場(chǎng)景惊来,但這并不意味著這些圖像的負(fù)樣本的質(zhì)量高于同一圖像中的負(fù)樣本的質(zhì)量丽涩。事實(shí)上,看起來是裁蚁,來自同一個(gè)圖像的負(fù)樣本提供了更好的信號(hào)矢渊,前提是我們能確保它們是干凈的,也就是說枉证,我們沒有把同一個(gè)物體的特征去拉開(pushing apart)矮男。如果同一圖像的正樣本也是至少和來自不同增強(qiáng)視圖的正樣本一樣好,前提是室谚,它們是干凈的毡鉴,也就是說,我們沒有把來自不同物體的特征拉近(pulling together)舞萄。

討論

我們提出了DetCon,這是對(duì)現(xiàn)有自監(jiān)督學(xué)習(xí)算法(如Sim-CLR和BYOL)的一種簡(jiǎn)單而強(qiáng)大的改進(jìn)管削。DetCon利用低級(jí)線索將圖像組織成物體和背景區(qū)域等實(shí)體倒脓,將大數(shù)據(jù)集的預(yù)訓(xùn)練效率提高了5倍,同時(shí)也提高了下游任務(wù)學(xué)習(xí)表示的準(zhǔn)確性含思。在ImageNet上預(yù)訓(xùn)練的自監(jiān)督方法中崎弃,我們的最佳模型達(dá)到了最先進(jìn)的性能,與最近在更大數(shù)據(jù)集上訓(xùn)練更大模型的最先進(jìn)方法的性能相似[19]含潘。

我們表明饲做,DetCon的能力與使用的掩膜與物體邊界對(duì)齊的程度密切相關(guān)。這似乎是直觀的——DetCon目標(biāo)只能利用從每個(gè)圖像區(qū)域(如果他們包含不同的內(nèi)容)獨(dú)立的學(xué)習(xí)信號(hào)遏弱。同樣盆均,只有當(dāng)負(fù)樣本代表不同的物體時(shí),它們才是真正不同的漱逸。然而泪姨,這在聯(lián)合學(xué)習(xí)表征和發(fā)現(xiàn)物體方面創(chuàng)造了令人興奮的研究前景游沿。考慮到DetCon表示的改進(jìn)性能肮砾,例如分割诀黍,一個(gè)自然的問題是,它們是否可以用于生成更好的無監(jiān)督分割(比預(yù)訓(xùn)練階段更好)仗处。如果是這樣的話眯勾,這些可能會(huì)被用來學(xué)習(xí)更好的表示,導(dǎo)致一個(gè)良性的熱潮婆誓,無監(jiān)督的場(chǎng)景理解吃环。

感謝 作者感謝Carl Doersch、Raia Hadsell和Evan Shelhamer對(duì)手稿的深入討論和反饋旷档。

A.附錄

A.1模叙。實(shí)現(xiàn):數(shù)據(jù)擴(kuò)充

自監(jiān)督訓(xùn)練前。每人圖像被隨機(jī)放大兩次鞋屈,結(jié)果是兩次圖像:x范咨;x0 . 算符構(gòu)造為以下操作的組合,每個(gè)操作以給定的概率應(yīng)用:

隨機(jī)裁剪:

選擇圖像的隨機(jī)面片厂庇,其面積在[0:08 a渠啊;a]中均勻采樣,其中Ais是原始圖像的面積权旷,其縱橫比在[3=4替蛉;4=3]中對(duì)數(shù)采樣。然后使用雙三次插值拄氯;

水平翻轉(zhuǎn)躲查;

3將面片調(diào)整為224×224像素。顏色抖動(dòng):亮度译柏、對(duì)比度镣煮、飽和度和色調(diào)通過均勻分布的偏移量進(jìn)行偏移;

顏色下降:RGB圖像由其灰度值替換鄙麦;

5典唇。高斯模糊,23×23平方核胯府,標(biāo)準(zhǔn)差從[0:1介衔;2:0];

6均勻采樣骂因。日曬:一個(gè)點(diǎn)式顏色轉(zhuǎn)換x 7炎咖!x A 1x<0:5+(1 x)A 1x→0:5,像素sin[0;1]塘装。增廣圖像x急迂;x 0分別來自分布t和t 0的增廣采樣。這些分布適用于上述具有不同概率和不同震級(jí)的原語(yǔ)蹦肴。下表為SimCLR[8]和BYOL框架[20]指定了這些參數(shù)僚碎,我們對(duì)DetCon S和DetConB采用這些參數(shù)而不進(jìn)行修改。

傳輸?shù)紺OCO阴幌。

微調(diào)勺阐,圖像隨機(jī)翻轉(zhuǎn),并調(diào)整到最長(zhǎng)一側(cè)1024像素的分辨率矛双,其中UI在[0:8渊抽;1:25]中均勻采樣,然后進(jìn)行裁剪或者填充到1024×1024的圖像议忽。寬高比保持與原始圖像相同懒闷。在測(cè)試期間,圖像在最長(zhǎng)的一側(cè)被調(diào)整到1024像素栈幸,然后填充到1024×1024像素愤估。

轉(zhuǎn)到帕斯卡。在訓(xùn)練過程中速址,圖像會(huì)以[0:5玩焰;2:0]中的因子進(jìn)行翻轉(zhuǎn)和縮放。用513×513分辨率的圖像進(jìn)行訓(xùn)練和測(cè)試芍锚。實(shí)現(xiàn):

體系結(jié)構(gòu)

我們的默認(rèn)特性提取器是ResNet-50[27]昔园。在第4.1節(jié)中,我們還研究了更深層次的體系結(jié)構(gòu)(ResNet-101并炮、-152和-200)和更寬的模型(ResNet-200×2)默刚,該模型通過將所有通道尺寸縮放2倍而獲得。如第3.1節(jié)所述逃魄,該編碼器產(chǎn)生一個(gè)隱藏向量的網(wǎng)格荤西,我們將其聚集在掩碼中,以獲得一組表示每個(gè)掩碼的向量hmr嗅钻。然后皂冰,在輸入對(duì)比損失之前店展,通過投影頭g(以及可選的預(yù)測(cè)頭q)對(duì)其進(jìn)行變換养篓。在SimCLR之后,投影頭是一個(gè)兩層MLP赂蕴,其隱藏和輸出尺寸是2048和128柳弄。該網(wǎng)絡(luò)使用兩個(gè)視圖的學(xué)習(xí)參數(shù)θ。DetConB公司。根據(jù)BYOL碧注,投影頭是一個(gè)兩層MLP嚣伐,其隱藏和輸出尺寸分別為4096和256。該網(wǎng)絡(luò)使用所學(xué)習(xí)的參數(shù)θ來處理一個(gè)視圖萍丐,并使用這些參數(shù)ξ的指數(shù)移動(dòng)平均值來處理第二個(gè)視圖轩端。具體地說,ξ是用ξ→Aξ+(1→)Aθ來更新的逝变,其中衰減率→在訓(xùn)練過程中使用余弦表從→0到1進(jìn)行退火[20]基茵。→當(dāng)訓(xùn)練1000個(gè)歷元時(shí)壳影,0設(shè)置為0.996拱层,當(dāng)訓(xùn)練300個(gè)歷元時(shí),0設(shè)置為0.99宴咧。第一視圖的投影進(jìn)一步通過預(yù)測(cè)頭進(jìn)行變換根灯,預(yù)測(cè)頭的結(jié)構(gòu)與投影頭的結(jié)構(gòu)相同。

1計(jì)算成本掺栅。通過ResNet-50編碼器的正向傳遞大約需要4B次觸發(fā)器烙肺。忽略偏差項(xiàng)和逐點(diǎn)非線性的代價(jià),DetCon S中的預(yù)測(cè)頭大約需要440萬次浮點(diǎn)運(yùn)算(即2048×2048+2048×128)柿冲。由于這是計(jì)算16次而不是一次茬高,因此與SimCLR相比,它會(huì)導(dǎo)致67M觸發(fā)器的開銷假抄。對(duì)于detconb怎栽,與BYOL相比,評(píng)估投影和預(yù)測(cè)頭的綜合成本導(dǎo)致額外的173M失敗宿饱。最后熏瞄,評(píng)估對(duì)比損失的代價(jià)是DetCon S為134M次,DetConB為268M次谬以。DetConS總共需要2.01億個(gè)額外的觸發(fā)器和4.41億個(gè)DetConB强饮,分別占主干網(wǎng)評(píng)估成本的5.3%和11.6%。與達(dá)到給定傳輸性能所需的訓(xùn)練迭代增益(例如为黎,DetCon S的500%增益)相比邮丰,該開銷足夠小

對(duì)于我們來說,沒有進(jìn)一步區(qū)分計(jì)算和訓(xùn)練時(shí)間的收益铭乾。實(shí)施:

優(yōu)化

自監(jiān)督訓(xùn)練前剪廉。我們使用LARS op timizer[63]進(jìn)行培訓(xùn),批量大小為4096炕檩,分為128個(gè)云TPU v3工作人員斗蒋。在ImageNet上訓(xùn)練時(shí),我們?cè)俅螌?duì)DetConS和DetConB采用SimCLR和BYOL的優(yōu)化細(xì)節(jié),將學(xué)習(xí)速率與批量大小線性縮放泉沾,并根據(jù)余弦調(diào)度進(jìn)行衰減捞蚂。對(duì)于DetCon S,基本學(xué)習(xí)率為0.3跷究,權(quán)重衰減為106姓迅。DetConBalso在訓(xùn)練300個(gè)時(shí)期時(shí)使用這些值;在訓(xùn)練1000個(gè)時(shí)期時(shí)俊马,它們是0.2和1:5 A 10 6队贱。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí),我們將cosine學(xué)習(xí)率表替換為一個(gè)分段常數(shù)潭袱,這被發(fā)現(xiàn)可以緩解過度擬合[24]柱嫌,在第96和98個(gè)百分位,學(xué)習(xí)率降低了10倍屯换。為了公平比較编丘,我們?cè)趯im-CLR應(yīng)用于COCO數(shù)據(jù)集時(shí)使用了相同的調(diào)度,我們還發(fā)現(xiàn)它的性能比更激進(jìn)的余弦調(diào)度更好彤悔。

遷移到COCO嘉抓。

我們使用隨機(jī)梯度下降進(jìn)行微調(diào),在前500次迭代中線性增加學(xué)習(xí)速率晕窑,之后兩次下降10倍總訓(xùn)練時(shí)間的2 3和8 9抑片,在[60]之后。我們對(duì)ResNet-50模型使用0.3的基本學(xué)習(xí)率杨赤,對(duì)較大的模型使用0.2的基本學(xué)習(xí)率敞斋,動(dòng)量為0.9,權(quán)重衰減為4 a 10 5疾牲,批大小為64張圖像植捎,分成16個(gè)工作人員。

遷移到PASCAL阳柔。

我們使用隨機(jī)梯度下降對(duì)45個(gè)時(shí)期進(jìn)行微調(diào)焰枢,批大小為16,權(quán)重衰減為10 4舌剂。學(xué)習(xí)率為0.02济锄,在第70百分位和第90百分位下降了10倍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末霍转,一起剝皮案震驚了整個(gè)濱河市荐绝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谴忧,老刑警劉巖很泊,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異沾谓,居然都是意外死亡委造,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門均驶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來昏兆,“玉大人,你說我怎么就攤上這事妇穴∨朗” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵腾它,是天一觀的道長(zhǎng)跑筝。 經(jīng)常有香客問我,道長(zhǎng)瞒滴,這世上最難降的妖魔是什么曲梗? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮妓忍,結(jié)果婚禮上虏两,老公的妹妹穿的比我還像新娘。我一直安慰自己世剖,他們只是感情好定罢,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著旁瘫,像睡著了一般祖凫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上酬凳,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天蝙场,我揣著相機(jī)與錄音,去河邊找鬼粱年。 笑死售滤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的台诗。 我是一名探鬼主播完箩,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拉队!你這毒婦竟也來了弊知?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤粱快,失蹤者是張志新(化名)和其女友劉穎秩彤,沒想到半個(gè)月后叔扼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡漫雷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年瓜富,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片降盹。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡与柑,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蓄坏,到底是詐尸還是另有隱情价捧,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布涡戳,位于F島的核電站结蟋,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏渔彰。R本人自食惡果不足惜椎眯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望胳岂。 院中可真熱鬧编整,春花似錦、人聲如沸乳丰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)产园。三九已至汞斧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間什燕,已是汗流浹背粘勒。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屎即,地道東北人庙睡。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像技俐,于是被迫代替她去往敵國(guó)和親乘陪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容