DetCon? ??https://arxiv.org/abs/2103.10957
Efficient Visual Pretraining with Contrastive Detection
自監(jiān)督的預(yù)訓(xùn)練已經(jīng)被證明能為遷移學(xué)習(xí)提供有力的表征。然而幽纷,這些性能的提高需要大量的計(jì)算成本式塌,而最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量。我們通過引入一個(gè)新的自監(jiān)督目標(biāo)友浸,即對(duì)比檢測(cè)峰尝,來解決這個(gè)計(jì)算瓶頸,對(duì)比檢測(cè)的任務(wù)是辨別不同增強(qiáng)視圖的物體級(jí)的特征收恢。這一目標(biāo)為每幅圖像提取了豐富的學(xué)習(xí)信號(hào)武学,從而實(shí)現(xiàn)了從ImageNet到COCO的最先進(jìn)的遷移性能,同時(shí)所需的預(yù)訓(xùn)練成本減少了5倍伦意。特別是火窒,我們最強(qiáng)的ImageNet預(yù)訓(xùn)練模型的性能與SEER相當(dāng),SEER是迄今為止最大的自監(jiān)督系統(tǒng)之一驮肉,它使用了1000倍以上的預(yù)訓(xùn)練數(shù)據(jù)熏矿。最后,我們的目標(biāo)無縫地處理更復(fù)雜的圖像(如COCO中的圖像)的預(yù)訓(xùn)練,彌補(bǔ)了與監(jiān)督遷移學(xué)習(xí)(從COCO到PASCAL)的差距票编。
1. 引言
自從AlexNet在ImageNet上取得突破性進(jìn)展以來,從大型標(biāo)記數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)已成為計(jì)算機(jī)視覺領(lǐng)域的主流范式[34昔榴,49]辛藻。盡管自監(jiān)督學(xué)習(xí)的最新進(jìn)展緩解了對(duì)標(biāo)簽的依賴性,但這是以巨大的計(jì)算成本完成的互订,最先進(jìn)的方法需要比有監(jiān)督的預(yù)訓(xùn)練多一個(gè)數(shù)量級(jí)的計(jì)算量[7吱肌,9,20]屁奏。然而岩榆,自監(jiān)督學(xué)習(xí)的前景是利用大量未標(biāo)記的數(shù)據(jù)集,使其計(jì)算成本成為一個(gè)關(guān)鍵的瓶頸坟瓢。
在這項(xiàng)工作中,我們旨在減輕自監(jiān)督預(yù)訓(xùn)練的計(jì)算負(fù)擔(dān)犹撒。為此折联,我們引入了對(duì)比檢測(cè),這是一個(gè)新的目標(biāo)识颊,最大化不同視圖同一物體的物體級(jí)特征之間的相似性诚镰。
這一目標(biāo)的好處有三個(gè)。首先祥款,它從圖像中的所有物體中提取單獨(dú)的學(xué)習(xí)信號(hào)清笨,無額外成本地豐富了每個(gè)訓(xùn)練樣本提供的信息,因?yàn)槲矬w級(jí)的特征可以簡(jiǎn)單地從中間特征arrays中獲取刃跛。第二抠艾,它提供了更大規(guī)模、更多樣化的負(fù)樣本集桨昙,這也加速了學(xué)習(xí)检号。最后,這個(gè)目標(biāo)非常適合于從包含很多物體的復(fù)雜場(chǎng)景蛙酪,這種場(chǎng)景已被證明是對(duì)自監(jiān)督方法來說具有挑戰(zhàn)性的齐苛。
我們通過使用無監(jiān)督分割算法來識(shí)別圖像中近似的基于物體的區(qū)域。Perceptual grouping[32,40]——也就是數(shù)據(jù)中的低級(jí)或中級(jí)的特征桂塞,如顏色凹蜂、方向和紋理,可以將場(chǎng)景近似解析為連接的表面或物體部分的想法帆锋,長(zhǎng)期以來一直被認(rèn)為是視覺的有力先驗(yàn)[21朵纷,39,54]蝌借。我們對(duì)局部特征向量進(jìn)行相應(yīng)地分類來利用這些先驗(yàn)知識(shí)卿啡,并將我們的對(duì)比目標(biāo)分別應(yīng)用于每個(gè)物體級(jí)特征吟吝。我們調(diào)查了幾種無監(jiān)督、圖像可計(jì)算的掩模的使用情況[16颈娜,2]剑逃,發(fā)現(xiàn)盡管它們不準(zhǔn)確,但我們的目標(biāo)仍能很好地工作官辽。
我們通過將目標(biāo)應(yīng)用于ImageNet數(shù)據(jù)集并測(cè)量其在COCO檢測(cè)和實(shí)例分割等挑戰(zhàn)性任務(wù)上的遷移性能蛹磺,測(cè)試了目標(biāo)快速學(xué)習(xí)可遷移表示的能力。與最近的自監(jiān)督目標(biāo)(如SimCLR和BYOL)[8,20]相比同仆,我們的表示更精確萤捆,并且可以用更少的訓(xùn)練時(shí)間獲得。我們還發(fā)現(xiàn)這個(gè)學(xué)習(xí)目標(biāo)可以更好地處理更復(fù)雜場(chǎng)景的圖像俗批,彌合了與有監(jiān)督遷移學(xué)習(xí)(從COCO數(shù)據(jù)集遷移)的差距俗或。總之岁忘,我們做出了以下貢獻(xiàn):
(1)我們提出了一個(gè)新的對(duì)比目標(biāo)辛慰,該目標(biāo)通過一個(gè)簡(jiǎn)單的、無監(jiān)督的啟發(fā)式算法來提供物體區(qū)域干像,使得對(duì)于場(chǎng)景中所有物體帅腌,不同增強(qiáng)視圖下同一物體的特征的相似性最大化。我們剖析了這一新目標(biāo)麻汰,并評(píng)估了每一個(gè)要素所帶來的改進(jìn)速客。
(2)我們發(fā)現(xiàn)這個(gè)目標(biāo)可以減輕自監(jiān)督遷移學(xué)習(xí)的計(jì)算負(fù)擔(dān),將ImageNet的有監(jiān)督遷移學(xué)習(xí)所需的計(jì)算量減少5倍五鲫。更長(zhǎng)的訓(xùn)練時(shí)間會(huì)導(dǎo)致最先進(jìn)的COCO檢測(cè)和實(shí)例分割溺职,我們的最佳模型與最新的最先進(jìn)的自監(jiān)督系統(tǒng)SEER[19]相當(dāng),SEER是在差不多1000×更多的圖像上訓(xùn)練的臣镣。
(3)當(dāng)從復(fù)雜場(chǎng)景數(shù)據(jù)集(如COCO)遷移時(shí)辅愿,我們的方法彌補(bǔ)了與有監(jiān)督遷移學(xué)習(xí)(其依賴于人工標(biāo)注的分割的標(biāo)簽)的差距。
(4)最后忆某,我們?cè)u(píng)估了在高質(zhì)量圖像分割的前提下点待,現(xiàn)有的對(duì)比學(xué)習(xí)范式在多大程度上可以簡(jiǎn)化,提出了問題并為未來的工作開辟了道路弃舒。
2. 相關(guān)工作
將包含在一個(gè)任務(wù)和數(shù)據(jù)集中的知識(shí)遷移到解決其他下游任務(wù)(即遷移學(xué)習(xí))已被證明在一系列計(jì)算機(jī)視覺問題中非常成功[18癞埠,38]状原。早期的工作集中在改善預(yù)訓(xùn)練的結(jié)構(gòu)[26,50]和數(shù)據(jù)[51],而最近的自監(jiān)督學(xué)習(xí)工作則集中在預(yù)訓(xùn)練目標(biāo)和任務(wù)的選擇上苗踪。早期的自監(jiān)督預(yù)訓(xùn)練通常涉及圖像恢復(fù)颠区,包括去噪[58]、修復(fù)[45]通铲、著色[64,35]毕莱、拍攝者運(yùn)動(dòng)預(yù)測(cè)(egomotion prediction)[1]等[14,42,65]。更高層次的借口任務(wù)也被研究過颅夺,例如預(yù)測(cè)上下文[12]朋截、方向[17]、空間布局吧黄、時(shí)間順序[41]和聚類分配[5]部服。
對(duì)比目標(biāo),它最大化一個(gè)表示在不同視圖間的相似性拗慨,同時(shí)最小化了其與分散注意力的負(fù)樣本(distracting negative samples)的相似性廓八,最近獲得了相當(dāng)大的吸引力[22]。視圖被定義為局部和全局的裁剪[29赵抢、4剧蹂、55、28]或不同的輸入通道[52]烦却。實(shí)例辨別方法通過數(shù)據(jù)增強(qiáng)生成圖像的全局隨機(jī)視圖国夜,并最大化它們之間的相似性(相對(duì)于marginally sampled negatives)[8,13短绸,15,23筹裕,61]醋闭,盡管最近,對(duì)負(fù)樣本是否必需提出了質(zhì)疑[11朝卒,20]证逻。盡管實(shí)例識(shí)別方法的優(yōu)點(diǎn)主要局限于從ImageNet等簡(jiǎn)單數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,但基于聚類的預(yù)訓(xùn)練已證明在利用大量未處理圖像進(jìn)行遷移學(xué)習(xí)方面非常成功[3抗斤,6囚企,7,19瑞眼,31]龙宏。
雖然大多數(shù)工作都集中在學(xué)習(xí)整個(gè)圖像表示,但人們對(duì)學(xué)習(xí)與下游任務(wù)(如檢測(cè)和分割)更相關(guān)的局部表示越來越感興趣伤疙。這類工作的例子包括增加額外的輔助損失[53]银酗、結(jié)構(gòu)組件[47]或兩者兼而有之[62辆影,Propagate Urself]。雖然perceptual?grouping長(zhǎng)期以來一直被用于表征學(xué)習(xí)黍特,通常依賴于視頻中的連貫運(yùn)動(dòng)[36蛙讥,44,59]灭衷,但直到最近才與對(duì)比學(xué)習(xí)相結(jié)合[30次慢,57,66]翔曲。與我們的工作最相關(guān)的是[57,66](57就是MaskContrast)迫像,它們也利用圖像分割進(jìn)行自監(jiān)督學(xué)習(xí),盡管兩者與我們的不同之處在于它們學(xué)習(xí)專門用于語(yǔ)義分割的主干部默,并使用不同的損失函數(shù)侵蒙。雖然這些工作在無監(jiān)督的情況下取得了很高的分割精度,但對(duì)于COCO檢測(cè)和實(shí)例分割等遷移學(xué)習(xí)任務(wù)傅蹂,都沒有報(bào)告在預(yù)訓(xùn)練的效率上有所提高纷闺,我們接下來將對(duì)其進(jìn)行研究。
3 方法
我們引入了一個(gè)新的對(duì)比目標(biāo)份蝴,它最大限度地提高了表示同一物體的局部特征視圖之間的相似性(圖2)犁功。為了分離這些變化帶來的好處,我們?cè)诳赡艿那闆r下有意選擇重新使用現(xiàn)有對(duì)比學(xué)習(xí)框架的元素婚夫。為了測(cè)試我們的方法的通用性浸卦,我們分別基于最近的兩個(gè)自監(jiān)督基線SimCLR[8]和BYOL[20],導(dǎo)出了兩個(gè)變體DetCon_S和DetCon_B案糙。我們采用了這些方法的數(shù)據(jù)擴(kuò)充過程和網(wǎng)絡(luò)結(jié)構(gòu)限嫌,并將我們提出的對(duì)比檢測(cè)方法應(yīng)用于每種方法。
3.1 對(duì)比檢測(cè)框架
數(shù)據(jù)增強(qiáng)拿诸。????每個(gè)圖像被隨機(jī)增強(qiáng)兩次扒袖,得到兩個(gè)圖像:。DetCon_S和DetCon_B分別選擇SimCLR和BYOL的增強(qiáng)管道亩码,大致包括隨機(jī)裁剪季率、翻轉(zhuǎn)、模糊和逐點(diǎn)顏色變換蟀伸。更多詳情請(qǐng)參閱附錄A.1蚀同。在所有情況下缅刽,圖像的大小都調(diào)整為224×224像素分辨率。此外蠢络,我們?yōu)槊總€(gè)圖像計(jì)算一組掩膜衰猛,將圖像分割為不同的部分。如第3.2節(jié)所述刹孔,這些掩姆仁。可以使用計(jì)算高效地、只計(jì)算一次然后使用現(xiàn)成結(jié)果的髓霞、無監(jiān)督的分割算法來計(jì)算卦睹。如果可用,也可以使用帶人工標(biāo)注的掩膜方库。在任何情況下结序,我們使用與underlying(底下的)RGB圖像相同的裁剪和調(diào)整大小來變換每個(gè)掩膜(表示為二值圖像),得到兩組掩膜
纵潦,其與增強(qiáng)的圖像
是對(duì)齊的(參見圖2徐鹤,augmented views)。
結(jié)構(gòu)邀层。????我們使用卷積特征提取器對(duì)每個(gè)圖像編碼為隱藏向量的空間映射:
返敬,其中
。在最終的平均池層之前寥院,我們使用標(biāo)準(zhǔn)ResNet-50編碼器[26]的輸出劲赠,這樣隱藏層就形成7×7、2048通道的向量
秸谢。對(duì)于每個(gè)與圖像相關(guān)的掩模
凛澎,我們計(jì)算一個(gè)掩模池化隱藏向量:
其通過平均池化將二值掩膜在空間上下采樣為7×7的大小。然后估蹄,我們用兩層MLP變換每個(gè)向量预厌,得到非線性映射。注意元媚,在這一步中,我們?nèi)绻褂玫氖菃蝹€(gè)的全局的掩膜苗沧,就是SimCLR和BYOL的結(jié)構(gòu)刊棕。
對(duì)于DetCon_S,我們使用相同的編碼器和投影網(wǎng)絡(luò)
處理兩個(gè)視圖待逞,其中
是學(xué)習(xí)的參數(shù)甥角。對(duì)于DetCon_B,一個(gè)視圖用
和
處理识樱,另一個(gè)用
和
處理嗤无,其中
是
的指數(shù)移動(dòng)平均震束。第一個(gè)視圖被預(yù)測(cè)網(wǎng)絡(luò)
進(jìn)一步地變換。在這里当犯,我們?cè)俅卧谕队昂皖A(yù)測(cè)網(wǎng)絡(luò)的定義中分別重用了DetCon_S和DetCon_B的SimCLR和BYOL的細(xì)節(jié)(見附錄A.2)垢村。總之嚎卫,我們將每個(gè)視圖和掩碼表示為潛在變量(latents)
和
嘉栓,其中,對(duì)于DetCon_S拓诸,有
對(duì)于DetCon_B侵佃,有
我們用一個(gè)溫度參數(shù)重新縮放所有的latents,使得它們的范數(shù)等于
奠支,
馋辈。注意,對(duì)于下游任務(wù)倍谜,我們只保留特征提取器
迈螟,而丟棄網(wǎng)絡(luò)的所有其他部分(預(yù)測(cè)和投影頭,以及任何指數(shù)移動(dòng)平均)枢劝。
目的:對(duì)比檢測(cè)井联。令為視圖
中的掩膜
的latent表示,對(duì)比損失為:
其定義為一個(gè)預(yù)測(cè)任務(wù):在觀察到投影后您旁,學(xué)習(xí)在負(fù)樣本
存在的情況下認(rèn)出
烙常。我們的負(fù)樣本來自同一圖像的不同掩膜,以及同一批量中的不同圖像鹤盒。請(qǐng)注意蚕脏,我們對(duì)這些掩膜不做任何假設(shè),允許負(fù)掩膜罩與正掩膜重疊侦锯。
這種損失的自然延伸是聯(lián)合對(duì)原始圖像中對(duì)應(yīng)于相同區(qū)域的成對(duì)遮罩進(jìn)行采樣驼鞭,并最大化它們的特征表示的相似性:
我們對(duì)這個(gè)目標(biāo)做了一些實(shí)際的改變。首先尺碰,為了便于批量計(jì)算挣棕,我們?cè)诿看蔚鷷r(shí)從數(shù)量可變的掩膜中隨機(jī)抽取一組16個(gè)(可能是冗余的)。然后亲桥,我們密集地評(píng)估所有掩模對(duì)和所有圖像之間的相似性洛心,這樣,每幅圖像為公式(1)中的集合
提供16個(gè)負(fù)樣本题篷,而不是一個(gè)词身。我們通過選擇與場(chǎng)景中不同物體大致匹配的掩膜,使這些負(fù)樣本盡可能的多樣化(第3.2節(jié))番枚。最后法严,我們屏蔽了損失(mask out the loss)损敷,以最大限度地提高成對(duì)位置的相似性,使我們能夠處理一個(gè)掩膜出現(xiàn)在一個(gè)視圖中而不是另一個(gè)視圖中的情況(見圖2)深啤∞致總之,這些簡(jiǎn)單的修改將我們帶到DetCon目標(biāo):
其中二值變量表示掩膜
是否對(duì)應(yīng)于圖像上的同一塊區(qū)域墓塌。
優(yōu)化瘟忱。????在ImageNet上進(jìn)行預(yù)訓(xùn)練時(shí),采用SimCLR和BYOL的優(yōu)化細(xì)節(jié)分別訓(xùn)練DetCon_S和DetCon_B苫幢。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí)访诱,我們會(huì)對(duì)學(xué)習(xí)計(jì)劃做一些小的改變,以減輕過度擬合(見附錄A.3)韩肝。
計(jì)算成本触菜。????自監(jiān)督學(xué)習(xí)的計(jì)算要求很大程度上是由于通過卷積主干的前向傳播和后向傳播。對(duì)于應(yīng)用于224×224分辨率圖像的典型ResNet-50體系結(jié)構(gòu)哀峻,單個(gè)前向過程需要大約4B FLOPS涡相。SimCLR和DetConS中的額外投影頭需要額外的4M FLOPS。由于我們對(duì)投影頭輸入16個(gè)隱藏向量而不是1個(gè)剩蟀,因此我們將forward過程的計(jì)算量增加了67M FLOPS催蝗,不到總數(shù)的2%。加上對(duì)比損失的增加復(fù)雜性育特,DetCon S和DetConB的增加分別為5.3%和11.6%(見附錄A.2)丙号。最后,計(jì)算圖像分割的成本可以忽略不計(jì)缰冤,因?yàn)樗鼈兛梢灾挥?jì)算一次然后一直重復(fù)使用犬缨。因此,我們的方法相對(duì)于基線的復(fù)雜度增加非常小棉浸,這樣怀薛,相對(duì)于基線的訓(xùn)練迭代和計(jì)算成本的增加就非常小。
3.2 無監(jiān)督掩膜生成
為了生成DetCon目標(biāo)所需的掩模迷郑,我們研究了幾個(gè)分割過程枝恋,從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法。
為了產(chǎn)生DetCon目標(biāo)所需的掩碼,我們研究了幾種分割過程有缆,從簡(jiǎn)單的空間啟發(fā)式到基于圖的算法( graph-based algorithms)象踊。
Spatial heuristic??空間啟發(fā)式。最簡(jiǎn)單的分割我們只考慮基于空間接近度的組位置棚壁。具體來說杯矩,我們將圖像劃分為一個(gè)n×n的非重疊方塊區(qū)域網(wǎng)格(圖3,第2列)袖外。如第3.1節(jié)所述史隆,當(dāng)使用單個(gè)全局掩碼(n=1)時(shí),DetConS目標(biāo)恢復(fù)為SimCLR曼验。
Image-computable masks: FH.????圖像可計(jì)算掩模泌射。我們還考慮Felzenszwalb-Huttenlocher算法[16],一個(gè)經(jīng)典的分割過程鬓照,使用基于像素的相似性迭代合并區(qū)域(圖3熔酷,第3列)。我們通過改變尺度s和最小簇大小c這兩個(gè)超參數(shù)豺裆,在COCO上訓(xùn)練時(shí)使用s∈{500拒秘,1000,1500}和c=s留储,在ImageNet上訓(xùn)練時(shí)使用s=1000翼抠,生成了一組不同的掩模。(Efficient graph-based image segmentation获讳,2004)
Image-computable masks: MCG. ?圖像可計(jì)算掩模阴颖。多尺度組合分組[2]是一種更復(fù)雜的算法,它在中級(jí)分類器的指導(dǎo)下丐膝,將超像素分組到許多重疊的對(duì)象建議區(qū)域(圖3量愧,第4列)。對(duì)于每幅圖像帅矗,我們使用16 MCG最高分?jǐn)?shù)的掩模偎肃。注意,我們的公式支持掩幕氪耍可以重疊的事實(shí)累颂。(Multiscale combinatorial grouping,2014)
Human annotated masks. ?人類標(biāo)注。在這項(xiàng)工作中紊馏,我們考慮了使用上述無監(jiān)督mask所帶來的好處料饥。在最后一節(jié)中,我們?cè)儐柛哔|(zhì)量的掩碼(由人工注釋器提供朱监;圖3岸啡,第5列)是否可以改進(jìn)我們的結(jié)果。
3.3 評(píng)估協(xié)議
在一個(gè)無監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)中訓(xùn)練了一個(gè)特征抽取器赫编,通過將其轉(zhuǎn)換到COCO檢測(cè)巡蘸、COCO實(shí)例分割和PASCAL語(yǔ)義分割任務(wù)中來評(píng)價(jià)特征抽取的質(zhì)量。
遷移到COCO擂送。我們使用該表示來初始化Mask RCNN[25]的特征提取器悦荒,Mask RCNN結(jié)構(gòu)包含特征金字塔網(wǎng)絡(luò)[37]和cross-replica batch-norm[46]。我們采用了公開的云TPU 實(shí)現(xiàn)(注釋https://github.com/tensorflow/tpu/tree/master/models/official/detection)团甲,使用時(shí)不做任何修改逾冬。我們端到端地微調(diào)整個(gè)模型,并在VAL2017集上報(bào)告邊界框AP(AP bb)和掩碼AP(AP mk)躺苦。我們使用兩個(gè)標(biāo)準(zhǔn)的訓(xùn)練計(jì)劃:12個(gè)epoch(“1×計(jì)劃”)和24個(gè)epoch(“2×計(jì)劃”)[23]身腻。
遷移到PASCAL。按照[23]匹厘,我們將一個(gè)全卷積的網(wǎng)絡(luò)[38]堆疊在表示之上嘀趟,并對(duì)網(wǎng)絡(luò)進(jìn)行端到端的語(yǔ)義分割訓(xùn)練。我們?cè)趖rainaug2012愈诚,在val2012集上報(bào)告mIoU她按。
4. 實(shí)驗(yàn)
我們的主要自監(jiān)督學(xué)習(xí)實(shí)驗(yàn)采用FH掩碼,因?yàn)槲覀儗⒄故究蝗幔褂肈etCon酌泰,F(xiàn)H比簡(jiǎn)單的空間啟發(fā)式效果要好,性能接近MCG掩碼匕累,但比MCG的計(jì)算要快得多陵刹,鑒于其在scikit image中的可用性[56],其更容易在大規(guī)模數(shù)據(jù)集(如ImageNet)上使用欢嘿。
4.1 從ImageNet遷移
我們首先研究DetCon目標(biāo)是否提高了ImageNet遷移學(xué)習(xí)的預(yù)訓(xùn)練效率架馋。
訓(xùn)練效率狞山。? ? 我們?cè)贗mageNet上為100、200叉寂、500和1000個(gè)epoch訓(xùn)練SimCLR和DetConS模型萍启,并將它們遷移到COCO和PASCAL。當(dāng)在COCO上進(jìn)行微調(diào)時(shí)屏鳍,DetConS在所有的訓(xùn)練模式中都顯著地優(yōu)于SimCLR(圖4勘纯,左,中)钓瞭。SimCLR所獲得的最大性能是由DetCon S通過5×更少的訓(xùn)練迭代而達(dá)到的(表1驳遵,頂部)。我們還將這些相同的模型遷移到PASCAL上的語(yǔ)義分割山涡,并發(fā)現(xiàn)類似的結(jié)果(DetConS產(chǎn)生2倍的預(yù)訓(xùn)練效率增益堤结;圖4,右)鸭丛。
我們還評(píng)估了在ImageNet上訓(xùn)練的監(jiān)督預(yù)訓(xùn)練ResNet-50的遷移性能(圖4竞穷,紅色)。請(qǐng)注意鳞溉,盡管SimCLR達(dá)到了有監(jiān)督遷移的精度瘾带,但與之前的工作一致[8,23],它這樣做的計(jì)算成本大大增加穿挨,需要10×更多的預(yù)訓(xùn)練迭代才能達(dá)到這種表示質(zhì)量月弛。相比之下,DetCon S的收斂速度要快得多科盛,能夠得到有用的表示:遷移到COCO上200個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練帽衙,遷移到PASCAL上500個(gè)epoch足以超越監(jiān)督預(yù)訓(xùn)練。
從BYOL到DetConB贞绵。? ? DetCon有多通用厉萝?我們通過比較DetConB與其基線BYOL來測(cè)試這一點(diǎn)。在這里,我們也不加修改地采用底層框架細(xì)節(jié)(關(guān)于架構(gòu)谴垫、優(yōu)化等)章母,這可能使DetCon目標(biāo)處于不利地位。盡管如此翩剪,DetCon_B表現(xiàn)得比BYOL要好乳怎,預(yù)訓(xùn)練效率提高了3倍(表1,底部)前弯。
與現(xiàn)有工作比較蚪缀。????我們現(xiàn)在將自監(jiān)督遷移學(xué)習(xí)與以前的工作進(jìn)行比較,并使用經(jīng)過充分訓(xùn)練的DetCon_S和Detcon_B模型進(jìn)行比較恕出。請(qǐng)注意询枚,其他方法使用了略有不同的MaskRCNN實(shí)現(xiàn)[60],但是它們對(duì)ImageNet監(jiān)督預(yù)訓(xùn)練和SimCLR的結(jié)果與我們自己的結(jié)果相匹配[53浙巫,62]金蜀,因此比較可以看做是公平的。表2a顯示的畴,DetCon在有監(jiān)督和自監(jiān)督遷移學(xué)習(xí)方面優(yōu)于所有其他方法渊抄。
縮放模型容量渣慕。????在自監(jiān)督學(xué)習(xí)方面的前期工作已經(jīng)證明可以很好地?cái)U(kuò)展模型容量[13嘶炭,33,8]逊桦。DetCon帶來的收益會(huì)隨著更大的型號(hào)而消失嗎眨猎?我們?cè)贗mageNet上訓(xùn)練SimCLR、BYOL和DetConB模型强经,使用ResNet-101睡陪、ResNet-152和ResNet-200特征提取器而不是ResNet-50。表2和2c以及圖5顯示匿情,在這種更高容量的情況下兰迫,DetCon繼續(xù)優(yōu)于其他方法。
我們更進(jìn)一步棘利,訓(xùn)練了一個(gè)具有2×寬度乘數(shù)[33]的ResNet-200橱野,包含2.5億個(gè)參數(shù)。令人驚訝的是善玫,盡管只在ImageNet上進(jìn)行了訓(xùn)練水援,但該模型的遷移性能與最近提出的大規(guī)模自監(jiān)督模型SEER[19]相匹配,SEER具有693M的參數(shù)茅郎,并在1000×更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練(表3)裹唆。雖然比較是不完善的(大范圍的數(shù)據(jù)必然更多噪聲),但它突出了單獨(dú)從自監(jiān)督學(xué)習(xí)目標(biāo)改進(jìn)的潛力只洒。
4.2 從COCO遷移
接下來我們將研究DetCon目標(biāo)處理具有多個(gè)對(duì)象的復(fù)雜場(chǎng)景的能力框仔。為此舀武,我們對(duì)COCO數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,并與SimCLR進(jìn)行了比較离斩。
預(yù)訓(xùn)練效率寻馏。????我們對(duì)SimCLR和DetConS進(jìn)行了一系列不同epoch的訓(xùn)練(324-5184個(gè)epoch),并將所有模型遷移到PASCAL上的語(yǔ)義分割核偿。我們發(fā)現(xiàn)DetConS在預(yù)訓(xùn)練成本方面優(yōu)于SimCLR(圖6)诚欠。DetConS要達(dá)到SimCLR的最大準(zhǔn)確度只需要1/4的訓(xùn)練時(shí)間。
超過了COCO的監(jiān)督傳輸漾岳。????我們還評(píng)估了監(jiān)督預(yù)訓(xùn)練轰绵,從COCO遷移的性能。具體的是尼荆,我們訓(xùn)練了一個(gè)長(zhǎng)時(shí)間的Mask-RCNN(108個(gè)epoch左腔,一個(gè)“9×” schedule),并使用學(xué)習(xí)的特征提取器(ResNet-50耀找,對(duì)于SimCLR和DetCon預(yù)訓(xùn)練)作為PASCAL分割的表示翔悠。雖然DetCon預(yù)訓(xùn)練超過了監(jiān)督基線的性能业崖,但SimCLR仍然落后(圖6)。
4.3 燒蝕和分析
我們現(xiàn)在剖析DetCon目標(biāo)的組成部分蓄愁,并評(píng)估每一個(gè)目標(biāo)的好處双炕。為此,我們對(duì)COCO進(jìn)行了預(yù)訓(xùn)練撮抓,因?yàn)樗膱D片是包含許多物體的復(fù)雜場(chǎng)景妇斤,并且有相應(yīng)的掩膜,使我們能夠準(zhǔn)確地測(cè)量分割它們的影響丹拯。我們通過凍結(jié)特征來評(píng)估學(xué)習(xí)到的表示站超,其中的特征提取器是固定的,而我們?cè)贑OCO上訓(xùn)練MaskRCNN的其它層乖酬。此受控設(shè)置類似于用于評(píng)估圖像識(shí)別的自監(jiān)督表示質(zhì)量的線性分類協(xié)議[12死相、14、44咬像、64]算撮。
什么樣的掩膜是好的?? ? DetCon目標(biāo)可以使用各種不同的圖像分割县昂,哪種分割可以得到最佳的表現(xiàn)肮柜?我們首先考慮將圖像劃分為2×2、5×5或10×10網(wǎng)格的空間啟發(fā)式算法倒彰,1×1網(wǎng)格相當(dāng)于使用Sim-CLR目標(biāo)审洞。我們發(fā)現(xiàn)下游性能隨著網(wǎng)格的細(xì)化而提高,5×5網(wǎng)格是最佳的(圖7)待讳。
接下來我們考慮圖像可計(jì)算的FH和MCG掩模芒澜,這兩種掩模都優(yōu)于空間啟發(fā)式掩模,MCG掩模導(dǎo)致稍微更好的表示创淡。有趣的是撰糠,表示的質(zhì)量與預(yù)訓(xùn)練掩模和真值掩膜之間的重疊非常相關(guān),每個(gè)真值物體被某個(gè)掩模覆蓋得越好辩昆,DetCon的表現(xiàn)就越好阅酪。
對(duì)比檢測(cè)vs對(duì)比識(shí)別? ? DetCon目標(biāo)如何從這些圖像分割中獲益瑞躺?我們通過將每個(gè)組件增量添加到SimCLR框架來評(píng)估它們的影響敷搪。如第3.1節(jié)所述,我們?cè)贒etCon目標(biāo)中使用單個(gè)全局掩碼時(shí)恢復(fù)SimCLR幢哨。作為一種安全性檢查赡勘,我們驗(yàn)證了,將次掩膜(global)復(fù)制多次捞镰,并將復(fù)制的結(jié)果(這些相同的特征)包含到DetCon中闸与,這樣對(duì)表示質(zhì)量沒有影響(表4,a行)岸售。有趣的是践樱,使用FH掩模但僅對(duì)每幅圖像采樣一個(gè)掩模會(huì)略微降低性能,這可能是因?yàn)槟P驮诿看蔚鷷r(shí)僅從圖像的一部分進(jìn)行學(xué)習(xí)(表4凸丸,b行)拷邢。通過對(duì)目標(biāo)區(qū)域進(jìn)行密集采樣,DetConS可以從整個(gè)圖像中進(jìn)行學(xué)習(xí)屎慢,同時(shí)還可以從一組不同的正樣本和負(fù)樣本中獲益解孙,從而提高檢測(cè)和分割精度(表4,最后一行)抛人。
如果分割得到解決怎么辦?盡管使用了相當(dāng)接近的分割模板寂恬,但DetCon目標(biāo)函數(shù)導(dǎo)致了快速的遷移學(xué)習(xí)和強(qiáng)大的性能续誉。在第4.3節(jié)中,我們發(fā)現(xiàn)更高質(zhì)量分割(例如使用MCG計(jì)算的分割初肉,或從人類標(biāo)注獲得的分割)以提高表示質(zhì)量酷鸦。如果分割更準(zhǔn)確,我們?nèi)绾翁岣邔W(xué)習(xí)目標(biāo)牙咏?我們通過重新考慮對(duì)比目標(biāo)的設(shè)計(jì)選擇來評(píng)估這個(gè)問題臼隔,給出COCO數(shù)據(jù)集的真值掩模,而不是近似的FH掩模妄壶。
縮放圖像分辨率摔握。我們假設(shè),更高的圖像分辨率可能會(huì)使網(wǎng)絡(luò)從這些信息量更大的分割中受益更多丁寄。為了保留細(xì)粒度信息氨淌,我們?cè)诿總€(gè)掩膜內(nèi)采樣局部特征泊愧,并使用DetCon目標(biāo)對(duì)其進(jìn)行優(yōu)化。我們?cè)?84×384或512×512分辨率的圖像上預(yù)訓(xùn)練配備了FH或真值(GT)掩模的SimCLR和DetConS模型盛正。雖然帶FH掩模的DetCon只獲得了適度的益處删咱,而帶高分辨率圖像的SimCLR的性能惡化,帶GT掩模的DetCon得到了顯著的改善(圖8)蛮艰。請(qǐng)注意腋腮,這完全是由于提高了表示質(zhì)量;用于下游評(píng)估的圖像分辨率主要保持在1024×1024(對(duì)于所有模型)壤蚜。
重新審視對(duì)比框架。最后著蟹,我們提出了一個(gè)問題墩蔓,即當(dāng)前的對(duì)比學(xué)習(xí)范式(利用不同的隨機(jī)增強(qiáng)產(chǎn)生的大量的負(fù)樣本和預(yù)測(cè))在DetCon目標(biāo)并具有高質(zhì)量的分割掩膜的背景下,仍然是最優(yōu)的萧豆。
是否需要大量的負(fù)樣本?????不用高質(zhì)量的掩膜蜓竹。將負(fù)樣本數(shù)量除以128(實(shí)現(xiàn)是箕母,僅僅用一個(gè)worker來收集負(fù)樣本),DetCon(帶FH掩膜)的表現(xiàn)下降(表5俱济,row a)司蔬,與當(dāng)前的對(duì)比學(xué)習(xí)框架一致[8,23]姨蝴。相比之下俊啼,使用GT掩模的DetCon S盡管有此限制,但仍有改進(jìn)左医。
在不同增強(qiáng)視圖中采樣正樣本是否必要授帕?不用高質(zhì)量的掩膜同木。我們運(yùn)行DetCon模型,同時(shí)為每個(gè)圖像采樣單個(gè)增強(qiáng)跛十,并在該視圖中最大化基于掩碼的特征的相似性彤路。在這里,DetCon目標(biāo)在使用近似FH遮罩時(shí)會(huì)遇到這種障礙芥映,但在使用高質(zhì)量分段時(shí)不會(huì)遇到這種障礙(表5洲尊,b行)。
這是怎么回事奈偏?????一種解釋是坞嘀,其他圖片給我們提供了干凈的負(fù)樣本,因?yàn)镃OCO中的所有圖像都描繪了不同的場(chǎng)景惊来,但這并不意味著這些圖像的負(fù)樣本的質(zhì)量高于同一圖像中的負(fù)樣本的質(zhì)量丽涩。事實(shí)上,看起來是裁蚁,來自同一個(gè)圖像的負(fù)樣本提供了更好的信號(hào)矢渊,前提是我們能確保它們是干凈的,也就是說枉证,我們沒有把同一個(gè)物體的特征去拉開(pushing apart)矮男。如果同一圖像的正樣本也是至少和來自不同增強(qiáng)視圖的正樣本一樣好,前提是室谚,它們是干凈的毡鉴,也就是說,我們沒有把來自不同物體的特征拉近(pulling together)舞萄。
討論
我們提出了DetCon,這是對(duì)現(xiàn)有自監(jiān)督學(xué)習(xí)算法(如Sim-CLR和BYOL)的一種簡(jiǎn)單而強(qiáng)大的改進(jìn)管削。DetCon利用低級(jí)線索將圖像組織成物體和背景區(qū)域等實(shí)體倒脓,將大數(shù)據(jù)集的預(yù)訓(xùn)練效率提高了5倍,同時(shí)也提高了下游任務(wù)學(xué)習(xí)表示的準(zhǔn)確性含思。在ImageNet上預(yù)訓(xùn)練的自監(jiān)督方法中崎弃,我們的最佳模型達(dá)到了最先進(jìn)的性能,與最近在更大數(shù)據(jù)集上訓(xùn)練更大模型的最先進(jìn)方法的性能相似[19]含潘。
我們表明饲做,DetCon的能力與使用的掩膜與物體邊界對(duì)齊的程度密切相關(guān)。這似乎是直觀的——DetCon目標(biāo)只能利用從每個(gè)圖像區(qū)域(如果他們包含不同的內(nèi)容)獨(dú)立的學(xué)習(xí)信號(hào)遏弱。同樣盆均,只有當(dāng)負(fù)樣本代表不同的物體時(shí),它們才是真正不同的漱逸。然而泪姨,這在聯(lián)合學(xué)習(xí)表征和發(fā)現(xiàn)物體方面創(chuàng)造了令人興奮的研究前景游沿。考慮到DetCon表示的改進(jìn)性能肮砾,例如分割诀黍,一個(gè)自然的問題是,它們是否可以用于生成更好的無監(jiān)督分割(比預(yù)訓(xùn)練階段更好)仗处。如果是這樣的話眯勾,這些可能會(huì)被用來學(xué)習(xí)更好的表示,導(dǎo)致一個(gè)良性的熱潮婆誓,無監(jiān)督的場(chǎng)景理解吃环。
感謝 作者感謝Carl Doersch、Raia Hadsell和Evan Shelhamer對(duì)手稿的深入討論和反饋旷档。
A.附錄
A.1模叙。實(shí)現(xiàn):數(shù)據(jù)擴(kuò)充
自監(jiān)督訓(xùn)練前。每人圖像被隨機(jī)放大兩次鞋屈,結(jié)果是兩次圖像:x范咨;x0 . 算符構(gòu)造為以下操作的組合,每個(gè)操作以給定的概率應(yīng)用:
隨機(jī)裁剪:
選擇圖像的隨機(jī)面片厂庇,其面積在[0:08 a渠啊;a]中均勻采樣,其中Ais是原始圖像的面積权旷,其縱橫比在[3=4替蛉;4=3]中對(duì)數(shù)采樣。然后使用雙三次插值拄氯;
水平翻轉(zhuǎn)躲查;
3將面片調(diào)整為224×224像素。顏色抖動(dòng):亮度译柏、對(duì)比度镣煮、飽和度和色調(diào)通過均勻分布的偏移量進(jìn)行偏移;
顏色下降:RGB圖像由其灰度值替換鄙麦;
5典唇。高斯模糊,23×23平方核胯府,標(biāo)準(zhǔn)差從[0:1介衔;2:0];
6均勻采樣骂因。日曬:一個(gè)點(diǎn)式顏色轉(zhuǎn)換x 7炎咖!x A 1x<0:5+(1 x)A 1x→0:5,像素sin[0;1]塘装。增廣圖像x急迂;x 0分別來自分布t和t 0的增廣采樣。這些分布適用于上述具有不同概率和不同震級(jí)的原語(yǔ)蹦肴。下表為SimCLR[8]和BYOL框架[20]指定了這些參數(shù)僚碎,我們對(duì)DetCon S和DetConB采用這些參數(shù)而不進(jìn)行修改。
傳輸?shù)紺OCO阴幌。
微調(diào)勺阐,圖像隨機(jī)翻轉(zhuǎn),并調(diào)整到最長(zhǎng)一側(cè)1024像素的分辨率矛双,其中UI在[0:8渊抽;1:25]中均勻采樣,然后進(jìn)行裁剪或者填充到1024×1024的圖像议忽。寬高比保持與原始圖像相同懒闷。在測(cè)試期間,圖像在最長(zhǎng)的一側(cè)被調(diào)整到1024像素栈幸,然后填充到1024×1024像素愤估。
轉(zhuǎn)到帕斯卡。在訓(xùn)練過程中速址,圖像會(huì)以[0:5玩焰;2:0]中的因子進(jìn)行翻轉(zhuǎn)和縮放。用513×513分辨率的圖像進(jìn)行訓(xùn)練和測(cè)試芍锚。實(shí)現(xiàn):
體系結(jié)構(gòu)
我們的默認(rèn)特性提取器是ResNet-50[27]昔园。在第4.1節(jié)中,我們還研究了更深層次的體系結(jié)構(gòu)(ResNet-101并炮、-152和-200)和更寬的模型(ResNet-200×2)默刚,該模型通過將所有通道尺寸縮放2倍而獲得。如第3.1節(jié)所述逃魄,該編碼器產(chǎn)生一個(gè)隱藏向量的網(wǎng)格荤西,我們將其聚集在掩碼中,以獲得一組表示每個(gè)掩碼的向量hmr嗅钻。然后皂冰,在輸入對(duì)比損失之前店展,通過投影頭g(以及可選的預(yù)測(cè)頭q)對(duì)其進(jìn)行變換养篓。在SimCLR之后,投影頭是一個(gè)兩層MLP赂蕴,其隱藏和輸出尺寸是2048和128柳弄。該網(wǎng)絡(luò)使用兩個(gè)視圖的學(xué)習(xí)參數(shù)θ。DetConB公司。根據(jù)BYOL碧注,投影頭是一個(gè)兩層MLP嚣伐,其隱藏和輸出尺寸分別為4096和256。該網(wǎng)絡(luò)使用所學(xué)習(xí)的參數(shù)θ來處理一個(gè)視圖萍丐,并使用這些參數(shù)ξ的指數(shù)移動(dòng)平均值來處理第二個(gè)視圖轩端。具體地說,ξ是用ξ→Aξ+(1→)Aθ來更新的逝变,其中衰減率→在訓(xùn)練過程中使用余弦表從→0到1進(jìn)行退火[20]基茵。→當(dāng)訓(xùn)練1000個(gè)歷元時(shí)壳影,0設(shè)置為0.996拱层,當(dāng)訓(xùn)練300個(gè)歷元時(shí),0設(shè)置為0.99宴咧。第一視圖的投影進(jìn)一步通過預(yù)測(cè)頭進(jìn)行變換根灯,預(yù)測(cè)頭的結(jié)構(gòu)與投影頭的結(jié)構(gòu)相同。
1計(jì)算成本掺栅。通過ResNet-50編碼器的正向傳遞大約需要4B次觸發(fā)器烙肺。忽略偏差項(xiàng)和逐點(diǎn)非線性的代價(jià),DetCon S中的預(yù)測(cè)頭大約需要440萬次浮點(diǎn)運(yùn)算(即2048×2048+2048×128)柿冲。由于這是計(jì)算16次而不是一次茬高,因此與SimCLR相比,它會(huì)導(dǎo)致67M觸發(fā)器的開銷假抄。對(duì)于detconb怎栽,與BYOL相比,評(píng)估投影和預(yù)測(cè)頭的綜合成本導(dǎo)致額外的173M失敗宿饱。最后熏瞄,評(píng)估對(duì)比損失的代價(jià)是DetCon S為134M次,DetConB為268M次谬以。DetConS總共需要2.01億個(gè)額外的觸發(fā)器和4.41億個(gè)DetConB强饮,分別占主干網(wǎng)評(píng)估成本的5.3%和11.6%。與達(dá)到給定傳輸性能所需的訓(xùn)練迭代增益(例如为黎,DetCon S的500%增益)相比邮丰,該開銷足夠小
對(duì)于我們來說,沒有進(jìn)一步區(qū)分計(jì)算和訓(xùn)練時(shí)間的收益铭乾。實(shí)施:
優(yōu)化
自監(jiān)督訓(xùn)練前剪廉。我們使用LARS op timizer[63]進(jìn)行培訓(xùn),批量大小為4096炕檩,分為128個(gè)云TPU v3工作人員斗蒋。在ImageNet上訓(xùn)練時(shí),我們?cè)俅螌?duì)DetConS和DetConB采用SimCLR和BYOL的優(yōu)化細(xì)節(jié),將學(xué)習(xí)速率與批量大小線性縮放泉沾,并根據(jù)余弦調(diào)度進(jìn)行衰減捞蚂。對(duì)于DetCon S,基本學(xué)習(xí)率為0.3跷究,權(quán)重衰減為106姓迅。DetConBalso在訓(xùn)練300個(gè)時(shí)期時(shí)使用這些值;在訓(xùn)練1000個(gè)時(shí)期時(shí)俊马,它們是0.2和1:5 A 10 6队贱。在對(duì)COCO進(jìn)行預(yù)訓(xùn)練時(shí),我們將cosine學(xué)習(xí)率表替換為一個(gè)分段常數(shù)潭袱,這被發(fā)現(xiàn)可以緩解過度擬合[24]柱嫌,在第96和98個(gè)百分位,學(xué)習(xí)率降低了10倍屯换。為了公平比較编丘,我們?cè)趯im-CLR應(yīng)用于COCO數(shù)據(jù)集時(shí)使用了相同的調(diào)度,我們還發(fā)現(xiàn)它的性能比更激進(jìn)的余弦調(diào)度更好彤悔。
遷移到COCO嘉抓。
我們使用隨機(jī)梯度下降進(jìn)行微調(diào),在前500次迭代中線性增加學(xué)習(xí)速率晕窑,之后兩次下降10倍總訓(xùn)練時(shí)間的2 3和8 9抑片,在[60]之后。我們對(duì)ResNet-50模型使用0.3的基本學(xué)習(xí)率杨赤,對(duì)較大的模型使用0.2的基本學(xué)習(xí)率敞斋,動(dòng)量為0.9,權(quán)重衰減為4 a 10 5疾牲,批大小為64張圖像植捎,分成16個(gè)工作人員。
遷移到PASCAL阳柔。
我們使用隨機(jī)梯度下降對(duì)45個(gè)時(shí)期進(jìn)行微調(diào)焰枢,批大小為16,權(quán)重衰減為10 4舌剂。學(xué)習(xí)率為0.02济锄,在第70百分位和第90百分位下降了10倍。