再想一想預(yù)訓(xùn)練和自訓(xùn)練吧

作者:Barret Zoph,Golnaz Ghiasi喊积,Tsung-Yi Lin 等

Google Research椰拒,Brain Team,2020.6.11

摘要:預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式罕伯。例如曲伊,對(duì)ImageNet的有監(jiān)督預(yù)訓(xùn)練模型常被用于初始化物體檢測(cè)和分割模型的主干網(wǎng)絡(luò)。但是何愷明給出了一個(gè)令人驚訝的發(fā)現(xiàn)[1]:在ImageNet上預(yù)訓(xùn)練對(duì)COCO上的物體檢測(cè)的影響是有限的追他。本文將調(diào)研另一種使用額外數(shù)據(jù)的方法坟募,自訓(xùn)練,并在相同設(shè)置下與ImageNet預(yù)訓(xùn)練模型對(duì)比邑狸。我們的研究揭示了自訓(xùn)練的泛化性和靈活性懈糯,并給出另外3個(gè)觀點(diǎn):1)更強(qiáng)的數(shù)據(jù)增擴(kuò)和更多的有標(biāo)簽數(shù)據(jù)會(huì)進(jìn)一步削弱預(yù)訓(xùn)練的價(jià)值;2)與之不同的是单雾,在低數(shù)據(jù)和高數(shù)據(jù)情況下(low-data and high-data regimes)赚哗,當(dāng)使用更強(qiáng)的數(shù)據(jù)增擴(kuò)的時(shí)候,自訓(xùn)練總是有提升作用的硅堆;3)當(dāng)預(yù)訓(xùn)練起作用的時(shí)候屿储,在預(yù)訓(xùn)練的基礎(chǔ)上使用自訓(xùn)練能帶來(lái)進(jìn)一步地提升。例如渐逃,在COCO物體檢測(cè)上够掠,預(yù)訓(xùn)練在使用1/5的有標(biāo)簽數(shù)據(jù)時(shí)有益,在使用所有有標(biāo)簽數(shù)據(jù)時(shí)有害茄菊。而自訓(xùn)練無(wú)論數(shù)據(jù)集規(guī)模大小都能帶來(lái)+1.3到+3.4AP的提升疯潭。換言之,當(dāng)預(yù)訓(xùn)練不起作用(用ImageNet來(lái)幫助COCO)的時(shí)候买羞,相同設(shè)置下袁勺,自訓(xùn)練能很好地起作用。PASCAL分割數(shù)據(jù)集是個(gè)比COCO小得多的數(shù)據(jù)集畜普,雖然預(yù)訓(xùn)練有很大的改善作用期丰,但是自訓(xùn)練能在預(yù)訓(xùn)練的基礎(chǔ)上帶來(lái)進(jìn)一步地提升。在COCO物體檢測(cè)上吃挑,我們達(dá)到54.3AP钝荡,比最強(qiáng)模型SpineNet提升+1.5AP。在PASCAL分割上舶衬,我們達(dá)到90.5mIoU埠通,比先前的先進(jìn)模型DeepLabv3+提升+1.5%mIoU。

1 介紹

預(yù)訓(xùn)練是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主流范式逛犹。由于許多視覺(jué)任務(wù)都是相關(guān)的端辱,因此需要在一個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)模型梁剔,以幫助另一個(gè)數(shù)據(jù)集。現(xiàn)有的普遍做法是在ImageNet分類(lèi)上預(yù)訓(xùn)練一個(gè)模型舞蔽,然后作為物體檢測(cè)和分割網(wǎng)絡(luò)的主干[2-5]荣病。這種做法最近受到何愷明的質(zhì)疑[1],他們給出一個(gè)令人吃驚的結(jié)果渗柿,即在ImageNet上的預(yù)訓(xùn)練并不能提高在COCO數(shù)據(jù)集上的準(zhǔn)確度个盆。

與之形成鮮明對(duì)比的是自訓(xùn)練[6-8]。假定我們現(xiàn)在是要用ImageNet來(lái)幫助COCO物體檢測(cè)朵栖,自訓(xùn)練步驟是颊亮,先丟棄掉ImageNet上的標(biāo)簽,在COCO上訓(xùn)練一個(gè)檢測(cè)模型陨溅,用這個(gè)檢測(cè)模型對(duì)ImageNet數(shù)據(jù)生成偽標(biāo)簽终惑,將帶偽標(biāo)簽的ImageNet數(shù)據(jù)和人工標(biāo)簽的COCO數(shù)據(jù)組合起來(lái)訓(xùn)練一個(gè)新的檢測(cè)模型。自訓(xùn)練最近的一些成功的工作[9-12]提出了一個(gè)問(wèn)題:自訓(xùn)練在多大程度上比預(yù)訓(xùn)練更有效声登?在預(yù)訓(xùn)練失效的時(shí)候狠鸳,自訓(xùn)練在相同的設(shè)置下能夠起作用,用ImageNet幫助COCO檢測(cè)嗎悯嗓?

我們的研究(我們的方法是基于受干擾的學(xué)生[10])重點(diǎn)就是要回答這些問(wèn)題。我們定義了一組控制實(shí)驗(yàn)卸察,用ImageNet作為額外數(shù)據(jù)脯厨,目的是要提升COCO的準(zhǔn)確度】又剩控制變量是使用COCO中有標(biāo)簽的數(shù)據(jù)的數(shù)量合武,以及數(shù)據(jù)增擴(kuò)的強(qiáng)度。實(shí)驗(yàn)表明涡扼,增大數(shù)據(jù)增擴(kuò)的強(qiáng)度稼跳,或者增加使用COCO有標(biāo)簽數(shù)據(jù)的數(shù)量,預(yù)訓(xùn)練的價(jià)值會(huì)降低吃沪。當(dāng)我們使用最強(qiáng)程度的數(shù)據(jù)增擴(kuò)的時(shí)候汤善,預(yù)訓(xùn)練帶來(lái)副作用,使準(zhǔn)確度下降1.0AP票彪。這是個(gè)連何愷明[1]都沒(méi)發(fā)現(xiàn)的令人吃驚的結(jié)果红淡。而自訓(xùn)練和數(shù)據(jù)增擴(kuò)有很好的交互作用,使用更強(qiáng)的數(shù)據(jù)增擴(kuò)不僅不會(huì)損害自訓(xùn)練降铸,而且有助于自訓(xùn)練在旱。在相同強(qiáng)度的數(shù)據(jù)增擴(kuò)、使用相同的ImageNet數(shù)據(jù)時(shí)推掸,自訓(xùn)練仍能帶來(lái)1.3AP的提升桶蝎。這表明預(yù)訓(xùn)練失效的時(shí)候驻仅,自訓(xùn)練仍然是有效的。這一正一負(fù)兩個(gè)結(jié)果給上述問(wèn)題一個(gè)肯定的回答登渣。

一種越來(lái)越流行的預(yù)訓(xùn)練方法是自監(jiān)督學(xué)習(xí)雾家。自監(jiān)督學(xué)習(xí)方法是在一個(gè)數(shù)據(jù)集上不用標(biāo)簽的預(yù)訓(xùn)練,希望能建立適用于更廣泛任務(wù)和數(shù)據(jù)集的通用表示绍豁。我們研究了最先進(jìn)的自監(jiān)督學(xué)習(xí)方法預(yù)訓(xùn)練的ImageNet模型芯咧,并且在COCO上和標(biāo)準(zhǔn)的有監(jiān)督預(yù)訓(xùn)練的ImageNet模型對(duì)比。我們發(fā)現(xiàn)竹揍,使用SimCLR[13]的自監(jiān)督預(yù)訓(xùn)練模型和有監(jiān)督預(yù)訓(xùn)練的ImageNet模型性能相似敬飒。兩者在COCO上當(dāng)高數(shù)據(jù)(high data)/高強(qiáng)度的數(shù)據(jù)增擴(kuò)的時(shí)候都是帶來(lái)負(fù)作用,而自訓(xùn)練是帶來(lái)提升作用芬位。我們的研究表示无拗,當(dāng)有標(biāo)簽數(shù)據(jù)的數(shù)量增加到一定程度時(shí),有監(jiān)督的預(yù)訓(xùn)練和自監(jiān)督的預(yù)訓(xùn)練會(huì)失敗昧碉,而自訓(xùn)練仍能帶來(lái)提升英染。

然而,我們的工作并不排斥計(jì)算機(jī)視覺(jué)的預(yù)訓(xùn)練被饿。在我們的實(shí)驗(yàn)中四康,對(duì)預(yù)訓(xùn)練模型微調(diào)要比從頭訓(xùn)練模型和自訓(xùn)練要快,快1.3倍到8倍狭握,倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量闪金、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異。在收集有標(biāo)簽數(shù)據(jù)困難的情況下论颅,預(yù)訓(xùn)練也是有用的哎垦。這種情況下,預(yù)訓(xùn)練能工作得很好恃疯,但是無(wú)論有沒(méi)有預(yù)訓(xùn)練漏设,這種情況下自訓(xùn)練都能帶來(lái)提升。例如今妄,在PASCAL分割數(shù)據(jù)集上實(shí)驗(yàn)表明郑口,用ImageNet預(yù)訓(xùn)練模型能提高準(zhǔn)確度,但是用自訓(xùn)練在預(yù)訓(xùn)練的基礎(chǔ)上提供了額外的+1.3%mIoU的提升蛙奖。事實(shí)上潘酗,即使用同一個(gè)數(shù)據(jù)集去預(yù)訓(xùn)練/自訓(xùn)練,預(yù)訓(xùn)練帶來(lái)的提升也不會(huì)抵消自訓(xùn)練帶來(lái)的提升雁仲,這表明了自訓(xùn)練的普遍性(generality)仔夺。

進(jìn)一步,我們探討了在COCO和PASCAL數(shù)據(jù)集上自訓(xùn)練的局限性攒砖,從而證明該方法的靈活性缸兔。在COCO數(shù)據(jù)集上自訓(xùn)練日裙,將OpenImages作為額外的無(wú)標(biāo)簽數(shù)據(jù),將帶有SpineNet[15]的RetinaNet[14]作為檢測(cè)網(wǎng)絡(luò)惰蜜,這種組合在COCO測(cè)試集上達(dá)到54.3AP昂拂,比最強(qiáng)SpineNet模型高出+1.5AP。在圖像分割抛猖,用PASCAL aug set[16]作為無(wú)標(biāo)簽的額外數(shù)據(jù)格侯,用NAS-FPN[17]+EfficientNet-L2[10]作為分割網(wǎng)絡(luò)。這種組合在PASCAL VOC 2012測(cè)試集上達(dá)到90.5%mIoU财著,超過(guò)了之前的先進(jìn)模型89.0%mIoU[18]联四,而[18]使用了300M張額外的有標(biāo)簽數(shù)據(jù)。這些結(jié)果證實(shí)了自訓(xùn)練的另一個(gè)好處:它對(duì)未標(biāo)簽數(shù)據(jù)來(lái)源撑教、網(wǎng)絡(luò)結(jié)構(gòu)和各種計(jì)算機(jī)視覺(jué)任務(wù)都很靈活朝墩。

2.相關(guān)工作

在整個(gè)深度學(xué)習(xí)的歷史中,預(yù)訓(xùn)練一直備受關(guān)注(見(jiàn)[19]及其參考文獻(xiàn))伟姐。21世紀(jì)初收苏,深度學(xué)習(xí)的復(fù)蘇也始于無(wú)監(jiān)督的預(yù)訓(xùn)練[20-24]。NLP中無(wú)監(jiān)督預(yù)訓(xùn)練的成功[25-30]重新激起了人們對(duì)計(jì)算機(jī)視覺(jué)無(wú)監(jiān)督預(yù)訓(xùn)練的興趣愤兵,尤其是對(duì)比訓(xùn)練[13,31-35]鹿霸。在實(shí)踐中,有監(jiān)督的預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)領(lǐng)域是非常成功的恐似。例如杜跷,許多研究(例如[36–40])表明,在ImageNet矫夷、Instagram和JFT上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)可以為許多下游任務(wù)提供很大的提升。

有監(jiān)督的ImageNet預(yù)訓(xùn)練是用于目標(biāo)檢測(cè)和分割的最廣泛的初始化方法(例如[2-5])憋槐。然而双藕,何愷明卻質(zhì)疑[1],當(dāng)用在一個(gè)非常不同的下游任務(wù)上時(shí)阳仔,例如COCO物體檢測(cè)忧陪,ImageNet預(yù)訓(xùn)練模型效果并不好。

與何愷明的工作[1]相比近范,我們的工作是更進(jìn)一步嘶摊,更詳細(xì)地研究預(yù)訓(xùn)練在計(jì)算機(jī)視覺(jué)中不同情況下的作用,包括:更強(qiáng)程度的數(shù)據(jù)增擴(kuò)评矩、不同的預(yù)訓(xùn)練方法(監(jiān)督和自監(jiān)督)以及不同質(zhì)量的預(yù)訓(xùn)練模型(checkpoints)叶堆。

本文沒(méi)有深入研究有針對(duì)性的預(yù)訓(xùn)練,例如用一個(gè)物體檢測(cè)數(shù)據(jù)集的預(yù)訓(xùn)練去幫助另一個(gè)物體檢測(cè)數(shù)據(jù)集斥杜。原因有二:一是有針對(duì)性的預(yù)訓(xùn)練成本高昂虱颗,且可擴(kuò)展性差沥匈;二是,已有證據(jù)表明忘渔,在相同任務(wù)不同數(shù)據(jù)集上的預(yù)訓(xùn)練仍然不能帶來(lái)提升高帖。例如[41]證明在OpenImages物體檢測(cè)數(shù)據(jù)集上的預(yù)訓(xùn)練會(huì)損害在COCO物體檢測(cè)數(shù)據(jù)集上的表現(xiàn)。更多關(guān)于有針對(duì)性的預(yù)訓(xùn)練的分析見(jiàn)[42]畦粮。

我們的工作證明了自訓(xùn)練的可擴(kuò)展性和普遍性(例如散址,[6-8])。最近宣赔,自訓(xùn)練在深度學(xué)習(xí)(例如预麸,圖像分類(lèi)[9,10]、機(jī)器翻譯[11]和語(yǔ)音識(shí)別[12,43])方面取得了顯著進(jìn)展拉背。與我們的工作關(guān)系最密切的是受干擾的學(xué)生[10]师崎,其在自訓(xùn)練中使用很強(qiáng)的數(shù)據(jù)增擴(kuò),但是是用到圖像分類(lèi)上椅棺。在應(yīng)用上更接近的是用于檢測(cè)和分割的半監(jiān)督學(xué)習(xí)(例如[44–47])犁罩,但他們只是單獨(dú)研究自訓(xùn)練,沒(méi)有和ImageNet預(yù)訓(xùn)練進(jìn)行對(duì)比两疚,也沒(méi)有考慮這些訓(xùn)練方法和數(shù)據(jù)增擴(kuò)的交互作用床估。

3 方法

3.1 方法與控制變量

數(shù)據(jù)增擴(kuò):? ? 對(duì)檢測(cè)和分割,我們使用4種不同強(qiáng)度的數(shù)據(jù)增擴(kuò)策略诱渤。這樣我們就可以在分析中改變數(shù)據(jù)增擴(kuò)的強(qiáng)度丐巫。我們根據(jù)標(biāo)準(zhǔn)的裁剪翻轉(zhuǎn)[14]、AutoAugment[48,49]和RandAugment[50]來(lái)設(shè)計(jì)我們的數(shù)據(jù)增強(qiáng)策略勺美。標(biāo)準(zhǔn)的翻轉(zhuǎn)裁剪包括水平翻轉(zhuǎn)以及尺度抖動(dòng)递胧,標(biāo)準(zhǔn)的尺度抖動(dòng)是指將圖像縮放為目標(biāo)圖像尺寸的(0.8,1.2)倍赡茸,然后再裁剪缎脾。AutoAugment和RandAugment最初的設(shè)計(jì)是基于標(biāo)準(zhǔn)的尺度抖動(dòng)的,我們加寬了尺度抖動(dòng)范圍至(0.5,2.0)占卧,發(fā)現(xiàn)會(huì)有顯著改善遗菠。我們?cè)趯?shí)驗(yàn)中用的四種數(shù)據(jù)增擴(kuò)策略是:翻轉(zhuǎn)裁剪、AutoAugment华蜒、大范圍尺度抖動(dòng)的AutoAugment辙纬、大范圍尺度抖動(dòng)的RandAugment。在下文中這4中策略會(huì)被稱(chēng)為:Augment-S1叭喜、Augment-S2贺拣、Augment-S3Augment-S4。后3種策略比何愷明在[1]中用的強(qiáng)度更大纵柿,他只用了翻轉(zhuǎn)裁剪策略蜈抓。

預(yù)訓(xùn)練:? ? 為了評(píng)估預(yù)訓(xùn)練的有效性,我們研究了不同質(zhì)量的ImageNet預(yù)訓(xùn)練checkpoint昂儒。為了控制模型容量沟使,所有checkpoints的網(wǎng)絡(luò)結(jié)構(gòu)相同,但是在ImageNet上有不同的準(zhǔn)確度(因?yàn)橛?xùn)練方式不同)渊跋。我們使用EfficientNet-B7網(wǎng)絡(luò)結(jié)構(gòu)[57]作為預(yù)訓(xùn)練的一個(gè)強(qiáng)大的基線腊嗡。對(duì)于EfficientNet-B7網(wǎng)絡(luò),有兩個(gè)可得的checkpoints:1)用AutoAugment訓(xùn)練的在ImageNet上84.5% top-1準(zhǔn)確度的checkpoints拾酝;2)使用300M張無(wú)標(biāo)簽數(shù)據(jù)用受干擾學(xué)生訓(xùn)練[10]的在ImageNet上86.9% top-1準(zhǔn)確度的checkpoints燕少。在下文中我們將這兩個(gè)checkpoints表示為ImageNetImageNet++蒿囤,隨機(jī)初始化表示為RandInit客们。因此,我們所有的基線都比何愷明用的[1]要強(qiáng)材诽,何愷明在[1]中用的是ResNets底挫,而EfficientNet-B7 checkpoint比ResNet-50 checkpoint要高出大約8個(gè)百分點(diǎn)。表1匯總了我們的數(shù)據(jù)增擴(kuò)和預(yù)訓(xùn)練模型的表示符號(hào)脸侥。

表1

自訓(xùn)練:我們用的自訓(xùn)練是基于受干擾的學(xué)生[10]建邓,有3個(gè)步驟。首先睁枕,在有標(biāo)簽數(shù)據(jù)(例如COCO數(shù)據(jù)集)上訓(xùn)練一個(gè)教師模型官边。然后,教師模型在無(wú)標(biāo)簽數(shù)據(jù)(例如ImageNet數(shù)據(jù)集)上生成偽標(biāo)簽外遇。最后注簿,在人工標(biāo)注數(shù)據(jù)和偽標(biāo)簽數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)學(xué)生模型。學(xué)生模型受到的干擾的主要來(lái)源是數(shù)據(jù)增擴(kuò)以及先前在相關(guān)模型中使用的其他噪聲方法跳仿。

我們對(duì)各種超參數(shù)和數(shù)據(jù)增擴(kuò)的實(shí)驗(yàn)表明滩援,用這種標(biāo)準(zhǔn)損失函數(shù)進(jìn)行自訓(xùn)練是不穩(wěn)定的。為了解決這個(gè)問(wèn)題塔嬉,我們實(shí)現(xiàn)了一種損失歸一化技術(shù),會(huì)在附錄B中介紹租悄。

3.2 其它的實(shí)驗(yàn)設(shè)置

物體檢測(cè):????我們使用COCO數(shù)據(jù)集[52](118k個(gè)圖像)進(jìn)行監(jiān)督學(xué)習(xí)谨究。在自訓(xùn)練中,我們使用ImageNet[53](1.2M圖像)和OpenImages[54](1.7M圖像)作為無(wú)標(biāo)簽數(shù)據(jù)泣棋。網(wǎng)絡(luò)選擇EfficientNet-B7為主干胶哲,RetinaNet為檢測(cè)頭,使用特征金字塔潭辈。和[14]一樣鸯屿,圖像尺寸640×640菇怀,使用特征金字塔的P3到P7更胖,每個(gè)像素9個(gè)錨框。批量大小256,權(quán)重衰減1e-4搂根。初始學(xué)習(xí)率0.32,使用余弦學(xué)習(xí)率衰減策略[56]燃乍。對(duì)使用不用的是數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模的實(shí)驗(yàn)畅涂,我們使每個(gè)模型訓(xùn)練到收斂(converges)為止(即繼續(xù)訓(xùn)練在驗(yàn)證集上的性能不再有提升甚至下降)。例如勾邦,當(dāng)兩個(gè)模型隨機(jī)初始化時(shí)蚣录,使用Augment-S1進(jìn)行45k次迭代,使用Augment-S4進(jìn)行120k次迭代眷篇。當(dāng)使用SpineNet時(shí)萎河,使用[15]中的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù),由于內(nèi)存限制蕉饼,將批量大小從256降為128虐杯,并且將學(xué)習(xí)率減半。除了批量大小和學(xué)習(xí)率以外的其它超參數(shù)遵循SpineNet的開(kāi)源代碼里的設(shè)置椎椰。所有的SpineNet模型使用SoftNMS[57]厦幅,sigma參數(shù)為0.3。在自訓(xùn)練中慨飘,使用0.5的硬閾值來(lái)生成偽邊框標(biāo)簽确憨。批量大小總的為512,其中COCO數(shù)據(jù)256瓤的,偽標(biāo)簽數(shù)據(jù)256休弃。其它訓(xùn)練超參數(shù)和監(jiān)督訓(xùn)練一樣。

語(yǔ)義分割:? ? 我們使用PASCAL VOC 2012[58]的訓(xùn)練集(1.5k張圖片)來(lái)有監(jiān)督訓(xùn)練圈膏。自訓(xùn)練中塔猾,使用增廣版PASCAL數(shù)據(jù)集[16](9k張圖片),COCO(240k張圖片稽坤,240k是包含有標(biāo)簽和無(wú)標(biāo)簽)和ImageNet[53](1.2M張圖像)丈甸。使用NAS-FPN[17]作為框架, EfficientNet-B7和EfficientNet-L2為主干尿褪。我們的NAS-FPN重復(fù)使用7次深度可分離卷積睦擂。使用特征金字塔的P3到P7,并將所有特征上采樣至P2大小杖玲,并將它們相加合并起來(lái)顿仇。對(duì)合并后的特征,使用3層3×3卷積,再接上一個(gè)1×1卷積用于21類(lèi)分割臼闻。主干為EfficientNet-B7時(shí)學(xué)習(xí)率設(shè)為0.08鸿吆,主干為EfficientNet-L2時(shí)學(xué)習(xí)率設(shè)為0.2(筆者想問(wèn)一句:難道這暗示網(wǎng)絡(luò)越大,初始學(xué)習(xí)率應(yīng)該越大述呐,有這個(gè)規(guī)律惩淳?),批量大小256市埋,權(quán)重衰減1e-5黎泣。使用余弦學(xué)習(xí)率衰減策略。EfficientNet-B7迭代40k次缤谎,EfficientNet-L2迭代20k次抒倚。自訓(xùn)練中,EfficientNet-B7的批量大小是512坷澡,EfficientNet-L2的批量大小是256托呕。批量大小的一半給人工標(biāo)注數(shù)據(jù),一半給偽標(biāo)簽數(shù)據(jù)频敛。其它超參數(shù)和監(jiān)督訓(xùn)練一樣项郊。此外,使用0.5的硬閾值來(lái)生成偽分割標(biāo)簽斟赚,分?jǐn)?shù)小于閾值的被設(shè)為忽略標(biāo)簽着降。最后,使用多尺度推理數(shù)據(jù)增強(qiáng)(0.5拗军,0.75任洞,1,1.25发侵,1.5交掏,1.75)來(lái)計(jì)算偽標(biāo)簽分割掩膜。

4. 實(shí)驗(yàn)

4.1 數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)預(yù)訓(xùn)練的影響

本節(jié)擴(kuò)展了何愷明的發(fā)現(xiàn)[1]刃鳄,他研究了使用不同數(shù)量的COCO有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的缺陷盅弛。和他們的研究類(lèi)似,我們用ImageNet做有監(jiān)督的預(yù)訓(xùn)練叔锐,并改變COCO有標(biāo)簽數(shù)據(jù)的規(guī)模挪鹏。和他們的研究不同的是,我們還改變另外兩個(gè)控制變量:數(shù)據(jù)增擴(kuò)的強(qiáng)度和預(yù)訓(xùn)練模型的質(zhì)量(詳細(xì)介紹見(jiàn)3.1節(jié))愉烙。如上所述狰住,我們的網(wǎng)絡(luò)以EfficientNet-B7為主干,以RetinaNet為檢測(cè)頭齿梁。以下是我們的主要發(fā)現(xiàn):

當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度很強(qiáng)時(shí),預(yù)訓(xùn)練是有害的。????我們分析當(dāng)數(shù)據(jù)增擴(kuò)的強(qiáng)度不同時(shí)預(yù)訓(xùn)練的影響勺择。如圖1左圖所示创南,當(dāng)我們使用標(biāo)準(zhǔn)的數(shù)據(jù)增擴(kuò)(Augment-S1)時(shí),預(yù)訓(xùn)練是有益的省核。但是當(dāng)我們加大數(shù)據(jù)增擴(kuò)的強(qiáng)度時(shí)稿辙,預(yù)訓(xùn)練的價(jià)值會(huì)消失。更進(jìn)一步的气忠,當(dāng)把數(shù)據(jù)增擴(kuò)的強(qiáng)度加到更大時(shí)邻储,預(yù)訓(xùn)練實(shí)際上是大大地?fù)p害了性能(-1.0AP)。這一結(jié)果何愷明[1]沒(méi)有發(fā)現(xiàn)旧噪,在他們的實(shí)驗(yàn)中吨娜,預(yù)訓(xùn)練只是有些輕微的損害(-0.4AP)或者是無(wú)益無(wú)害的。

圖1 在右圖中所有模型使用Augment-S4淘钟。其它增擴(kuò)策略下的類(lèi)似結(jié)果見(jiàn)附錄C

使用更多的有標(biāo)簽數(shù)據(jù)宦赠,預(yù)訓(xùn)練的價(jià)值會(huì)消失。? ? 接著米母,我們分析使用不同規(guī)模的有標(biāo)簽數(shù)據(jù)時(shí)預(yù)訓(xùn)練的影響勾扭。如圖1右圖所示,在有標(biāo)簽數(shù)據(jù)規(guī)模刑鳌(20%妙色,low-data regimes)時(shí),預(yù)訓(xùn)練是有益的慧耍;在有標(biāo)簽數(shù)據(jù)規(guī)模大時(shí)身辨,預(yù)訓(xùn)練是有害的或者無(wú)益無(wú)害的。這一發(fā)現(xiàn)與何愷明的發(fā)現(xiàn)[1]基本一致蜂绎。這里一個(gè)新發(fā)現(xiàn)是栅表,當(dāng)使用小規(guī)模有標(biāo)簽數(shù)據(jù)時(shí),checkpoint質(zhì)量和最終性能相關(guān):在使用20%COCO有標(biāo)簽數(shù)據(jù)時(shí)师枣,ImageNet++預(yù)訓(xùn)練模型表現(xiàn)最佳怪瓶。

4.2?數(shù)據(jù)增擴(kuò)和有標(biāo)簽數(shù)據(jù)數(shù)量對(duì)自訓(xùn)練的影響

本節(jié)分析自訓(xùn)練,并與上一節(jié)結(jié)果對(duì)比践美。為了公平比較洗贰,我們繼續(xù)將COCO物體檢測(cè)作為任務(wù),ImageNet作為用以自訓(xùn)練的額外數(shù)據(jù)陨倡。和預(yù)訓(xùn)練不同敛滋,自訓(xùn)練不使用ImageNet的圖像標(biāo)簽。網(wǎng)絡(luò)同樣是以EfficientNet-B7為主干兴革,以RetinaNet為檢測(cè)頭绎晃。以下是主要發(fā)現(xiàn):

在有標(biāo)簽數(shù)據(jù)規(guī)模大蜜唾、數(shù)據(jù)增擴(kuò)強(qiáng)度很強(qiáng)時(shí),即使預(yù)訓(xùn)練會(huì)有害庶艾,自訓(xùn)練仍是有益的袁余。????和上一節(jié)類(lèi)似,我們首先分析當(dāng)使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)檢測(cè)網(wǎng)絡(luò)的性能咱揍。表2所示是在4種強(qiáng)度的數(shù)據(jù)增擴(kuò)下自訓(xùn)練的性能颖榜,并與監(jiān)督學(xué)習(xí)(Rand Init)和預(yù)訓(xùn)練(ImageNet Init)行對(duì)比。表中還標(biāo)上了自訓(xùn)練和預(yù)訓(xùn)練相對(duì)于基線的性能提升或下降煤裙。結(jié)果表明掩完,當(dāng)預(yù)訓(xùn)練有害的時(shí)候(強(qiáng)的數(shù)據(jù)增擴(kuò):Augment-S2,Augment-S3硼砰,Augment-S4)且蓬,自訓(xùn)練有顯著的提升作用。當(dāng)預(yù)訓(xùn)練導(dǎo)致性能下降1.0AP的時(shí)候夺刑,自訓(xùn)練帶來(lái)性能超過(guò)1.3AP的提升缅疟。在ResNet-101上也得到了類(lèi)似的結(jié)果(見(jiàn)附錄D)。

表2 所有的模型是用全部的COCO數(shù)據(jù)訓(xùn)練的

無(wú)論有標(biāo)簽規(guī)模是大是小遍愿,自訓(xùn)練都能起作用存淫,是對(duì)預(yù)訓(xùn)練的補(bǔ)充。????接著我們改變使用的COCO有標(biāo)簽數(shù)據(jù)的規(guī)模沼填,分析自訓(xùn)練的性能桅咆。從表3可以看出,無(wú)論使用何種預(yù)訓(xùn)練或者不使用預(yù)訓(xùn)練模型做初始化坞笙,無(wú)論有標(biāo)簽數(shù)據(jù)集規(guī)模是大是小岩饼,自訓(xùn)練都能帶來(lái)提升作用。最重要的是薛夜,當(dāng)使用全部的COCO有標(biāo)簽數(shù)據(jù)時(shí)籍茧,預(yù)訓(xùn)練會(huì)有害,而自訓(xùn)練卻給所有模型帶來(lái)提升梯澜。

表3 無(wú)論有標(biāo)簽數(shù)據(jù)規(guī)模大小寞冯,無(wú)論是否使用預(yù)訓(xùn)練及預(yù)訓(xùn)練質(zhì)量如何,自訓(xùn)練都帶來(lái)提升晚伙。所有的模型使用Augment-S4吮龄。

在只使用20%的COCO數(shù)據(jù)時(shí),也就是有標(biāo)簽數(shù)據(jù)規(guī)模小時(shí)咆疗,在Rand Init初始化模型的基線上漓帚,自訓(xùn)練帶來(lái)的提升是最大的:3.4AP。這個(gè)提升甚至比ImageNet Init帶來(lái)的提升要大(+2.6AP)午磁。盡管自訓(xùn)練的提升作用小于 ImageNet++的提升作用尝抖,不過(guò)要考慮到ImageNet++使用了300M張額外的無(wú)標(biāo)簽圖像毡们。

即使預(yù)訓(xùn)練使用的額外數(shù)據(jù)和自訓(xùn)練使用的額外數(shù)據(jù)是同一個(gè)數(shù)據(jù)集時(shí),自訓(xùn)練還是能夠在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步帶來(lái)提升牵署。例如漏隐,當(dāng)使用20%的COCO數(shù)據(jù)時(shí),使用ImageNet預(yù)訓(xùn)練會(huì)帶來(lái)2.6AP的提升奴迅,而使用ImageNet預(yù)訓(xùn)練和ImageNet自訓(xùn)練會(huì)帶來(lái)進(jìn)一步的2.7AP的提升。在各種規(guī)模有標(biāo)簽數(shù)據(jù)的實(shí)驗(yàn)中挺据,都可看到組合使用預(yù)訓(xùn)練和自訓(xùn)練帶來(lái)的額外提升取具。

4.3 在有標(biāo)簽數(shù)據(jù)規(guī)模大、使用高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)扁耐,當(dāng)自訓(xùn)練有益的時(shí)候暇检,自監(jiān)督預(yù)訓(xùn)練也是有害的。

上上節(jié)實(shí)驗(yàn)表明婉称,在有標(biāo)簽數(shù)據(jù)規(guī)模大块仆、數(shù)據(jù)增擴(kuò)強(qiáng)度高的情況下,ImageNet預(yù)訓(xùn)練會(huì)降低性能王暗。在這種情況下悔据,我們研究了另一種流行的預(yù)訓(xùn)練方法:自監(jiān)督學(xué)習(xí)。

自監(jiān)督學(xué)習(xí)俗壹、無(wú)標(biāo)簽預(yù)訓(xùn)練的初衷是建立可遷移到更廣泛任務(wù)和數(shù)據(jù)集的通用表示科汗。既然在ImageNet上的有監(jiān)督預(yù)訓(xùn)練會(huì)損害在COCO上的性能,那么自然地就會(huì)考慮不使用標(biāo)簽信息的自監(jiān)督學(xué)習(xí)會(huì)不會(huì)帶來(lái)潛在的好處绷雏。本節(jié)會(huì)重點(diǎn)關(guān)注使用全部的COCO數(shù)據(jù)头滔,以及最高強(qiáng)度的數(shù)據(jù)增擴(kuò)(Augment-S4)的情況。目的是將隨機(jī)初始化和用最先進(jìn)的自監(jiān)督學(xué)習(xí)算法預(yù)訓(xùn)練的模型做比較涎显。因此坤检,我們選擇在ImageNet數(shù)據(jù)上用SimCLR框架[13]預(yù)訓(xùn)練的checkpoint。在使用這個(gè)checkpoint之前期吓,會(huì)用ImageNet的標(biāo)簽對(duì)其進(jìn)行微調(diào)早歇。所有的主干都是ResNet50,因?yàn)樵赟imCLR的工作中是用的ResNets膘婶。

表4的結(jié)果表明缺前,在COCO數(shù)據(jù)集上,自監(jiān)督預(yù)訓(xùn)練模型會(huì)帶來(lái)和有監(jiān)督預(yù)訓(xùn)練模型同樣的損害悬襟。兩個(gè)預(yù)訓(xùn)練模型在隨機(jī)初始化的基線上性能都下降0.7AP衅码。我們?cè)僖淮慰吹剑?dāng)兩個(gè)預(yù)訓(xùn)練模型都有害時(shí)脊岳,自訓(xùn)練仍有益逝段,提升了0.8AP垛玻。盡管自監(jiān)督預(yù)訓(xùn)練和自訓(xùn)練都沒(méi)有使用額外數(shù)據(jù)的標(biāo)簽,但是自訓(xùn)練在使用無(wú)標(biāo)簽ImageNet數(shù)據(jù)來(lái)幫助COCO時(shí)更有效奶躯。

表4 使用全部COCO數(shù)據(jù)帚桩,Augment-S4

4.4 探索自訓(xùn)練和預(yù)訓(xùn)練的局限

本節(jié)將結(jié)合我們關(guān)于數(shù)據(jù)增擴(kuò)、自訓(xùn)練和預(yù)訓(xùn)練的相互作用的認(rèn)識(shí)嘹黔,以改進(jìn)最先進(jìn)技術(shù)账嚎。以下是我們的主要成果:

COCO物體檢測(cè)????在本實(shí)驗(yàn)中,我們將使用自訓(xùn)練和Augment-S3儡蔓。先前的實(shí)驗(yàn)表明郭蕉,當(dāng)使用全部的COCO數(shù)據(jù)時(shí),ImageNet預(yù)訓(xùn)練會(huì)損害性能喂江,所以我們就不使用ImageNet預(yù)訓(xùn)練召锈。雖然在對(duì)照實(shí)驗(yàn)中我們用的是EfficientNet和ResNet作為主干,但是在本實(shí)驗(yàn)中我們用SpineNet[15]获询,因?yàn)樗咏钕冗M(jìn)水平涨岁。我們使用OpenImages數(shù)據(jù)集(OID)[54]作為自訓(xùn)練的無(wú)標(biāo)簽額外數(shù)據(jù),因?yàn)槲覀儼l(fā)現(xiàn)這比使用ImageNet數(shù)據(jù)效果會(huì)更好(有關(guān)數(shù)據(jù)源對(duì)自訓(xùn)練的影響的更多信息吉嚣,請(qǐng)參閱附錄E)梢薪。請(qǐng)注意,[41]報(bào)告了在OID預(yù)訓(xùn)練對(duì)COCO是無(wú)益的瓦戚。

表5是我們的最大的兩個(gè)SpineNet模型的結(jié)果沮尿,并且和先前的最先進(jìn)單個(gè)模型、單個(gè)圖像尺度的結(jié)果進(jìn)行對(duì)比较解。對(duì)于最大的SpineNet網(wǎng)絡(luò)(SpineNet-190 (1280))畜疾,我們將最好的SpineNet模型(52.8AP)提升了1.5AP,達(dá)到54.3AP印衔。對(duì)于不同的模型啡捶,我們都有至少1.5AP的提升。

表5 和COCO物體檢測(cè)上最強(qiáng)模型對(duì)比奸焙。自訓(xùn)練用的是OpenImages數(shù)據(jù)瞎暑。括號(hào)里的是訓(xùn)練階段圖像尺寸。

PASCAL VOC語(yǔ)義分割? ? 本實(shí)驗(yàn)中我們使用NAS-FPN作為框架与帆,使用EfficientNet-B7[51]和EfficientNet-L2[10]作為主干了赌。因?yàn)镻ASCAL的數(shù)據(jù)規(guī)模很小,預(yù)訓(xùn)練在這里仍是很有益的玄糟,因此勿她,在本實(shí)驗(yàn)中,我們組合使用預(yù)訓(xùn)練阵翎、自訓(xùn)練和高強(qiáng)度的數(shù)據(jù)增擴(kuò)逢并。使用ImageNet++預(yù)訓(xùn)練模型來(lái)初始化EfficientNet主干之剧。使用Augment-S4數(shù)據(jù)增擴(kuò)。使用PASCAL補(bǔ)充集[16]作為自訓(xùn)練使用的額外數(shù)據(jù)砍聊,因?yàn)槲覀儼l(fā)現(xiàn)在自訓(xùn)練中用PASCAL補(bǔ)充集比使用ImageNet更有益背稼。

表6顯示,我們的方法在很大程度上改進(jìn)了現(xiàn)有的技術(shù)玻蝌。在PASCAL VOC 2012測(cè)試集中蟹肘,我們使用單尺度推理實(shí)現(xiàn)了90.5%的mIOU,優(yōu)于采用多尺度推理的舊的最先進(jìn)的89%mIOU俯树。我們發(fā)現(xiàn)在PASCAL數(shù)據(jù)集上使用高質(zhì)量的預(yù)訓(xùn)練checkpoint是很關(guān)鍵的疆前,不用的話(huà)我們只能取得41.5%mIoU。有趣的是聘萨,我們比先前的最先進(jìn)模型提升了1.5%mIoU,即使我們訓(xùn)練的人工標(biāo)注數(shù)據(jù)比先前最先進(jìn)模型要少得多童太。我們用的人工標(biāo)注數(shù)據(jù)有:ImageNet(1.2M張圖片)米辐、PASCAL訓(xùn)練集(1.5k張圖片)。而先前最先進(jìn)模型用的人工標(biāo)注數(shù)據(jù)除了這些還有:JFT(300M張圖片)书释、COCO(120k張圖像)和PASCAL補(bǔ)充集(9k張圖片)翘贮。偽標(biāo)簽圖片的可視化見(jiàn)附錄F。

表6 在 PASCAL VOC 2012驗(yàn)證/測(cè)試集上和最先進(jìn)模型對(duì)比爆惧。 ?符號(hào)表示在推理時(shí)使用多尺度/翻轉(zhuǎn)的測(cè)試數(shù)據(jù)增強(qiáng)狸页。??符號(hào)表示對(duì)train+val模型微調(diào)訓(xùn)練,并且使用[18]的硬類(lèi)復(fù)制扯再。EfficientNet模型(Eff)在驗(yàn)證集上推理的模型是在train set上訓(xùn)練的芍耘,在測(cè)試集推理的模型是在train+val set上訓(xùn)練的。

(筆者插句嘴:41.5%mIoU是作者打錯(cuò)字了還是說(shuō)大的網(wǎng)絡(luò)EfficientL2在小規(guī)模數(shù)據(jù)集PASCAL-train上過(guò)擬合熄阻?另外作者在上文中說(shuō)自訓(xùn)練中用到PASCAL補(bǔ)充集斋竞,而在剛剛沒(méi)有提到,應(yīng)該是指秃殉,在作者的方法里坝初,使用PASCAL補(bǔ)充集是作為無(wú)標(biāo)簽數(shù)據(jù),而先前最先進(jìn)模型用到了PASCAL補(bǔ)充集的標(biāo)簽钾军。)

5 討論

重新思考預(yù)訓(xùn)練和通用特征表示鳄袍。????計(jì)算機(jī)視覺(jué)最宏偉的目標(biāo)之一是開(kāi)發(fā)能夠解決許多任務(wù)的通用特征表示。

我們的實(shí)驗(yàn)揭示了吏恭,從分類(lèi)任務(wù)和自監(jiān)督任務(wù)中學(xué)習(xí)到的通用表示是有局限性的拗小,預(yù)訓(xùn)練和自訓(xùn)練的性能上的差異證明了這一點(diǎn)。我們對(duì)預(yù)訓(xùn)練表現(xiàn)較差的直觀解釋是砸泛,預(yù)訓(xùn)練并沒(méi)有感知到感興趣任務(wù)(the task of interest十籍,目標(biāo)任務(wù)蛆封,最終任務(wù)),導(dǎo)致適應(yīng)(adaption)的失敗勾栗。在切換任務(wù)時(shí)常需要這樣的適應(yīng)惨篱,因?yàn)椋缥Х贗mageNet上表現(xiàn)好的特征可能會(huì)丟棄COCO所需的位置信息砸讳。

我們認(rèn)為,將自訓(xùn)練的目標(biāo)與監(jiān)督學(xué)習(xí)相結(jié)合的聯(lián)合訓(xùn)練能更好地適應(yīng)感興趣任務(wù)界牡。我們覺(jué)得這可能是自訓(xùn)練普遍有益的原因簿寂。

聯(lián)合訓(xùn)練的益處? ? 自訓(xùn)練范式的一個(gè)優(yōu)點(diǎn)是它聯(lián)合訓(xùn)練監(jiān)督和自訓(xùn)練的目標(biāo),從而解決兩者間的不匹配問(wèn)題宿亡。不過(guò)我們也許可以聯(lián)合訓(xùn)練ImageNet和COCO常遂,看是否能同樣解決這個(gè)不匹配問(wèn)題?表7是聯(lián)合訓(xùn)練的結(jié)果挽荠,這里將ImageNet分類(lèi)和COCO檢測(cè)聯(lián)合訓(xùn)練克胳,在本實(shí)驗(yàn)里還使用了額外的設(shè)置就是自訓(xùn)練。結(jié)果表明圈匆,使用ImageNet會(huì)帶來(lái)2.6AP的提升漠另,但是使用隨機(jī)初始化和聯(lián)合訓(xùn)練會(huì)帶來(lái)更大的提升(2.9AP)。這個(gè)提升是在ImageNet數(shù)據(jù)集上訓(xùn)練19個(gè)epoch得來(lái)的跃赚。而大多數(shù)用于微調(diào)的ImageNet模型需要更長(zhǎng)的訓(xùn)練笆搓。例如,ImageNet Init(監(jiān)督預(yù)訓(xùn)練模型)需要在ImageNet數(shù)據(jù)集中訓(xùn)練350個(gè)epoch纬傲。

表7 所有模型使用ImageNet作為額外數(shù)據(jù)满败。所有模型使用20%的COCO數(shù)據(jù),使用Augment-S4嘹锁。

此外葫录,使用同一個(gè)ImageNet數(shù)據(jù)源(在表的最后一列),預(yù)訓(xùn)練领猾、聯(lián)合訓(xùn)練和自訓(xùn)練是互相補(bǔ)充的米同。ImageNet預(yù)訓(xùn)練帶來(lái)2.6AP的提升,預(yù)訓(xùn)練+聯(lián)合訓(xùn)練帶來(lái)進(jìn)一步的0.7AP的提升摔竿,預(yù)訓(xùn)練+聯(lián)合訓(xùn)練+自訓(xùn)練相比只預(yù)訓(xùn)練有3.3AP的提升面粮。

任務(wù)匹配的重要性? ? 我們實(shí)驗(yàn)中的一個(gè)有趣結(jié)果是,即使使用人工標(biāo)注的預(yù)訓(xùn)練继低,表現(xiàn)得也比自訓(xùn)練要差熬苍。同樣,我們?cè)赑ASCAL數(shù)據(jù)集上驗(yàn)證了同樣的現(xiàn)象。在PASCAL數(shù)據(jù)集上柴底,補(bǔ)充集(aug set)常被作為一個(gè)附加的數(shù)據(jù)集婿脸,它的標(biāo)簽要比訓(xùn)練集的噪聲大得多。我們實(shí)驗(yàn)表明柄驻,在高強(qiáng)度數(shù)據(jù)增強(qiáng)(Augment-S4)的情況下狐树,使用訓(xùn)練集+補(bǔ)充集進(jìn)行訓(xùn)練會(huì)降低準(zhǔn)確度。而與此同時(shí)鸿脓,在同一個(gè)補(bǔ)充集上通過(guò)自訓(xùn)練生成偽標(biāo)簽會(huì)顯著提高準(zhǔn)確度抑钟。這連個(gè)結(jié)果表明,有噪聲的標(biāo)簽(PASCAL)與不針對(duì)目標(biāo)任務(wù)的標(biāo)簽(ImageNet)都比針對(duì)目標(biāo)任務(wù)的偽標(biāo)簽要差野哭。

表8

值得一提的是在塔,[41]報(bào)告了在OpenImages上的預(yù)訓(xùn)練會(huì)損害在COCO上的性能,盡管OpenImages和COCO都是用的邊界框標(biāo)注拨黔。這意味著蛔溃,如果要預(yù)訓(xùn)練有益,我們不僅僅希望預(yù)訓(xùn)練任務(wù)和最終目標(biāo)任務(wù)是相同的(筆者:這里任務(wù)是指篱蝇,分類(lèi)城榛、分割、檢測(cè)等)态兴,我們還希望標(biāo)注也是相同的。另一方面疟位,自訓(xùn)練是非常通用的瞻润,在附錄E里,自訓(xùn)練可以很成功地使用OpenImages來(lái)提升COCO性能甜刻。這一結(jié)果表明自訓(xùn)練可以很好地匹配感興趣任務(wù)绍撞。

局限性。????目前的自訓(xùn)練技術(shù)仍存在局限性得院。特別的傻铣,自訓(xùn)練相比對(duì)預(yù)訓(xùn)練模型微調(diào),需要更多的計(jì)算祥绞。預(yù)訓(xùn)練模型可以使模型訓(xùn)練加快1.3倍到8倍非洲,倍數(shù)因預(yù)訓(xùn)練模型質(zhì)量、數(shù)據(jù)增擴(kuò)強(qiáng)度和數(shù)據(jù)集規(guī)模而異蜕径。當(dāng)數(shù)據(jù)集規(guī)模很小時(shí)两踏,例如PASCAL分割,是需要好的預(yù)訓(xùn)練模型的兜喻。

自訓(xùn)練的可擴(kuò)展性梦染、通用性和靈活性。????我們的實(shí)驗(yàn)結(jié)果突出了自訓(xùn)練的顯著優(yōu)勢(shì)。首先帕识,在靈活性上泛粹,在每一種設(shè)置中,自訓(xùn)練都是成功的:數(shù)據(jù)集規(guī)模小肮疗、數(shù)據(jù)集規(guī)模大晶姊、低強(qiáng)度數(shù)據(jù)增擴(kuò)、高強(qiáng)度數(shù)據(jù)增擴(kuò)族吻。自訓(xùn)練對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)(ResNet帽借、EfficientNet、SpineNet超歌、FPN砍艾、NAS-FPN)、數(shù)據(jù)源(ImageNet巍举、OID脆荷、PASCAL、COCO)和任務(wù)(物體檢測(cè)懊悯、分割)都是有效的蜓谋。第二,在普遍性上(筆者:generality炭分,看來(lái)前面譯成泛化性或通用性都是錯(cuò)的)桃焕,無(wú)論預(yù)訓(xùn)練是成功還是失敗,自訓(xùn)練總是成功的捧毛。第三观堂,在可擴(kuò)展性方面,即使我們有很多的帶標(biāo)簽數(shù)據(jù)呀忧,有很強(qiáng)的模型师痕,自訓(xùn)練仍能帶來(lái)提升。機(jī)器學(xué)習(xí)方法的一個(gè)慘痛教訓(xùn)是而账,當(dāng)我們有更多的帶標(biāo)簽數(shù)據(jù)胰坟、更多的計(jì)算或者更好的監(jiān)督訓(xùn)練配方(recipes)時(shí),大多數(shù)方法會(huì)失效(失去價(jià)值)泞辐,但是自訓(xùn)練不會(huì)笔横。

附錄A:其他相關(guān)工作

自訓(xùn)練與偽標(biāo)簽方法[60-63]、一致性訓(xùn)練(consistency training)[64-82]相關(guān)咐吼。這些工作和我們的工作有很多不同之處狠裹。首先,自訓(xùn)練不用于一致性訓(xùn)練汽烦,自訓(xùn)練有2個(gè)模型涛菠,教師模型和學(xué)生模型,而一致性訓(xùn)練只有1個(gè)模型。其次俗冻,先前的工作都是關(guān)注圖像分類(lèi)礁叔,而我們的工作主要是研究物體檢測(cè)和分割。最后迄薄,先前的工作沒(méi)有研究在現(xiàn)代數(shù)據(jù)增擴(kuò)下自訓(xùn)練和預(yù)訓(xùn)練間的交互作用琅关。

附錄B:損失歸一化分析(Loss Normalization Analysis)

我們發(fā)現(xiàn)標(biāo)準(zhǔn)的自訓(xùn)練損失\hat{L} =L_{h} +\alpha L_{p}會(huì)導(dǎo)致訓(xùn)練得非常不穩(wěn)定,這是由于總的損失隨著\alpha 的變化而急劇變化讥蔽。(筆者:換句話(huà)說(shuō)涣易,損失函數(shù)對(duì)這個(gè)超參數(shù)太敏感。)因此我們?cè)O(shè)計(jì)了一種損失歸一化方法冶伞,使\alpha 變化時(shí)自訓(xùn)練過(guò)程穩(wěn)定:

\hat{L} ={\frac{1}{1+\alpha } }(L_{h} +\alpha \frac{\vec{L_{h}}  }{\vec{L_{p}}  } L_{p})

其中新症,L_{h}是人工標(biāo)注數(shù)據(jù)的損失,L_{p}是偽標(biāo)簽數(shù)據(jù)的損失响禽,\vec{L_{h}} 是人工標(biāo)注數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均徒爹,\vec{L_{p}} 是偽標(biāo)簽數(shù)據(jù)在訓(xùn)練過(guò)程的滑動(dòng)平均。

圖2所示是當(dāng)我們改變數(shù)據(jù)增擴(kuò)的強(qiáng)度芋类、訓(xùn)練迭代次數(shù)隆嗅、學(xué)習(xí)率和\alpha 時(shí),損失歸一化的性能侯繁。這些實(shí)驗(yàn)是RetinaNet(檢測(cè)頭)+ResNet-101(主干)在COCO數(shù)據(jù)集上做物體檢測(cè)胖喳。ImageNet是自訓(xùn)練用到的額外數(shù)據(jù)≈梗可以看到禀晓,在各種設(shè)置下,損失歸一化都表現(xiàn)得更好坝锰,而且,更重要的是重付,當(dāng)\alpha 設(shè)置為一個(gè)比較大的值時(shí)顷级,損失歸一化能夠避免訓(xùn)練的不穩(wěn)定。

圖2? ×表示訓(xùn)練的時(shí)候出現(xiàn)NaNs确垫,導(dǎo)致未能完成訓(xùn)練

在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)弓颈、迭代次數(shù)和學(xué)習(xí)率設(shè)置中,我們發(fā)現(xiàn)删掀,損失歸一化比基線要平均高出0.4AP翔冀。而且,重要的一點(diǎn)是披泪,在我們使用最高強(qiáng)度的Augment-S4時(shí)纤子,損失歸一化比基線高出1.3AP。

最近的自訓(xùn)練工作[10,82]通常將他們所有實(shí)驗(yàn)中的參數(shù)\alpha 取值為1。在我們的很多實(shí)驗(yàn)中控硼,我們發(fā)現(xiàn)設(shè)置為1是次優(yōu)的泽论,并且最優(yōu)值會(huì)隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化。表9所示是\alpha 的最優(yōu)取值隨著迭代次數(shù)和數(shù)據(jù)增擴(kuò)強(qiáng)度的變化而變化:\alpha 的最優(yōu)取值會(huì)隨著數(shù)據(jù)增擴(kuò)強(qiáng)度增大而減锌ㄇ翼悴;\alpha 的最優(yōu)取值會(huì)隨著迭代次數(shù)的增大而增大。

表9 在每種強(qiáng)度的數(shù)據(jù)增擴(kuò)和迭代次數(shù)的設(shè)置下幔妨,alpha的實(shí)驗(yàn)設(shè)置為:0.25鹦赎、0.5、1.0误堡、2.0古话、3.0、4.0

C 關(guān)于數(shù)據(jù)增擴(kuò)埂伦、有監(jiān)督數(shù)據(jù)集規(guī)模和預(yù)訓(xùn)練模型質(zhì)量的進(jìn)一步研究

我們?cè)谇懊?.1節(jié)的分析基礎(chǔ)上進(jìn)行了擴(kuò)展煞额,并展示了使用不同規(guī)模的COCO標(biāo)簽數(shù)據(jù)、使用不同強(qiáng)度的數(shù)據(jù)增擴(kuò)是如何與預(yù)訓(xùn)練模型質(zhì)量相互作用的沾谜。圖3所示是這些控制變量的相互作用膊毁。我們?cè)俅斡^察到這3點(diǎn)現(xiàn)象:1)高強(qiáng)度的數(shù)據(jù)增擴(kuò)會(huì)降低預(yù)訓(xùn)練的價(jià)值;2)當(dāng)使用更高強(qiáng)度的數(shù)據(jù)增擴(kuò)時(shí)基跑,預(yù)訓(xùn)練反而有害婚温;3)使用更多的有標(biāo)簽數(shù)據(jù)會(huì)降低預(yù)訓(xùn)練的價(jià)值。在所有的設(shè)置中媳否,我們還發(fā)現(xiàn)栅螟,更好質(zhì)量的預(yù)訓(xùn)練模型?ImageNet++ checkpoint,總是要比ImageNet checkpoint表現(xiàn)得更好篱竭。有趣的是力图,在所有4種強(qiáng)度的數(shù)據(jù)增擴(kuò)里的3種,當(dāng)預(yù)訓(xùn)練有損害的時(shí)候掺逼,預(yù)訓(xùn)練模型的質(zhì)量越好吃媒,損害程度就越小。

圖3

我們研究了預(yù)訓(xùn)練checkpoint質(zhì)量和數(shù)據(jù)增擴(kuò)強(qiáng)度對(duì)很小規(guī)模數(shù)據(jù)集吕喘,也就是PASCAL VOC 2012的影響赘那。表10的結(jié)果表明,對(duì)于只有1.5k張圖像的PASCAL訓(xùn)練集氯质,預(yù)訓(xùn)練質(zhì)量是非常重要的募舟,并且會(huì)顯著提升性能。我們觀察到闻察,隨著數(shù)據(jù)增擴(kuò)的強(qiáng)度的增加拱礁,checkpoint質(zhì)量帶來(lái)的性能提升會(huì)下降琢锋。此外,ImageNet checkpoint的性能再一次與PASCAL VOC上的性能相關(guān)觅彰。

表10

D 在COCO數(shù)據(jù)集上ResNet101的自訓(xùn)練表現(xiàn)

本文中在COCO上的實(shí)驗(yàn)是以RetinaNet為框架吩蔑、以EfficientNet-B7和SpineNet為主干的。自訓(xùn)練也能很好地用于其它的主干填抬,比如ResNet-101[83]烛芬。結(jié)果如表11所示。再一次飒责,自訓(xùn)練在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置上都帶來(lái)很大的提升赘娄。

表11 監(jiān)督模型使用的是ResNet101,圖像尺寸640×640宏蛉,訓(xùn)練規(guī)程按照[14]遣臼。ImageNet是自訓(xùn)練的額外數(shù)據(jù)源。

E 自訓(xùn)練中無(wú)標(biāo)簽數(shù)據(jù)源的影響

最近實(shí)驗(yàn)提出的一個(gè)重要問(wèn)題是拾并,改變額外數(shù)據(jù)源會(huì)如何影響到自訓(xùn)練性能揍堰。在我們的分析中,我們用的是ImageNet嗅义,這是個(gè)圖像分類(lèi)數(shù)據(jù)集屏歹,包含的主要是iconic圖像(iconic,圖符之碗、肖像等含義蝙眶,此處應(yīng)該是指一張圖像中會(huì)有個(gè)“主角”物體占在圖像的主要位置)。其圖像內(nèi)容和COCO褪那、PASCAL和Open Images非常不同幽纷,后三者包含更多的是non-iconic圖像。Iconic圖像通常只有一個(gè)以concial視角的物體博敬,而non-iconic圖像會(huì)通過(guò)自然視角捕獲場(chǎng)景中的多個(gè)物體[52]友浸。表12研究了將額外數(shù)據(jù)從ImageNet改為 Open Images[54]會(huì)如何影響自訓(xùn)練的性能∑眩可以看到收恢,在不同強(qiáng)度的數(shù)據(jù)增擴(kuò)強(qiáng)度下,在COCO物體檢測(cè)中囚枪,將自訓(xùn)練的額外數(shù)據(jù)從ImageNet改為?Open Images最多可以帶來(lái)0.6AP的提升。有趣的是劳淆,在[41]中链沼,在Open Images上預(yù)訓(xùn)練不能幫助COCO檢測(cè),但我們確實(shí)看到用Open Images自訓(xùn)練能帶來(lái)比ImageNet更多的提升沛鸵。

表12 所有模型使用EfficientNet-B7 主干,隨機(jī)初始化荔烧。

我們還研究了更改額外數(shù)據(jù)集源對(duì)PASCAL VOC 2012的影響恨溜。在表13中,我們觀察到將額外數(shù)據(jù)源從ImageNet更改為COCO可以提高在所有強(qiáng)度的數(shù)據(jù)增擴(kuò)設(shè)置下的性能奈辰。表現(xiàn)最佳的自訓(xùn)練額外數(shù)據(jù)源是PASCAL的補(bǔ)充集,其是PASCAL任務(wù)的域內(nèi)任務(wù)乱豆。PASCAL的補(bǔ)充集只有9k張圖像奖恰,但是比具有240k張圖像的COCO數(shù)據(jù)集帶來(lái)更多的提升。

表13 所有模型使用EfficientNet-B7主干宛裕,使用 ImageNet++預(yù)訓(xùn)練初始化瑟啃。

F 自訓(xùn)練中偽標(biāo)簽的展示

PASCAL VOC數(shù)據(jù)集:????原始的PASCAL VOC 2012數(shù)據(jù)集的訓(xùn)練集包含1464張帶標(biāo)簽的數(shù)據(jù)。[16]提供了額外的標(biāo)注圖像揩尸,使得訓(xùn)練集+補(bǔ)充集(train+aug)總共有10582張圖像蛹屿。很多先前的工作是用train+aug來(lái)訓(xùn)練。然而岩榆,我們發(fā)現(xiàn)错负,使用補(bǔ)充集進(jìn)行高強(qiáng)度的數(shù)據(jù)增擴(kuò)實(shí)際上會(huì)損害性能(見(jiàn)表8)。圖4是一些在補(bǔ)充集上選擇的圖片勇边,我們發(fā)現(xiàn)補(bǔ)充集的標(biāo)注質(zhì)量要比訓(xùn)練集低犹撒。例如,有些圖像的標(biāo)注沒(méi)有涵蓋圖像中所有物體粥诫,或者分割掩膜不夠精細(xì)油航。圖4的第3列是我們的教師模型生成的偽標(biāo)簽,從中可以看出怀浆,偽標(biāo)簽的分割掩膜更精確谊囚。實(shí)驗(yàn)證明,使用帶有偽標(biāo)簽的補(bǔ)充集比使用人工標(biāo)注的補(bǔ)充集能帶來(lái)更多的提升(見(jiàn)表8)执赡。

圖4 在PASCAL補(bǔ)充集上選擇的一些偽標(biāo)簽比人工標(biāo)簽[16]更好的圖片

ImageNet數(shù)據(jù)集:? ? 圖5所示是教師模型在ImageNet中隨機(jī)選擇的14張圖像上生成的分割偽標(biāo)簽镰踏。有趣的是,ImageNet上的有些類(lèi)別不被包含在PASCAL VOC 2012的20類(lèi)別中沙合,也被預(yù)測(cè)為PASCAL VOC 2012的20類(lèi)別之一奠伪。例如,鋸和蜥蜴被預(yù)測(cè)為鳥(niǎo)首懈。盡管偽標(biāo)簽有很多噪聲绊率,但它們?nèi)匀惶岣吡藢W(xué)生模型的準(zhǔn)確性(表13)。

圖5 在ImageNet上隨機(jī)選擇的一些圖片的分割偽標(biāo)簽
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末究履,一起剝皮案震驚了整個(gè)濱河市滤否,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌最仑,老刑警劉巖藐俺,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炊甲,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡欲芹,警方通過(guò)查閱死者的電腦和手機(jī)卿啡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)菱父,“玉大人颈娜,你說(shuō)我怎么就攤上這事≈臀埃” “怎么了揭鳞?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)梆奈。 經(jīng)常有香客問(wèn)我野崇,道長(zhǎng),這世上最難降的妖魔是什么亩钟? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任乓梨,我火速辦了婚禮,結(jié)果婚禮上清酥,老公的妹妹穿的比我還像新娘扶镀。我一直安慰自己,他們只是感情好焰轻,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布臭觉。 她就那樣靜靜地躺著,像睡著了一般辱志。 火紅的嫁衣襯著肌膚如雪蝠筑。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,573評(píng)論 1 305
  • 那天揩懒,我揣著相機(jī)與錄音什乙,去河邊找鬼。 笑死已球,一個(gè)胖子當(dāng)著我的面吹牛臣镣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播智亮,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼忆某,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了阔蛉?” 一聲冷哼從身側(cè)響起弃舒,我...
    開(kāi)封第一講書(shū)人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎馍忽,沒(méi)想到半個(gè)月后棒坏,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡遭笋,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年坝冕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓦呼。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡喂窟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出央串,到底是詐尸還是另有隱情磨澡,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布质和,位于F島的核電站稳摄,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏饲宿。R本人自食惡果不足惜厦酬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瘫想。 院中可真熱鬧仗阅,春花似錦、人聲如沸国夜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)车吹。三九已至筹裕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間礼搁,已是汗流浹背饶碘。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留馒吴,地道東北人扎运。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像饮戳,于是被迫代替她去往敵國(guó)和親豪治。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355