Multi-Task Self-Training for Learning General Representations
ICCV2021????https://arxiv.org/abs/2108.11353
Golnaz Ghiasi,Barret Zoph,Ekin D. Cubuk,Quoc V. Le,Tsung-Yi Lin
摘要:盡管在訓(xùn)練各種任務(wù)的專用模型方面取得了快速進(jìn)展闽巩,但是學(xué)習(xí)一個(gè)適用于許多任務(wù)的通用模型對(duì)于計(jì)算機(jī)視覺來說仍然是一個(gè)挑戰(zhàn)。在這里圈纺,我們介紹了多任務(wù)自訓(xùn)練(MuST),它利用不同的多個(gè)專用教師模型(例如分類的ImageNet模型)中的知識(shí)來訓(xùn)練單個(gè)通用學(xué)生模型。我們的方法有三個(gè)步驟。首先咆畏,我們?cè)跇?biāo)記數(shù)據(jù)集上分別訓(xùn)練專用教師。然后攒砖,我們使用這些專用教師給一個(gè)無標(biāo)簽數(shù)據(jù)集打標(biāo)簽缸兔,來創(chuàng)建一個(gè)多任務(wù)偽標(biāo)簽數(shù)據(jù)集。最后吹艇,該數(shù)據(jù)集(其包含來自在不同數(shù)據(jù)集/任務(wù)上訓(xùn)練的教師模型的偽標(biāo)簽)用于訓(xùn)練多任務(wù)學(xué)習(xí)的學(xué)生模型惰蜜。我們?cè)?個(gè)視覺任務(wù)中評(píng)估學(xué)生模型的特征表示,包括圖像識(shí)別(分類受神、檢測(cè)抛猖、分割)和三維幾何估計(jì)(深度和表面法線估計(jì))。MuST在未標(biāo)記或部分標(biāo)記的數(shù)據(jù)集上具有可擴(kuò)展性鼻听,在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)财著,其性能優(yōu)于專門的監(jiān)督模型和自監(jiān)督模型。最后撑碴,我們展示了MuST能夠改進(jìn)已經(jīng)強(qiáng)大的檢查點(diǎn)checkpoints[24](ALIGN)撑教,這些檢查點(diǎn)已經(jīng)通過數(shù)十億個(gè)樣本進(jìn)行了訓(xùn)練。結(jié)果表明醉拓,自訓(xùn)練是一個(gè)很有希望的方向伟姐,可以聚合標(biāo)記和未標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)通用的特征表示。
1. 引言
視覺表征學(xué)習(xí)是計(jì)算機(jī)視覺的核心問題葛闷。有監(jiān)督和自監(jiān)督的預(yù)訓(xùn)練在將學(xué)習(xí)到的特征表示遷移到下游任務(wù)方面顯示了良好的效果。通常情況下双藕,模型使用監(jiān)督目標(biāo)[30,11]或自監(jiān)督目標(biāo)[5,17,18]進(jìn)行預(yù)訓(xùn)練淑趾。盡管監(jiān)督訓(xùn)練中的遷移學(xué)習(xí)被廣泛采用,但這些特征對(duì)于下游任務(wù)可能并不一定有用忧陪。例如扣泊,何愷明等發(fā)現(xiàn)ImageNet預(yù)訓(xùn)練無法改善COCO實(shí)例分割[19]。相比之下嘶摊,Shao等人展示了從Objects365檢測(cè)數(shù)據(jù)集中學(xué)習(xí)的特征延蟹,極大地提高了COCO實(shí)例分割[49]。使用與下游目標(biāo)任務(wù)一致的專門任務(wù)進(jìn)行預(yù)訓(xùn)練叶堆,仍然可以在目標(biāo)檢測(cè)[34,49]和語義分割[4]方面獲得最佳性能阱飘。
直觀地說,通過訓(xùn)練一個(gè)模型來同時(shí)完成多個(gè)任務(wù)虱颗,可以學(xué)習(xí)一般特征沥匈。最近在NLP方面的工作開始顯示出在學(xué)習(xí)多任務(wù)學(xué)習(xí)的通用模型方面有希望的結(jié)果[60,9]。在計(jì)算機(jī)視覺中忘渔,訓(xùn)練多任務(wù)模型的最大挑戰(zhàn)是數(shù)據(jù)收集和標(biāo)注高帖。盡管有COCO[37]等數(shù)據(jù)集,但為同一圖像數(shù)據(jù)集收集各種標(biāo)注(例如畦粮,實(shí)例分割散址、人物關(guān)鍵點(diǎn)、圖像描述)是相當(dāng)具有挑戰(zhàn)性的宣赔。由于對(duì)圖像進(jìn)行注釋非常耗時(shí)预麸,因此很難根據(jù)大量圖像和大量任務(wù)來擴(kuò)展這些工作。大規(guī)模多任務(wù)數(shù)據(jù)集的缺乏阻礙了計(jì)算機(jī)視覺多任務(wù)學(xué)習(xí)的發(fā)展儒将。
在這項(xiàng)工作中师崎,我們研究使用自訓(xùn)練來解決這個(gè)問題。我們建議使用偽標(biāo)記來實(shí)現(xiàn)大規(guī)模多任務(wù)特征學(xué)習(xí)椅棺。Zoph等人[67]觀察到犁罩,相比預(yù)訓(xùn)練,自訓(xùn)練進(jìn)一步改善了遷移學(xué)習(xí)两疚,并且自訓(xùn)練即使在預(yù)訓(xùn)練未能超過隨機(jī)初始化模型的情況下也有效床估。預(yù)訓(xùn)練和自訓(xùn)練之間的差距表明,自訓(xùn)練可以從偽標(biāo)簽中學(xué)習(xí)更好的特征诱渤。受這一觀察結(jié)果的啟發(fā)丐巫,我們首先研究是否可以只使用偽標(biāo)簽來學(xué)習(xí)好的特征。我們使用COCO或Objects365等數(shù)據(jù)集訓(xùn)練教師模型,以便在未標(biāo)記的圖像上生成偽標(biāo)簽递胧。圖2顯示了ImageNet上的偽標(biāo)簽樣本碑韵。令人驚訝的是,我們發(fā)現(xiàn)僅使用這些偽標(biāo)簽訓(xùn)練的學(xué)生模型保留了其專用教師模型的大部分遷移學(xué)習(xí)性能缎脾。這一發(fā)現(xiàn)表明祝闻,偽標(biāo)簽可以有效地提取監(jiān)督數(shù)據(jù)集中的知識(shí)。因此遗菠,我們可以使用偽標(biāo)簽將知識(shí)從多個(gè)教師模型遷移到單個(gè)學(xué)生模型联喘,以進(jìn)行表征學(xué)習(xí)。
我們提出了多任務(wù)自訓(xùn)練(MuST)來訓(xùn)練一個(gè)通用學(xué)生模型蓖谢,該模型基于從針對(duì)不同任務(wù)和數(shù)據(jù)集訓(xùn)練的教師模型中提取的信息。圖1顯示了該算法的概述譬涡。MuST有三個(gè)步驟蜈抓。首先,它在標(biāo)記數(shù)據(jù)集上分別訓(xùn)練專用教師昂儒。例如,一名教師可以接受深度預(yù)測(cè)訓(xùn)練委可,另一名教師可以接受目標(biāo)檢測(cè)訓(xùn)練渊跋。然后使用專用的教師標(biāo)記較大的未標(biāo)記數(shù)據(jù)集,以創(chuàng)建多任務(wù)偽標(biāo)記數(shù)據(jù)集着倾。例如拾酝,這些教師可以在ImageNet數(shù)據(jù)集上生成深度估計(jì)和物體檢測(cè)。最后卡者,該數(shù)據(jù)集(現(xiàn)在包含在不同數(shù)據(jù)集/任務(wù)上訓(xùn)練的教師模型的偽標(biāo)簽)用于訓(xùn)練具有多任務(wù)學(xué)習(xí)的學(xué)生模型蒿囤。因此,例如崇决,學(xué)生可以同時(shí)進(jìn)行深度預(yù)測(cè)和目標(biāo)檢測(cè)材诽。
在我們的實(shí)驗(yàn)中,我們有四個(gè)教師模型:分類恒傻、語義分割脸侥、物體框檢測(cè)和深度估計(jì)。我們基于ResNet[21]和特征金字塔網(wǎng)絡(luò)(FPN)[36]設(shè)計(jì)了一個(gè)簡(jiǎn)單的模型架構(gòu)(圖3)盈厘。ResNet FPN主干中的參數(shù)在不同任務(wù)之間共享睁枕。對(duì)于每個(gè)單獨(dú)的任務(wù),它都有一個(gè)小的特定于任務(wù)的頭部,由幾個(gè)卷積層和一個(gè)線性預(yù)測(cè)層組成外遇。我們的實(shí)驗(yàn)表明注簿,這種簡(jiǎn)單的模型架構(gòu)能夠吸收共享主干中不同任務(wù)的知識(shí)。通用學(xué)生模型與所有遷移學(xué)習(xí)任務(wù)的專用教師模型一致跳仿。
最近的自監(jiān)督算法诡渴,如SimCLR〔5〕、MOCO〔18〕表現(xiàn)出可以創(chuàng)建與其監(jiān)督對(duì)手相當(dāng)或更好的表示塔嬉。在我們的實(shí)驗(yàn)中玩徊,MuST在分割和深度估計(jì)任務(wù)上也比SimCLR[5]有很大的優(yōu)勢(shì)。我們還觀察到谨究,由SimCLR學(xué)習(xí)的表示與ImageNet(1.3M圖像)監(jiān)督學(xué)習(xí)的相當(dāng)恩袱,但在JFT(300 M圖像)上并沒有很好的擴(kuò)展。相反胶哲,MuST在ImageNet和JFT上都優(yōu)于SimCLR[5]畔塔。此外,在除圖像分類任務(wù)外的6項(xiàng)任務(wù)中鸯屿,有5項(xiàng)任務(wù)的性能MuST也優(yōu)于有監(jiān)督的JFT預(yù)訓(xùn)練澈吨。結(jié)果表明了MuST在學(xué)習(xí)一般特征表示方面的潛力,隨著未標(biāo)記數(shù)據(jù)的增多寄摆,這種能力會(huì)有所提高谅辣。
最后,我們展示了MuST可以改進(jìn)已經(jīng)很強(qiáng)的檢查點(diǎn)婶恼,如ALIGN[24]桑阶。我們使用MuST偽標(biāo)簽對(duì)ALIGN檢查點(diǎn)(這些檢查點(diǎn)以前通過數(shù)十億個(gè)有監(jiān)督樣本訓(xùn)練)進(jìn)行微調(diào),并在一系列下游任務(wù)(檢測(cè)勾邦、分割和深度估計(jì)任務(wù))上發(fā)現(xiàn)有改進(jìn)蚣录。
我們的貢獻(xiàn)總結(jié)如下:
?????我們提出了多任務(wù)自訓(xùn)練(MuST),這是一種通過偽標(biāo)簽多任務(wù)學(xué)習(xí)創(chuàng)建通用視覺表示的簡(jiǎn)單算法眷篇。
?????我們通過跨多個(gè)數(shù)據(jù)集(例如萎河,ImageNet、Objects365蕉饼、COCO虐杯、JFT)聯(lián)合訓(xùn)練來進(jìn)行實(shí)驗(yàn),以學(xué)習(xí)優(yōu)于監(jiān)督和自監(jiān)督方法學(xué)習(xí)的表示的通用特征表示昧港。
?????我們?cè)?項(xiàng)計(jì)算機(jī)視覺任務(wù)厦幅,包括圖像識(shí)別(分類、檢測(cè)慨飘、分割)和三維幾何體估計(jì)(深度和表面法線估計(jì))上進(jìn)行有監(jiān)督确憨、自監(jiān)督和MuST的對(duì)比實(shí)驗(yàn)译荞。
?????與特定于任務(wù)的最先進(jìn)模型相比,MuST可用于改進(jìn)已經(jīng)強(qiáng)大的檢查點(diǎn)休弃,并在各種任務(wù)上取得有競(jìng)爭(zhēng)力的結(jié)果吞歼。
2????相關(guān)工作
多任務(wù)學(xué)習(xí):? ? 多任務(wù)學(xué)習(xí)在深度學(xué)習(xí)中有著豐富的歷史[46]。多任務(wù)學(xué)習(xí)的一個(gè)常見策略是為不同的任務(wù)共享“主干”模型的隱藏層[2]塔猾。最近篙骡,多任務(wù)學(xué)習(xí)提高了NLP的準(zhǔn)確性[9,38]。盡管如此丈甸,Raffel等人發(fā)現(xiàn)糯俗,多任務(wù)學(xué)習(xí)的表現(xiàn)通常不如預(yù)訓(xùn)練后的微調(diào)[42](Exploring the limits of transfer learning with a unifified text-to-text transformer, JMLR, 2020)。
在視覺領(lǐng)域睦擂,Zamir等人利用室內(nèi)數(shù)據(jù)集研究了26項(xiàng)任務(wù)的遷移學(xué)習(xí)依賴性[64]得湘。我們感興趣的不是探索任務(wù)依賴關(guān)系,而是推動(dòng)一個(gè)單一的模型顿仇,該模型可以吸收所有任務(wù)的知識(shí)淘正,以學(xué)習(xí)通用表示。Kokkinos等人[29]和Xiao等人[57]通過簡(jiǎn)單地將沒有特定任務(wù)標(biāo)簽的樣本的損失歸零臼闻,跨多個(gè)數(shù)據(jù)集訓(xùn)練模型鸿吆。我們建議應(yīng)用偽標(biāo)簽,以便用所有任務(wù)對(duì)每個(gè)圖像進(jìn)行標(biāo)注述呐。Girshick等人將多任務(wù)損失用于分類和邊界框回歸惩淳,以改進(jìn)目標(biāo)檢測(cè)器的訓(xùn)練[15]。我們遵循類似的方法乓搬,使用一個(gè)大型主干模型和較小的頭部來執(zhí)行多個(gè)任務(wù)思犁。
自訓(xùn)練:? ? 自訓(xùn)練是將未標(biāo)記數(shù)據(jù)納入監(jiān)督學(xué)習(xí)的一種流行技術(shù)[62、48缤谎、45、33]褐着。該方法使用監(jiān)督模型在未標(biāo)記數(shù)據(jù)上生成偽標(biāo)簽坷澡。然后在偽標(biāo)記數(shù)據(jù)上訓(xùn)練學(xué)生模型。Yalniz等人[61]表明含蓉,在大型未標(biāo)記數(shù)據(jù)集(規(guī)模達(dá)數(shù)億)上使用偽標(biāo)簽進(jìn)行“預(yù)訓(xùn)練”的模型可以提高分類精度频敛。Noisy學(xué)生[58]通過與130M偽標(biāo)記圖像聯(lián)合訓(xùn)練,利用自訓(xùn)練在ImageNet上推動(dòng)最先進(jìn)的性能馅扣。Chen等人[3]通過自訓(xùn)練獲得了最先進(jìn)的城市景觀全景分割結(jié)果斟赚。Zoph等人[67]通過自訓(xùn)練改進(jìn)了物體檢測(cè)和語義分割的最新技術(shù)(Rethinking pre-training and self-training)。以上所有工作都集中在一項(xiàng)任務(wù)上差油。相反拗军,我們的工作重點(diǎn)是利用多任務(wù)學(xué)習(xí)的自訓(xùn)練來學(xué)習(xí)通用表征任洞。
表示學(xué)習(xí):? ? 從ImageNet預(yù)訓(xùn)練中進(jìn)行遷移學(xué)習(xí)是計(jì)算機(jī)視覺中應(yīng)用最廣泛的方法。BiT[30]和ViT[11]在JFT-300M數(shù)據(jù)集[51]上預(yù)訓(xùn)練了模型发侵,并在對(duì)下游視覺任務(wù)進(jìn)行微調(diào)時(shí)獲得了良好的性能交掏。特別是,Mahajan等人表明刃鳄,使用Instagram預(yù)訓(xùn)練的模型有利于其他分類任務(wù)盅弛,但可能會(huì)損害定位性能[39]。Li等人發(fā)現(xiàn)叔锐,OpenImagesV4預(yù)訓(xùn)練[32]在遷移到物體檢測(cè)和語義分割時(shí)優(yōu)于ImageNet預(yù)訓(xùn)練[34]挪鹏。Shao等人使用Objects365數(shù)據(jù)集展示了類似的發(fā)現(xiàn)[49]。這一發(fā)現(xiàn)表明愉烙,針對(duì)單個(gè)分類任務(wù)的有監(jiān)督預(yù)訓(xùn)練可能無法為許多下游應(yīng)用創(chuàng)建足夠通用的表示讨盒。
自監(jiān)督訓(xùn)練是一種流行的無監(jiān)督數(shù)據(jù)表示學(xué)習(xí)方法[25,5,17,18,22,53]墅垮。通過強(qiáng)制圖像表示在數(shù)據(jù)增強(qiáng)[1]下彼此一致从媚,SimCLR和MoCo訓(xùn)練的表示可用于下游分類任務(wù)[5,18]。Grill等人提出使用在線和目標(biāo)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)表示刻帚,他們對(duì)分類任務(wù)以及語義分割勺择、目標(biāo)檢測(cè)和深度估計(jì)進(jìn)行了評(píng)估[17]创南。另一方面,最近的工作證明了當(dāng)前自監(jiān)督學(xué)習(xí)方法的局限性[41]省核。他們發(fā)現(xiàn)稿辙,自監(jiān)督學(xué)習(xí)中常用的激進(jìn)的裁剪(如MoCo[18]、PIRL[40]气忠、SimCLR[5]等中使用的裁剪)會(huì)導(dǎo)致遮擋不變的表示邻储,這對(duì)下游分類任務(wù)是有效的。然而旧噪,這些表示不一定對(duì)自然圖像的其他對(duì)稱性(如視點(diǎn)不變性)保持不變吨娜,這對(duì)于其他下游任務(wù)(如語義分割)可能是必要的[41]。
3.????方法
3.1. 專用教師模型
我們想向一組教師學(xué)習(xí)淘钟,他們用偽標(biāo)簽提供豐富的訓(xùn)練信號(hào)宦赠。我們采用了四個(gè)教師模型,包括計(jì)算機(jī)視覺中的四個(gè)重要任務(wù):分類米母、檢測(cè)勾扭、分割和深度估計(jì)。這些任務(wù)需要對(duì)物體和三維幾何圖形進(jìn)行視覺理解铁瞒。偽標(biāo)簽的樣本如圖2所示妙色。我們從頭開始在中/大規(guī)模數(shù)據(jù)集(例如ImageNet[47],Objects365[49]慧耍,COCO[28])上訓(xùn)練分類身辨、檢測(cè)和分割教師模型丐谋。對(duì)于深度教師模型,我們從開源庫(kù)[44](https://github.com/intel-isl/MiDaS)下載預(yù)先訓(xùn)練的檢查點(diǎn)栅表。
偽標(biāo)簽:? ? 我們通過偽標(biāo)記將專用教師模型中的知識(shí)遷移到未標(biāo)記或部分標(biāo)記的數(shù)據(jù)集笋鄙。我們按照[67](Rethinking...)中的實(shí)踐生成用于檢測(cè)和分割的偽標(biāo)簽。對(duì)于檢測(cè)怪瓶,我們使用硬評(píng)分閾值0.5來生成偽框標(biāo)簽萧落。對(duì)于分割,我們使用硬分?jǐn)?shù)閾值0.5來生成語義分割掩碼洗贰,而預(yù)測(cè)分?jǐn)?shù)較小的像素被設(shè)置為忽略標(biāo)簽找岖。對(duì)于分類,我們使用軟標(biāo)簽敛滋,它包含所有類的概率分布许布,因?yàn)槲覀儼l(fā)現(xiàn)性能優(yōu)于硬標(biāo)簽。對(duì)于深度绎晃,我們只使用預(yù)測(cè)的深度作為偽標(biāo)簽蜜唾,而無需進(jìn)一步處理。
3.2. 多任務(wù)學(xué)生模型
模型架構(gòu):? ? 我們的目標(biāo)是通過多項(xiàng)任務(wù)訓(xùn)練學(xué)生學(xué)習(xí)通用的視覺表示庶艾。首先要設(shè)計(jì)的是一個(gè)模型體系結(jié)構(gòu)袁余,它可以跨任務(wù)共享大部分參數(shù)。我們定義了三個(gè)任務(wù)類別:(1)分類咱揍,(2)目標(biāo)檢測(cè)颖榜,(3)像素預(yù)測(cè)。像素級(jí)預(yù)測(cè)任務(wù)包括語義分割煤裙、深度估計(jì)和表面法線預(yù)測(cè)掩完。每個(gè)類別的任務(wù)在主干模型中共享相同的特征表示。
我們?cè)O(shè)計(jì)了基于ResNet[21]和特征金字塔網(wǎng)絡(luò)(FPN)[36]的主干模型硼砰。圖3顯示了我們架構(gòu)的概述且蓬。我們按照通常的做法設(shè)計(jì)分類和檢測(cè)任務(wù)的特征表示。我們使用C5特征圖(橙色)進(jìn)行分類题翰,使用{P3恶阴,P4,P5遍愿,P6存淫,P7}特征金字塔(青色)進(jìn)行檢測(cè)耘斩。我們按照[67]中的實(shí)踐沼填,將{P3,P4括授,P5坞笙,P6岩饼,P7}融合到P2特征圖(綠色)中進(jìn)行像素級(jí)預(yù)測(cè)。融合操作只需將所有特征映射重新縮放到級(jí)別2并求和(這不會(huì)引入任何新參數(shù))薛夜。
每個(gè)任務(wù)類別共享相同的頭部架構(gòu)(編者注:共享結(jié)構(gòu)但不共享參數(shù))晚伙。分類頭遵循ResNet設(shè)計(jì)吮龄。它是對(duì)C5特征平均池化后再接個(gè)線性預(yù)測(cè)層。目標(biāo)檢測(cè)任務(wù)遵循Mask R-CNN中的頭部結(jié)構(gòu)[20]咆疗。我們?yōu)镽PN使用2個(gè)隱藏卷積層漓帚,為Fast R-CNN使用4個(gè)隱藏卷積層和1個(gè)全連接層。像素級(jí)預(yù)測(cè)頭具有3個(gè)卷積層午磁,接在C2特征后面尝抖,這3個(gè)卷積層后面接著最終的線性預(yù)測(cè)層。如果學(xué)生模型從同一任務(wù)類別中的多個(gè)任務(wù)中學(xué)習(xí)(例如迅皇,語義分割和深度預(yù)測(cè))昧辽,則每個(gè)任務(wù)都擁有其特定于任務(wù)的頭部,而不共享其參數(shù)喧半。
師生訓(xùn)練:? ? 我們想研究從偽標(biāo)簽學(xué)習(xí)的有效性奴迅。因此,我們?cè)O(shè)計(jì)了教師和學(xué)生模型的訓(xùn)練挺据,使他們之間的主要區(qū)別在于數(shù)據(jù)集和標(biāo)簽取具。與模型蒸餾[23]和噪聲學(xué)生[58]不同,我們?cè)诮處熀蛯W(xué)生訓(xùn)練中使用相同的模型容量和數(shù)據(jù)增強(qiáng)扁耐。盡管教師可以為自己的任務(wù)使用更專業(yè)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練暇检,但我們使用圖3所示的相同體系結(jié)構(gòu)訓(xùn)練教師和學(xué)生模型。
向多名教師學(xué)習(xí):? ? 我們建議多任務(wù)自訓(xùn)練(MuST)來訓(xùn)練一個(gè)有多名教師的學(xué)生模型婉称。以前的多任務(wù)學(xué)習(xí)工作利用了多個(gè)數(shù)據(jù)集中的信息块仆,主要集中在每個(gè)樣本僅標(biāo)記一個(gè)任務(wù)或幾個(gè)任務(wù)的場(chǎng)景中[9,29]。在MuST中王暗,每個(gè)圖像都有對(duì)所有任務(wù)的監(jiān)督悔据。標(biāo)簽可能來源于監(jiān)督標(biāo)簽或偽標(biāo)簽。例如俗壹,在ImageNet上進(jìn)行訓(xùn)練時(shí)科汗,我們可以使用監(jiān)督標(biāo)簽進(jìn)行分類,使用偽標(biāo)簽進(jìn)行檢測(cè)绷雏、分割和深度头滔。
在多任務(wù)學(xué)習(xí)中怖亭,平衡每個(gè)任務(wù)的損失貢獻(xiàn)是一個(gè)開放的研究領(lǐng)域[26,6,7,63]。多任務(wù)學(xué)習(xí)的損失是所有任務(wù)損失的加權(quán)和坤检。權(quán)重
決定任務(wù)
的損失貢獻(xiàn)兴猩。在ImageNet實(shí)驗(yàn)中,我們采用
早歇,其中
表示批量大小倾芝,
表示學(xué)習(xí)率,下標(biāo)表示學(xué)生或教師模型箭跳。該方程源自[16]中的縮放規(guī)則蛀醉,該規(guī)則根據(jù)批量大小按比例縮放學(xué)習(xí)率。唯一的例外是深度損失衅码,我們通過參數(shù)掃描選擇其權(quán)重拯刁。在JFT300M上的實(shí)驗(yàn)中,我們使用[26]中的算法在訓(xùn)練過程中學(xué)習(xí)每個(gè)任務(wù)的wi逝段。([26]是Multi-task learning using uncertainty to weigh losses for scene geometry and semantics, CVPR2018)
跨數(shù)據(jù)集訓(xùn)練:????MuST能夠靈活利用已標(biāo)記和未標(biāo)記的數(shù)據(jù)垛玻。它可以通過在未標(biāo)記的數(shù)據(jù)上生成偽標(biāo)簽來增加圖像的數(shù)量∧糖或者帚桩,它可以使用部分標(biāo)記有一個(gè)或多個(gè)任務(wù)的圖像。在我們的實(shí)驗(yàn)中嘹黔,我們展示了一個(gè)跨ImageNet账嚎、objects365和COCO數(shù)據(jù)集的樣本訓(xùn)練。只要有監(jiān)督標(biāo)簽可用儡蔓,我們就使用監(jiān)督標(biāo)簽郭蕉,并使用偽標(biāo)簽為所有缺席的任務(wù)生成標(biāo)簽。
跨數(shù)據(jù)集訓(xùn)練的一個(gè)挑戰(zhàn)是平衡來自不同大小數(shù)據(jù)集的數(shù)據(jù)喂江。我們沒有設(shè)計(jì)抽樣啟發(fā)法[9]召锈,而是從數(shù)據(jù)集的并集中均勻抽樣。這是因?yàn)樵贛uST中获询,每個(gè)圖像的每個(gè)任務(wù)都被標(biāo)記涨岁,因此我們不需要擔(dān)心由于數(shù)據(jù)集大小不平衡而導(dǎo)致任務(wù)采樣不足/過多。與其他自訓(xùn)練算法相比吉嚣,第二個(gè)主要區(qū)別在于監(jiān)督標(biāo)簽和偽標(biāo)簽被同等對(duì)待梢薪。我們不會(huì)像[67,58]那樣獨(dú)立地對(duì)監(jiān)督標(biāo)簽和偽標(biāo)簽的樣本進(jìn)行批處理,并為它們分配不同的權(quán)重尝哆。圖像從數(shù)據(jù)集中統(tǒng)一采樣秉撇,并放入一個(gè)小批量中。無論損失是根據(jù)監(jiān)督標(biāo)簽還是偽標(biāo)簽計(jì)算的,每個(gè)樣本在其損失上共享相同的權(quán)重畜疾。這使得使用和擴(kuò)展多個(gè)任務(wù)變得非常簡(jiǎn)單。
3.3????遷移學(xué)習(xí)
為了評(píng)估MuST和其他基線表示的表示質(zhì)量印衔,我們?cè)谝唤M下游計(jì)算機(jī)視覺任務(wù)中對(duì)它們進(jìn)行了微調(diào)啡捶。對(duì)于每個(gè)微調(diào)任務(wù)的性能,我們采用端到端微調(diào)而不是線性探頭奸焙。我們對(duì)CIFAR-100分類瞎暑、Pascal檢測(cè)、Pascal語義分割与帆、NYU深度了赌、ADE語義分割和DIODE表面法線進(jìn)行了微調(diào)。還請(qǐng)注意玄糟,所有下游數(shù)據(jù)集都不同于專業(yè)教師模型所訓(xùn)練的數(shù)據(jù)集勿她。此外,表面法線預(yù)測(cè)是一項(xiàng)沒有專門的教師模型訓(xùn)練的任務(wù)阵翎,用于測(cè)試表征對(duì)held out任務(wù)的魯棒性逢并。在對(duì)下游任務(wù)的表示進(jìn)行微調(diào)時(shí),我們會(huì)掃描學(xué)習(xí)率和訓(xùn)練步驟的數(shù)量(完整細(xì)節(jié)見附錄)郭卫。這允許在不同表示之間進(jìn)行公平比較砍聊。
4????實(shí)驗(yàn)
4.1????實(shí)驗(yàn)設(shè)置
訓(xùn)練數(shù)據(jù)集:表1概述了我們?cè)趯?shí)驗(yàn)中使用的數(shù)據(jù)集。我們用四種不同的數(shù)據(jù)集和任務(wù)來訓(xùn)練我們的監(jiān)督教師模型贰军。然后玻蝌,這些監(jiān)督模型將在未標(biāo)記/部分標(biāo)記的圖像上生成偽標(biāo)簽。
評(píng)估數(shù)據(jù)集:????接下來词疼,我們將描述我們的所有表示都將微調(diào)的數(shù)據(jù)集俯树。表1提供了清單。我們有不同的數(shù)據(jù)集贰盗,總共有五個(gè)不同的任務(wù)聘萨。注意:曲面法線任務(wù)從未用作測(cè)試表示的任務(wù)通用性的訓(xùn)練任務(wù)。
4.2????多任務(wù)自訓(xùn)練學(xué)習(xí)
我們通過實(shí)驗(yàn)比較了我們的MuST表征學(xué)習(xí)算法與最先進(jìn)的自監(jiān)督和監(jiān)督學(xué)習(xí)方法童太。
MuST改進(jìn)ImageNet的預(yù)訓(xùn)練:????表2將MuST算法與ImageNet上的自監(jiān)督和監(jiān)督學(xué)習(xí)進(jìn)行了比較米辐。在一組6個(gè)下游任務(wù)上,必須分別在4個(gè)和5個(gè)任務(wù)上改進(jìn)最先進(jìn)的自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)书释。MuST不僅使用ImageNet分類標(biāo)簽翘贮,而且還使用從物體365檢測(cè)、COCO語義分割和MiDas深度訓(xùn)練的監(jiān)督模型生成的偽標(biāo)簽爆惧。針對(duì)ImageNet圖像訓(xùn)練的這些附加信息導(dǎo)致更具普遍性的特征表示狸页。我們觀察到,在ImageNet上的自監(jiān)督和有監(jiān)督的預(yù)訓(xùn)練并沒有學(xué)習(xí)到幾乎同樣適用于圖像分類以外的任務(wù)的特征。
MuST通過更多任務(wù)/數(shù)據(jù)集進(jìn)行改進(jìn)芍耘,以學(xué)習(xí)通用特征:????MuST算法利用在不同數(shù)據(jù)集上訓(xùn)練的獨(dú)立監(jiān)督模型生成的偽標(biāo)簽址遇。接下來,我們將研究從針對(duì)不同任務(wù)/數(shù)據(jù)集訓(xùn)練的多個(gè)不同教師模型生成偽標(biāo)簽的重要性斋竞。表3顯示了從僅使用監(jiān)督ImageNet標(biāo)簽開始的表示質(zhì)量改進(jìn)倔约,然后添加從三個(gè)不同數(shù)據(jù)集獲得的三種不同類型的偽標(biāo)簽。隨著我們繼續(xù)從不同的任務(wù)/數(shù)據(jù)集中添加偽標(biāo)簽坝初,我們的表示在質(zhì)量上有所提高浸剩。對(duì)于每一項(xiàng)新增加的任務(wù),我們?cè)谒?項(xiàng)下游任務(wù)中都取得了顯著的改進(jìn)鳄袍。
偽標(biāo)簽保留教師模型的遷移學(xué)習(xí)性能:????接下來绢要,我們將研究偽標(biāo)簽如何有效地保持在監(jiān)督數(shù)據(jù)集上訓(xùn)練的教師模型的遷移學(xué)習(xí)性能。為了驗(yàn)證這一點(diǎn)拗小,我們訓(xùn)練了兩個(gè)有監(jiān)督的教師模型:Objects365上的物體檢測(cè)模型和COCO上的語義分割模型重罪。表4的前兩行顯示了他們?cè)?個(gè)下游任務(wù)上的監(jiān)督學(xué)習(xí)績(jī)效和遷移學(xué)習(xí)績(jī)效。接下來哀九,我們?cè)趦蓚€(gè)沒有標(biāo)簽的數(shù)據(jù)集上生成偽標(biāo)簽:ImageNet(1.2M圖像)和JFT(300M圖像)∏猓現(xiàn)在,我們?cè)贗mageNet和JFT上的偽標(biāo)簽上從頭開始訓(xùn)練模型勾栗。表4中接下來的4行顯示了這些結(jié)果惨篱。我們觀察到,對(duì)于目標(biāo)檢測(cè)和分割偽標(biāo)簽围俘,我們獲得了監(jiān)督學(xué)習(xí)質(zhì)量的下降(例如26.1 vs 20.6/20.7)砸讳,但當(dāng)表示被遷移時(shí),它們獲得了與教師模型相似或更好的遷移學(xué)習(xí)性能界牡。JFT訓(xùn)練獲得的表示通常會(huì)比? ? ImageNet導(dǎo)致更好的遷移學(xué)習(xí)性能簿寂,這表明了MuST方法的可擴(kuò)展性。當(dāng)我們得到越來越多的未標(biāo)記數(shù)據(jù)時(shí)宿亡,我們的方法可以很容易地利用它常遂,并且表示質(zhì)量得到了提高。
跨數(shù)據(jù)集的多任務(wù)自我訓(xùn)練:????MuST利用在不同監(jiān)督學(xué)習(xí)數(shù)據(jù)集上訓(xùn)練的教師模型生成的偽標(biāo)簽挽荠。然后克胳,一個(gè)的自然比較是了解如何將MuST與監(jiān)督多任務(wù)監(jiān)督訓(xùn)練進(jìn)行比較,其中模型是在數(shù)據(jù)集和標(biāo)簽的聯(lián)合上進(jìn)行訓(xùn)練的[29]圈匆。表5比較了在三個(gè)數(shù)據(jù)集(ImageNet漠另、COCO和Objects365)上,MuST與監(jiān)督多任務(wù)訓(xùn)練的表示質(zhì)量跃赚。對(duì)于多任務(wù)訓(xùn)練笆搓,我們以相同的概率從數(shù)據(jù)集中抽取樣本。概率與數(shù)據(jù)集大小成比例的抽樣樣本效果不佳。由于ImageNet和Objects365數(shù)據(jù)集比COCO數(shù)據(jù)集大得多满败,因此對(duì)于256個(gè)批量大小肤频,在分割任務(wù)上,只有15個(gè)樣本具有非零損失值算墨。另一方面宵荒,在MuST中,每幅圖像都有任何類型的標(biāo)簽米同,我們可以用概率與數(shù)據(jù)集大小成正比的方法來抽樣。在比較表征質(zhì)量時(shí)摔竿,?MuST在6/6下游任務(wù)中獲得最佳性能面粮。
4.3????擴(kuò)展多任務(wù)自訓(xùn)練
MuST的一個(gè)好處是它可以擴(kuò)展到無限量的未標(biāo)記圖像。為了驗(yàn)證這一假設(shè)继低,我們從具有1.2M圖像的ImageNet設(shè)置轉(zhuǎn)移到具有300M圖像的JFT熬苍。
擴(kuò)展數(shù)據(jù)集大小和訓(xùn)練迭代:????現(xiàn)在,我們不再在1.2M圖像上生成偽標(biāo)簽袁翁,而是擴(kuò)展MuST訓(xùn)練柴底,讓所有三個(gè)有監(jiān)督的教師模型在300M圖像上生成偽標(biāo)簽。這個(gè)過程是可并行的粱胜,這使得整個(gè)運(yùn)行時(shí)比模型的訓(xùn)練要低柄驻。表6顯示了MuST與JFT數(shù)據(jù)集上的自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的比較。在使用相同的未標(biāo)記數(shù)據(jù)時(shí)焙压,5/6下游任務(wù)的性能必須優(yōu)于自監(jiān)督SimCLR算法鸿脓。我們還針對(duì)JFT上可用的多類標(biāo)簽訓(xùn)練了一個(gè)有監(jiān)督的基線,發(fā)現(xiàn)僅使用未標(biāo)記的圖像涯曲,MuST在5/6下游任務(wù)上優(yōu)于其表示野哭。考慮到MuST從偽標(biāo)簽間接利用的監(jiān)督圖像總數(shù)僅為3.7M張幻件,相比300M張標(biāo)記的JFT圖像拨黔,這是非常令人印象深刻的。添加JFT監(jiān)督標(biāo)簽可以進(jìn)一步提高圖像分類和分割的性能绰沥,顯示了MuST在使用標(biāo)記和未標(biāo)記數(shù)據(jù)時(shí)的靈活性篱蝇。最后,學(xué)生模型不僅能夠?qū)W習(xí)遷移的一般特征徽曲,還能夠?yàn)槎鄠€(gè)任務(wù)生成高質(zhì)量的預(yù)測(cè)态兴。圖4顯示了我們最強(qiáng)的模型所做的預(yù)測(cè)。
進(jìn)一步提升預(yù)訓(xùn)練模型(Bootstrapping from Pre-trained Models)????下一步绍撞,我們將研究MuST是否可以改進(jìn)使用數(shù)十億個(gè)訓(xùn)練樣本訓(xùn)練的檢查點(diǎn)正勒。我們使用ALIGN檢查點(diǎn)[24],其使用了1.8B圖像-文本對(duì)進(jìn)行訓(xùn)練傻铣,我們用這個(gè)檢查點(diǎn)初始化教師模型和學(xué)生模型的參數(shù)章贞。我們使用與之前實(shí)驗(yàn)相同的教師模型任務(wù)。偽標(biāo)簽在JFT-300M數(shù)據(jù)集上生成非洲,MuST學(xué)生模型在JFT上訓(xùn)練1個(gè)epoch鸭限。圖5顯示了與ImageNet檢查點(diǎn)[52]相比,嘈雜學(xué)生[58]两踏、ALIGN[24]和MuST?w/ALIGN的相對(duì)遷移學(xué)習(xí)性能增益(relative transfer learning performance gains)败京。該圖顯示,在6個(gè)下游任務(wù)中梦染,MuST w/ALIGN將ALIGN檢查點(diǎn)提高了4個(gè)赡麦。對(duì)于CIFAR-100和DIODE表面法線預(yù)測(cè),性能稍差帕识。我們使用EfficientNet-L2架構(gòu)重復(fù)實(shí)驗(yàn)泛粹,并在JFT上訓(xùn)練0.36 epoch的學(xué)生模型。我們?cè)诒?中報(bào)告了4個(gè)下游任務(wù)肮疗,顯示了對(duì)ALIGN檢查點(diǎn)的改進(jìn)晶姊。我們發(fā)現(xiàn),使用MuST訓(xùn)練的學(xué)生模型提高了大型ALIGN?EfficientNet-L2檢查點(diǎn)伪货,并且與專門用于每個(gè)數(shù)據(jù)集和任務(wù)的最先進(jìn)模型相比具有競(jìng)爭(zhēng)力帽借。值得注意的是,MuST提供了可在短迭代中微調(diào)就實(shí)現(xiàn)最先進(jìn)性能的檢查點(diǎn)超歌,而典型的自訓(xùn)練方法[67]需要為每個(gè)下游任務(wù)進(jìn)行偽標(biāo)記和長(zhǎng)時(shí)間的訓(xùn)練迭代砍艾。
5????討論
哪種預(yù)訓(xùn)練方法在大規(guī)模訓(xùn)練中表現(xiàn)最好蜓谋?? ? 盡管自監(jiān)督學(xué)習(xí)在ImageNet大小的數(shù)據(jù)集(130萬張圖像/1k類)上優(yōu)于監(jiān)督學(xué)習(xí),但在JFT大小的數(shù)據(jù)集(3億張圖像/18k類)上炭分,監(jiān)督學(xué)習(xí)仍然是一種更好的預(yù)訓(xùn)練方法桃焕。這種差距可以通過使用更多的未標(biāo)記數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來彌補(bǔ)。然而捧毛,自訓(xùn)練也可以通過在未標(biāo)記的數(shù)據(jù)上生成偽標(biāo)簽來擴(kuò)展一個(gè)或多個(gè)監(jiān)督模型观堂∪猛總的來說,自監(jiān)督和自訓(xùn)練都可以擴(kuò)展师痕,但目前溃睹,自訓(xùn)練在學(xué)習(xí)通用特征方面表現(xiàn)更好。一個(gè)有希望的方向是將自監(jiān)督和自訓(xùn)練結(jié)合起來進(jìn)行表征學(xué)習(xí)[65,12,59]胰坟。
為什么使用MuST而不是自監(jiān)督學(xué)習(xí)因篇?(Why use MuST over self-supervised learning?)? ? 這兩種方法對(duì)于未標(biāo)記的訓(xùn)練數(shù)據(jù)都是可擴(kuò)展的,但MuST能夠輕松地將所有標(biāo)記和未標(biāo)記的數(shù)據(jù)組合在一起笔横。然而竞滓,自監(jiān)督學(xué)習(xí)依賴于從pre-text任務(wù)到下游任務(wù)的泛化,這并不總是提供良好的性能吹缔。如果預(yù)先知道感興趣的下游任務(wù)商佑,那么設(shè)計(jì)偽標(biāo)簽就更容易了。鑒于本文中教師模型的任務(wù)涛菠,MuST推廣到看不見的任務(wù)(例如莉御,表面法線預(yù)測(cè))撇吞。
6????結(jié)論
本文提出了一種可擴(kuò)展的多任務(wù)自訓(xùn)練方法俗冻。我們?cè)贗mageNet和JFT上比較了監(jiān)督和自監(jiān)督學(xué)習(xí)方法,并在視覺識(shí)別牍颈、定位和三維幾何預(yù)測(cè)等6個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估迄薄。我們表明,MuST優(yōu)于或等同于監(jiān)督和自監(jiān)督學(xué)習(xí)的6個(gè)遷移學(xué)習(xí)任務(wù)中的5個(gè)煮岁,除了分類任務(wù)讥蔽。此外,MuST還可以改進(jìn)已經(jīng)強(qiáng)大的檢查點(diǎn)画机,這些檢查點(diǎn)經(jīng)過了數(shù)十億樣本的訓(xùn)練冶伞。結(jié)果表明,多任務(wù)自訓(xùn)練是一種可擴(kuò)展的預(yù)訓(xùn)練方法步氏,能夠?qū)W習(xí)通用的特征表示响禽。我們希望這項(xiàng)工作將鼓勵(lì)進(jìn)一步研究創(chuàng)造通用的視覺表現(xiàn)。
附錄
A????訓(xùn)練和評(píng)估數(shù)據(jù)集的詳細(xì)信息
A.1????訓(xùn)練數(shù)據(jù)集
在本節(jié)中荚醒,我們將介紹用于訓(xùn)練教師模型的5個(gè)數(shù)據(jù)集芋类。
ImageNet:????ImageNet[47]是一個(gè)分類數(shù)據(jù)集,包含1.2M的訓(xùn)練圖像和1000個(gè)unique類界阁。它的所有圖像都是中心裁剪的侯繁,并且每個(gè)圖像都有一個(gè)主物體。
Objects365:????Objects365[49]是一個(gè)物體檢測(cè)數(shù)據(jù)集泡躯,具有365個(gè)不同的類和600k訓(xùn)練圖像贮竟。
COCO:????COCO數(shù)據(jù)集[37]包含具有各種不同標(biāo)簽的118k圖像(例如丽焊,物體檢測(cè)、實(shí)例分割坝锰、全景分割)粹懒。對(duì)于所有實(shí)驗(yàn),我們都使用全景分割標(biāo)簽顷级。
MiDaS:????用于生成深度偽標(biāo)簽的MiDaS深度模型[44]在一組不同的5個(gè)深度數(shù)據(jù)集上進(jìn)行訓(xùn)練凫乖。這5個(gè)深度數(shù)據(jù)集分別是DIML室內(nèi)[27](220k圖像)、MegaDepth[35](130k圖像)弓颈、ReDWeb[56](3600)帽芽、WSVD[55](1.5M)和3D電影(75k)。該模型被訓(xùn)練為對(duì)所有數(shù)據(jù)集的深度范圍和比例保持不變(The model is trained to be invariant to the depth range and scale across all datasets)翔冀,從而生成一個(gè)生成魯棒偽標(biāo)簽的模型导街。
JFT:????JFT[51]是一個(gè)大規(guī)模的圖像多標(biāo)簽分類數(shù)據(jù)集,有300M的標(biāo)簽圖像纤子。該數(shù)據(jù)集用于測(cè)試MuST的規(guī)模和各種自監(jiān)督學(xué)習(xí)算法搬瑰。
A.2????評(píng)價(jià)數(shù)據(jù)集
接下來,我們將描述我們的所有表示都將微調(diào)的數(shù)據(jù)集控硼。我們有不同的數(shù)據(jù)集泽论,總共有五個(gè)不同的任務(wù)。注意:曲面法線任務(wù)從未用來訓(xùn)練卡乾,以測(cè)試表示的任務(wù)泛化性能(Note the Surface Normal task is never used as a training task to test the task generality of the representations.)
CIFAR-100:????CIFAR-100是一個(gè)具有50k圖像和100個(gè)unique類的分類數(shù)據(jù)集翼悴。
PASCAL Detection:? ? Pascal檢測(cè)數(shù)據(jù)集[13]是一個(gè)具有20個(gè)唯一類的物體檢測(cè)數(shù)據(jù)集。我們?cè)赑ASCAL VOC 2007和PASCAL VOC 2012的trainval集上訓(xùn)練模型幔妨,其中包括16.5k圖像鹦赎。
PASCAL Segmentation:????Pascal分割數(shù)據(jù)集[13]是一個(gè)具有20個(gè)唯一類的語義分割數(shù)據(jù)集。我們?cè)赑ASCAL VOC 2012分割數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練模型误堡,該數(shù)據(jù)集具有1.5k圖像古话。
NYU Depth V2:????NYU Depth V2數(shù)據(jù)集[50]是一個(gè)深度估計(jì)數(shù)據(jù)集,包含47584個(gè)訓(xùn)練圖像和654個(gè)訓(xùn)練圖像锁施。
ADE分割:????ADE20k[66]是一個(gè)分割數(shù)據(jù)集陪踩,包含有150個(gè)物體和內(nèi)容類的20k圖像。數(shù)據(jù)集包含各種不同的室內(nèi)和室外場(chǎng)景以及物體類沾谜。
DIODE表面法線:? ? DIODE數(shù)據(jù)集[54]是包含16884個(gè)圖像的深度和表面法線數(shù)據(jù)集膊毁。該數(shù)據(jù)集包含用于訓(xùn)練和測(cè)試的各種室內(nèi)和室外場(chǎng)景。我們只使用曲面法線標(biāo)簽基跑。
B????實(shí)施細(xì)節(jié)
B.1????訓(xùn)練教師模型
在本節(jié)中婚温,我們將介紹訓(xùn)練教師模型的詳細(xì)信息,這些模型用于在MuST中生成偽標(biāo)簽媳否。所有模型均使用ResNet-152主干模型進(jìn)行訓(xùn)練栅螟。
物體365檢測(cè):????我們使用批量大小為256荆秦,訓(xùn)練140個(gè)epoch。圖像大小為640力图。我們采用比例抖動(dòng)[0.5,2.0](即在320×320到1280×1280之間隨機(jī)重新采樣圖像步绸,并將其裁剪為512×512)。學(xué)習(xí)率為0.32吃媒,權(quán)重衰減設(shè)置為4e-5瓤介。模型通過隨機(jī)初始化進(jìn)行訓(xùn)練。最終性能為26.1 AP赘那。
COCO分割:????我們使用COCO全景分割數(shù)據(jù)集中的注釋[28]刑桑。我們訓(xùn)練了一個(gè)語義分割模型,該模型只預(yù)測(cè)每個(gè)像素的語義類募舟,而不預(yù)測(cè)物體實(shí)例祠斧。我們使用批量大小為256,訓(xùn)練384個(gè)epoch拱礁。圖像大小為896琢锋。我們應(yīng)用比例抖動(dòng)[0.5,2.0]。學(xué)習(xí)率為0.32呢灶,權(quán)重衰減設(shè)置為4e-5吴超。模型通過隨機(jī)初始化進(jìn)行訓(xùn)練。最終性能為53.8 mIoU填抬。
MiDaS Depth:????我們直接從github存儲(chǔ)庫(kù)下載預(yù)先訓(xùn)練好的MiDaS烛芬,并將其用作生成偽標(biāo)簽的教師模型隧期。
ImageNet分類:????我們使用批量2048和400個(gè)epoch的訓(xùn)練飒责。圖像大小為224。學(xué)習(xí)率為0.8仆潮,權(quán)重衰減為4e-5宏蛉。我們采用隨機(jī)增強(qiáng)[10](2L-15M, 2 layers with magnitude 15)和標(biāo)簽平滑(0.1)來正則模型訓(xùn)練。最終性能為81.6的top-1準(zhǔn)確度性置。
B.2????多任務(wù)學(xué)生模型的訓(xùn)練
在我們的實(shí)驗(yàn)中拾并,我們使用批量大小為256來訓(xùn)練學(xué)生模型。圖像大小為640鹏浅。我們?cè)谟?xùn)練期間應(yīng)用縮放抖動(dòng)[0.5,2.0]嗅义。權(quán)重衰減在ImageNet實(shí)驗(yàn)中為4e-5,在JFT實(shí)驗(yàn)中為3e-6隐砸。未應(yīng)用隨機(jī)增強(qiáng)[10]或標(biāo)簽平滑之碗。
B.3????對(duì)評(píng)估數(shù)據(jù)集進(jìn)行微調(diào)
對(duì)于微調(diào),我們使用預(yù)先訓(xùn)練的模型初始化ResNet和FPN主干中的參數(shù)季希,并隨機(jī)初始化其余層褪那。我們通過對(duì)學(xué)習(xí)率和訓(xùn)練步驟組合進(jìn)行廣泛的網(wǎng)格搜索來執(zhí)行端到端微調(diào)幽纷,以確保每個(gè)預(yù)先訓(xùn)練的模型達(dá)到最佳微調(diào)性能。我們對(duì)不同的權(quán)重衰減進(jìn)行了實(shí)驗(yàn)博敬,但沒有發(fā)現(xiàn)有太大的差異友浸,我們將其設(shè)置為1e-4。為了簡(jiǎn)單起見偏窝,所有模型都使用余弦學(xué)習(xí)率進(jìn)行訓(xùn)練收恢。下面我們將描述每個(gè)任務(wù)的數(shù)據(jù)集、評(píng)估指標(biāo)祭往、模型體系結(jié)構(gòu)和訓(xùn)練參數(shù)派诬。
CIFAR-100:????我們使用標(biāo)準(zhǔn)的CIFAR-100訓(xùn)練和測(cè)試集,并報(bào)告top-1準(zhǔn)確度链沼。我們將圖像分辨率調(diào)整為256×256默赂。我們用隨機(jī)初始化的線性層替換預(yù)訓(xùn)練模型中的分類頭,該線性層預(yù)測(cè)101個(gè)類括勺,包括背景缆八。我們使用512的批量大小,搜索5000到20000的訓(xùn)練步驟和0.005到0.32的學(xué)習(xí)率的組合疾捍。我們發(fā)現(xiàn)SimCLR的最佳學(xué)習(xí)率(0.16)遠(yuǎn)高于監(jiān)督模型(0.005)奈辰。這一趨勢(shì)適用于以下任務(wù)。
PASCAL Segmentation:????我們使用PASCAL VOC 2012訓(xùn)練集和驗(yàn)證集乱豆,并報(bào)告mIoU度量奖恰。訓(xùn)練圖像以512×512的比例抖動(dòng)[0.5,2.0]重新采樣。我們從預(yù)訓(xùn)練主干和FPN[36]層初始化模型宛裕。我們移除預(yù)訓(xùn)練的分割頭瑟啃,并訓(xùn)練一個(gè)隨機(jī)初始化的頭。我們使用64的批量大小揩尸,搜索5000到20000個(gè)訓(xùn)練步驟和0.005到0.32的學(xué)習(xí)率的組合蛹屿。
PASCAL Detection:????我們使用PASCAL VOC 2007+2012 trainval集和VOC 2007測(cè)試集,報(bào)告AP50和11個(gè)召回點(diǎn)岩榆,以計(jì)算平均精度错负。訓(xùn)練圖像以比例抖動(dòng)[0.5,2.0]重新采樣到896。我們從預(yù)先訓(xùn)練的主干和FPN[36]層初始化模型勇边,并隨機(jī)初始化頭部犹撒。我們使用32的批量大小,搜索5000到20000個(gè)訓(xùn)練步驟和0.005到0.32的學(xué)習(xí)率的組合粒褒。
NYU Depth:????我們使用NYU Depthv2數(shù)據(jù)集识颊,包括47584個(gè)訓(xùn)練和654個(gè)驗(yàn)證圖像。我們報(bào)告了預(yù)測(cè)深度值與真值相比在1.25相對(duì)比率內(nèi)的百分比(We report the percentage of predicted depth values within 1.25 relative ratio compared to the ground truth)怀浆。訓(xùn)練圖像被重新采樣為640,比例抖動(dòng)[0.5,2.0]。我們從預(yù)先訓(xùn)練的主干和FPN[36]層初始化模型砌滞,并隨機(jī)初始化頭部。我們使用64的批量大小函筋,搜索10000到40000個(gè)訓(xùn)練步驟和0.005到0.32的學(xué)習(xí)率的組合。
DIODE:????我們使用帶有16884個(gè)訓(xùn)練和446個(gè)驗(yàn)證圖像的DIODE室外數(shù)據(jù)集奠伪。我們報(bào)告的角度誤差百分比小于11.25? . 我們使用原始圖像分辨率768進(jìn)行訓(xùn)練和評(píng)估跌帐。使用縮放抖動(dòng)[0.5,2.0]應(yīng)用訓(xùn)練圖像。我們從預(yù)先訓(xùn)練的主干和FPN[36]層初始化模型绊率,并隨機(jī)初始化頭部谨敛。我們使用32的批量,搜索20000到80000個(gè)訓(xùn)練步驟和0.01到0.16的學(xué)習(xí)率的組合滤否。
C????學(xué)生模型預(yù)測(cè)的可視化
圖6顯示了單個(gè)多任務(wù)學(xué)生模型所做預(yù)測(cè)的更多可視化樣本脸狸。圖像從ImageNet數(shù)據(jù)集中的驗(yàn)證集采樣。