題外話: 第一次做全文翻譯筝野,翻譯不好請(qǐng)諒解,多多給予意見粤剧。最近在看DDC歇竟,順便就把這篇文章翻譯一下。
摘要
最近的報(bào)告表明抵恋,在大規(guī)模數(shù)據(jù)集上訓(xùn)練的通用監(jiān)督深度cnn模型可以減少但不消除對(duì)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集的偏差焕议。在新的領(lǐng)域中對(duì)深度模型進(jìn)行微調(diào)可能需要大量的數(shù)據(jù),對(duì)于許多應(yīng)用程序來(lái)說弧关,這些數(shù)據(jù)都是不可用的盅安。我們提出了一種新的cnn體系結(jié)構(gòu),它引入了一個(gè)適應(yīng)層和一個(gè)額外的域混淆損失别瞭,學(xué)習(xí)一種既具有語(yǔ)義意義又具有域不變的表示畜隶。此外籽慢,我們還顯示箱亿,可以使用域混淆度量來(lái)進(jìn)行模型選擇髓帽,以決定適應(yīng)層的尺寸和在CNN架構(gòu)中的層的最佳位置郑藏。我們提出的自適應(yīng)方法提供了超過先前公布的結(jié)果的經(jīng)驗(yàn)性能。 在標(biāo)準(zhǔn)基準(zhǔn)上視覺領(lǐng)域適配任務(wù)俱饿。
介紹
? ? 數(shù)據(jù)集偏差 是傳統(tǒng)的有監(jiān)督的圖像識(shí)別方法中一個(gè)眾所周知的問題失驶。最近的一些理論和經(jīng)驗(yàn)結(jié)果表明嬉探,監(jiān)督方法的測(cè)試誤差隨測(cè)試和訓(xùn)練輸入分布之間的差異而增加。在過去的幾年中,已經(jīng)提出了幾種用于視覺領(lǐng)域適配的方法, 克服此問題,但僅限于淺層模型芹敌。適應(yīng)深度模型的傳統(tǒng)方法是微調(diào)氏捞;有關(guān)最近的示例液茎,請(qǐng)參見。
? 在少量標(biāo)記的目標(biāo)數(shù)據(jù)上直接微調(diào)深度網(wǎng)絡(luò)的參數(shù)是有問題的栋烤。幸運(yùn)的是挺狰,經(jīng)過預(yù)先訓(xùn)練的深層模型在新領(lǐng)域確實(shí)表現(xiàn)良好。最近始绍, 表明亏推,使用在ImageNet上學(xué)習(xí)到的深中位特征,而不是更傳統(tǒng)的詞包特征篇亭,有效地消除了某些域自適應(yīng)集合中的偏差译蒂。 在office數(shù)據(jù)集中柔昼。
? 這些算法將特征從一個(gè)大范圍內(nèi)遷移出來(lái)捕透。ImageNet乙嘀,和使用該域中的所有數(shù)據(jù)作為相應(yīng)類別的源數(shù)據(jù)。但是曹质,這些方法無(wú)法從深層體系結(jié)構(gòu)中選擇特征几莽,而是跨多層選擇報(bào)告結(jié)果银觅。
? 數(shù)據(jù)集偏差在計(jì)算機(jī)視覺中通過托拉爾巴和埃弗羅斯(Torralba and Efros)的“命名數(shù)據(jù)集”游戲進(jìn)行了經(jīng)典的說明究驴。實(shí)際上蝴韭,這被證明與領(lǐng)域差異度量有著正式的連接榄鉴。 因此,對(duì)領(lǐng)域不變性的優(yōu)化驶忌,可以被視為等同于學(xué)習(xí)預(yù)測(cè)類標(biāo)簽的任務(wù)付魔。當(dāng)同時(shí)找到一個(gè)特征時(shí)几苍,使得這個(gè)領(lǐng)域出現(xiàn)盡可能相似妻坝。這一原則構(gòu)成了我們提議的方法的本質(zhì)。我們通過優(yōu)化損失來(lái)學(xué)習(xí)深度特征,這既包括標(biāo)簽數(shù)據(jù)上的分類誤差涂臣,也包括域混淆損失署辉。 它試圖使域無(wú)法區(qū)分哭尝。
? 我們提出了一個(gè)新的CNN架構(gòu)(如圖1所示)材鹦,該架構(gòu)使用自適應(yīng)層以及基于最大均值差異(MMD)的域混淆損失來(lái)自動(dòng)學(xué)習(xí)一個(gè)特征聯(lián)合訓(xùn)練優(yōu)化分類和域不變栅葡。我們表明欣簇,我們的域混淆度量可以用于選擇適應(yīng)層的尺寸熊咽。 在預(yù)先訓(xùn)練的CNN架構(gòu)中,選擇一個(gè)有效的位置對(duì)于一個(gè)新的適應(yīng)層滥玷,并對(duì)特征進(jìn)行微調(diào)。
? 我們的體系結(jié)構(gòu)可以用來(lái)解決兩種1.有監(jiān)督的適應(yīng)如贷,當(dāng)少量標(biāo)記的目標(biāo)域數(shù)據(jù)可用時(shí),和2.無(wú)監(jiān)督自適應(yīng)楣富,當(dāng)沒有標(biāo)記的目標(biāo)訓(xùn)練數(shù)據(jù)可用時(shí)纹蝴。我們對(duì)流行的Office數(shù)據(jù)集在視覺上不同的領(lǐng)域進(jìn)行了全面的評(píng)估。我們通過對(duì)領(lǐng)域混淆和分類的聯(lián)合優(yōu)化來(lái)證明我們能夠顯著地超越當(dāng)前最新的視覺領(lǐng)域適配結(jié)果兼犯。事實(shí)上切黔,對(duì)于輕微的姿勢(shì)脓规、分辨率和照明變化的情況侨舆,我們的算法能夠在目標(biāo)域上實(shí)現(xiàn)96%的準(zhǔn)確率绢陌,這表明事實(shí)上脐湾,我們學(xué)到了一種對(duì)這些偏差不變的特征秤掌。
圖1:我們的體系結(jié)構(gòu)為分類損失和域不變性優(yōu)化了深度CNN愁铺。當(dāng)有少量的目標(biāo)數(shù)據(jù)可用時(shí),可以對(duì)模型進(jìn)行監(jiān)督適應(yīng)訓(xùn)練闻鉴。 在沒有目標(biāo)標(biāo)簽可用時(shí)茵乱。我們通過域混淆引入域不變性,引導(dǎo)自適應(yīng)層深度和寬度的選擇孟岛。以及微調(diào)期間附加的域損失項(xiàng)瓶竭,它直接最小化了源和目標(biāo)特征之間的距離。*
相關(guān)工作:
視覺數(shù)據(jù)集偏差的概念在【無(wú)偏查看數(shù)據(jù)集偏差。在過程中屯吊,CVPR辨嗽,2011武花。1,2】中得到推廣跃须。近年來(lái),人們提出了許多解決視覺領(lǐng)域適應(yīng)問題的方法冲泥。大家都認(rèn)識(shí)到有一個(gè)轉(zhuǎn)變?cè)谠春湍繕?biāo)數(shù)據(jù)特征的分布中。實(shí)際上,領(lǐng)域轉(zhuǎn)換的大小經(jīng)常通過源和目標(biāo)子空間特征之間的距離來(lái)測(cè)量。大量的方法試圖通過學(xué)習(xí)特征空間變換來(lái)克服這個(gè)差異隅很,以對(duì)準(zhǔn)源和目標(biāo)特征畜挥。對(duì)于監(jiān)督適應(yīng)情景來(lái)說,當(dāng)目標(biāo)域中有限數(shù)量的標(biāo)記數(shù)據(jù)是可用的時(shí)候十办,提出了一些方法來(lái)學(xué)習(xí)對(duì)源分類進(jìn)行正則化的目標(biāo)分類器。其他人試圖同時(shí)學(xué)習(xí)特征變換并規(guī)范目標(biāo)分類器紊撕。
? 最近,基于監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征表示已經(jīng)被證明是非常有效的各種視覺識(shí)別任務(wù)。特別的,使用深度表示顯著地減少分辨率和照明對(duì)域移動(dòng)的影響了赵。
? 并行CNN結(jié)構(gòu)络断,如暹羅網(wǎng)絡(luò)遭商,已經(jīng)被證明是有效的學(xué)習(xí)不變性特征。然而圈澈,訓(xùn)練這些網(wǎng)絡(luò)需要每個(gè)訓(xùn)練實(shí)例的標(biāo)簽氯迂。 因此驰坊,還不清楚如何將這些方法擴(kuò)展到無(wú)監(jiān)督的設(shè)置拳芙。
? 多模態(tài)深度學(xué)習(xí)架構(gòu)也被探索,用以學(xué)習(xí)對(duì)不同輸入模態(tài)不變的表征挖垛。 然而靠汁,這種方法主要在生成環(huán)境中運(yùn)作闽铐,因此沒有提供足夠的代表性功能來(lái)監(jiān)督CNN表示蝶怔。
? [Deep learning for domain adaptation by interpolating between domains.]提出了訓(xùn)練聯(lián)合源和目標(biāo)CNN架構(gòu),但僅限于兩層兄墅,因此使用更深層架構(gòu)的方法顯著優(yōu)于[ImageNet classi?cation with deep convolutional neural networks.]踢星,在大型輔助數(shù)據(jù)源上進(jìn)行了預(yù)訓(xùn)練(例如: ImageNet )。
? [Domain adaptive neural networks for object recognition]提出了使用去噪自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練隙咸,然后在MMD域混淆損失的同時(shí)訓(xùn)練雙層網(wǎng)絡(luò)沐悦。 由于學(xué)習(xí)網(wǎng)絡(luò)相對(duì)較淺,因此缺乏通過直接優(yōu)化具有監(jiān)督深度CNN的分類目標(biāo)而學(xué)習(xí)的強(qiáng)語(yǔ)義表示五督,因此這有效地學(xué)習(xí)了領(lǐng)域不變性特征藏否。
訓(xùn)練基于CNN的域不變表示
? 我們引入了一種新的卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),我們用它來(lái)學(xué)習(xí)視覺表示充包,它既是域不變的又提供了強(qiáng)大的語(yǔ)義分離副签。 已經(jīng)表明,預(yù)訓(xùn)練的CNN可以通過微調(diào)來(lái)適應(yīng)新的任務(wù)基矮。 但是淆储,在域適應(yīng)場(chǎng)景中,目標(biāo)域中很少或沒有標(biāo)記的訓(xùn)練數(shù)據(jù)家浇,因此我們無(wú)法直接微調(diào)目標(biāo)域T中的感興趣類別C遏考,相反,我們將使用的數(shù)據(jù)來(lái)自一個(gè)相關(guān)但不同的源域S蓝谨,其中可以從相應(yīng)的類別C中獲得更多標(biāo)記的數(shù)據(jù)灌具。
? 僅使用源數(shù)據(jù)直接訓(xùn)練分類器通常會(huì)導(dǎo)致對(duì)源分布的過擬合青团,從而導(dǎo)致在目標(biāo)域中識(shí)別時(shí)在測(cè)試時(shí)性能降低。 我們的直覺是咖楣,如果我們可以學(xué)習(xí)最小化源和目標(biāo)分布之間距離的表示督笆,那么我們可以在源標(biāo)記的數(shù)據(jù)上訓(xùn)練分類器,并且直接應(yīng)用目標(biāo)域诱贿,并且精度損失最小娃肿。
? 為了最小化這個(gè)距離,我們考慮標(biāo)準(zhǔn)分布距離度量珠十,最大均值差異(MMD)料扰。該距離是相對(duì)于特定的表示φ(·)計(jì)算的。 在我們的例子中焙蹭,我們定義了一個(gè)表示晒杈,φ(·),它對(duì)源數(shù)據(jù)點(diǎn)進(jìn)行操作孔厉,拯钻,和目標(biāo)數(shù)據(jù)點(diǎn),撰豺。 該距離的經(jīng)驗(yàn)近似計(jì)算如下:
如圖2所示粪般,不僅是想要最小化域之間的距離(或最大化域混淆),但我們想要一種有助于訓(xùn)練強(qiáng)大分類器的表示污桦。 這樣的表示將使我們能夠?qū)W習(xí)很容易跨域遷移的強(qiáng)大分類器亩歹。 滿足這兩個(gè)標(biāo)準(zhǔn)的一種方法是盡量減少損失:
其中LC(XL,y)表示在可用的標(biāo)簽數(shù)據(jù)XL上的分類損失凡橱,和基本真實(shí)標(biāo)簽y和MMD(XS捆憎,XT)表示源數(shù)據(jù)XS與目標(biāo)數(shù)據(jù)XT之間的距離。 超參數(shù)λ決定了我們想要的混淆域的強(qiáng)度梭纹。
圖2:對(duì)于偏差數(shù)據(jù)集(左)躲惰,在源域中學(xué)習(xí)的分類不一定能很好地轉(zhuǎn)移到目標(biāo)域。 通過優(yōu)化目標(biāo)变抽,同時(shí)最小化分類誤差和最大化域混淆(右)础拨,我們可以學(xué)習(xí)具有判別性和域不變性的表示。*
? 最小化這種損失的一種方法是采用固定的CNN绍载,這已經(jīng)是一種強(qiáng)有力的分類表示诡宗,并且使用來(lái)自最小化域分布距離的MMD來(lái)決定哪個(gè)層使用激活。 然后击儡,我們可以使用這樣的特征塔沃,以便在其他類別的課程中感到有興趣進(jìn)行識(shí)別。 這可以被認(rèn)為是等式2的坐標(biāo)下降:我們采用一個(gè)網(wǎng)絡(luò)可以經(jīng)過訓(xùn)練最小化LC阳谍,選擇最小化MMD的表示蛀柴,然后根據(jù)表示再一次最小化LC.
? 然而螃概,這種方法是有限的,因?yàn)樗荒苤苯舆m應(yīng)這個(gè)特征 - 相反鸽疾,它被限制為從一組固定的表示中進(jìn)行選擇吊洼。 因此,我們建議創(chuàng)建一個(gè)網(wǎng)絡(luò)來(lái)直接優(yōu)化分類和域混淆目標(biāo)制肮,如圖1所示冒窍。
? 我們從Krizhevsky架構(gòu)開始,它具有五個(gè)卷積層和池化層以及三個(gè)全連接層豺鼻,其尺寸為{4096,4096综液,| C |}。 我們另外添加了一個(gè)較低維度的“瓶頸”適應(yīng)層儒飒。 我們的直覺是谬莹,較低維度的層可用于規(guī)范源分類器的訓(xùn)練,并防止過度擬合源分布的特定細(xì)微差別约素。 我們將域距離損失置于“瓶頸”層之上届良,以直接將特征規(guī)范化為不同的源和目標(biāo)域笆凌。
? 必須進(jìn)行兩種模型選擇才能添加適應(yīng)層和域距離損失圣猎。 我們必須選擇網(wǎng)絡(luò)中放置適配層的位置,我們必須選擇層的尺寸乞而。 我們使用MMD度量來(lái)做出這兩個(gè)決定送悔。 首先,如前所述爪模,對(duì)于我們的初始固定表示欠啤,我們找到了最小化所有可用源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的經(jīng)驗(yàn)MMD距離的層,在我們的實(shí)驗(yàn)中屋灌,這對(duì)應(yīng)于將層放置在全連接層fc7之后洁段。
接下來(lái),我們必須確定適應(yīng)層的尺寸共郭。 我們通過網(wǎng)格搜索解決了這個(gè)問題祠丝,我們使用各種維度對(duì)多個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),并在新的低維表示中計(jì)算MMD除嘹,最終選擇最小化源和目標(biāo)距離的維度写半。
選擇使用哪個(gè)特征層(“深度”)和適應(yīng)層應(yīng)該有多大(“寬度”)都由MMD引導(dǎo),因此可以看作是我們整體目標(biāo)的下降步驟尉咕。
我們的架構(gòu)(參見圖1)由源和目標(biāo)CNN組成叠蝇,具有共享權(quán)重。 僅使用標(biāo)記的示例來(lái)計(jì)算分類損失年缎,而從兩個(gè)域使用所有數(shù)據(jù)來(lái)計(jì)算域混淆損失悔捶。 這個(gè)網(wǎng)絡(luò)對(duì)所有可用的源和目標(biāo)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練谨读。
方程式2中概述的目標(biāo)很容易通過該卷積神經(jīng)網(wǎng)絡(luò)中的MMD表示,其中MMD是在小批量的源和目標(biāo)數(shù)據(jù)上計(jì)算的矾飞。 我們只需在適應(yīng)層之后使用網(wǎng)絡(luò)頂部的分支姓建。 一個(gè)分支使用標(biāo)簽數(shù)據(jù)并訓(xùn)練分類器,其他分支使用所有數(shù)據(jù)并計(jì)算源和目標(biāo)之間的MMD蛇损。
在對(duì)這種架構(gòu)進(jìn)行微調(diào)之后赁温,由于聯(lián)合損失中的兩個(gè)項(xiàng),適應(yīng)層學(xué)習(xí)是由于分類損失項(xiàng)而能夠有效地區(qū)分所討論的類的表示淤齐,同時(shí)由于MMD術(shù)語(yǔ)仍然保持不變的域遷移股囊。 我們希望這種表示能夠提高適應(yīng)性能。
圖3:最大均值差異和測(cè)試準(zhǔn)確度對(duì)于特征層的不同選擇更啄。 我們觀察到源和目標(biāo)之間的MMD以及目標(biāo)域測(cè)試集上的準(zhǔn)確度似乎是反向相關(guān)的稚疹,這表明MMD可以用于幫助選擇適應(yīng)層。*
圖4:最大均值差異和測(cè)試準(zhǔn)確度對(duì)于適應(yīng)層維度的不同值祭务。 我們觀察到源和目標(biāo)之間的MMD以及目標(biāo)域測(cè)試集上的準(zhǔn)確度與之相反内狗,表明MMD可用于幫助選擇要使用的維度。*
評(píng)估
我們?cè)诰哂行∫?guī)模源域的標(biāo)準(zhǔn)域適應(yīng)數(shù)據(jù)集上評(píng)估我們的自適應(yīng)算法义锥。 我們展示了我們的算法能夠有效地適應(yīng)一個(gè)深度CNN特征柳沙,具有有限或無(wú)目標(biāo)標(biāo)簽數(shù)據(jù)的目標(biāo)域。
Office 數(shù)據(jù)集是來(lái)自三個(gè)不同域的圖像集合:亞馬遜拌倍,DSLR和網(wǎng)絡(luò)攝像頭赂鲤。數(shù)據(jù)集中的31個(gè)類別包括常用設(shè)置中常見的對(duì)象,如鍵盤柱恤,文件柜和筆記本電腦数初。 最大的域有2817個(gè)標(biāo)記圖像。
我們針對(duì)通常用于評(píng)估的3個(gè)傳輸任務(wù)(亞馬遜→網(wǎng)絡(luò)攝像頭梗顺,數(shù)碼單反相機(jī)→網(wǎng)絡(luò)攝像頭和網(wǎng)絡(luò)攝像頭→數(shù)碼單反相機(jī))中的每一個(gè)泡孩,對(duì)5個(gè)隨機(jī)的訓(xùn)練/測(cè)試集拆分評(píng)估我們的方法,并報(bào)告每個(gè)設(shè)置的平均值和標(biāo)準(zhǔn)誤差寺谤。 我們?cè)诒O(jiān)督和無(wú)監(jiān)督情景中與最近發(fā)布的六種方法報(bào)告的數(shù)字進(jìn)行比較仑鸥。
我們遵循該數(shù)據(jù)集的標(biāo)準(zhǔn)訓(xùn)練協(xié)議,每個(gè)類別使用20個(gè)源示例用于Amazon源域矗漾,每個(gè)類別8個(gè)圖像用于Webcam或DSLR作為源域[29,16]锈候。 對(duì)于監(jiān)督的適應(yīng)設(shè)置,我們假設(shè)每個(gè)類別有3個(gè)標(biāo)記的目標(biāo)示例敞贡。
評(píng)估適應(yīng)層位置
? 我們首先評(píng)估我們的特征選擇策略泵琳。
使用預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),我們使用每個(gè)全連接層的表示從源數(shù)據(jù)和目標(biāo)數(shù)據(jù)中提取特征。然后我們可以計(jì)算每層的源和目標(biāo)之間的MMD获列。 由于較低的MMD預(yù)測(cè)該特征更加域不變谷市,我們期望具有最低MMD的呈現(xiàn)以在適應(yīng)層之后實(shí)現(xiàn)最高性能。
? 為了驗(yàn)證這一假設(shè)击孩,對(duì)于Amazon→Webcam拆分之一迫悠,我們應(yīng)用Daum'e III 引入的簡(jiǎn)單域自適應(yīng)基線來(lái)計(jì)算目標(biāo)域的測(cè)試精度。 圖3顯示了不同橋接層選擇的MMD和適應(yīng)性能的比較巩梢。 我們看到MMD準(zhǔn)確地對(duì)特征進(jìn)行排列创泄,將fc7選為表現(xiàn)最佳的層,將fc6選為最差的括蝠。 因此鞠抑,我們?cè)趂c7之后添加我們的適應(yīng)層用于剩下的實(shí)驗(yàn)。
選擇適應(yīng)層的尺寸
? 通過我們提出的微調(diào)方法學(xué)習(xí)新的特征之前忌警,我們必須決定這種特征有多寬搁拙。 同樣,我們使用MMD作為決定度量法绵。
? 為了確定我們學(xué)習(xí)的適應(yīng)層應(yīng)該具有什么維度箕速,我們?cè)贏mazon→Webcam任務(wù)中訓(xùn)練具有不同寬度的各種網(wǎng)絡(luò),因?yàn)檫@是三者中最具挑戰(zhàn)性的朋譬。 特別是盐茎,我們嘗試不同的寬度,從64到4096不等此熬,每次乘以兩次冪庭呜。 一旦網(wǎng)絡(luò)被訓(xùn)練滑进,我們就為每個(gè)學(xué)習(xí)的特征計(jì)算源和目標(biāo)之間的MMD犀忱。 然后,我們的方法是選擇最小化源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的MMD的尺寸扶关。
表1:使用Office數(shù)據(jù)集對(duì)標(biāo)準(zhǔn)監(jiān)督適應(yīng)設(shè)置進(jìn)行多種類別的準(zhǔn)確率評(píng)估阴汇。 我們使用[29]中的標(biāo)準(zhǔn)實(shí)驗(yàn)方案對(duì)所有31個(gè)類別進(jìn)行評(píng)估。 在這里节槐,我們與六種最先進(jìn)的領(lǐng)域適應(yīng)方法進(jìn)行比較搀庶。*
表2:使用Office數(shù)據(jù)集對(duì)標(biāo)準(zhǔn)無(wú)監(jiān)督自適應(yīng)設(shè)置進(jìn)行多種類別準(zhǔn)確率評(píng)估。 我們使用[16]中的標(biāo)準(zhǔn)實(shí)驗(yàn)方案對(duì)所有31個(gè)類別進(jìn)行評(píng)估铜异。 在這里哥倔,我們與六種最先進(jìn)的領(lǐng)域適應(yīng)方法進(jìn)行比較。*
? 為了驗(yàn)證MMD做出正確的選擇揍庄,我們?cè)俅螌MD與測(cè)試集上的性能進(jìn)行比較咆蒿。 圖4顯示我們?yōu)檫m應(yīng)層選擇了256個(gè)維度,雖然此設(shè)置不是最大化測(cè)試性能的設(shè)置,但它似乎是一個(gè)合理的選擇沃测。 特別是缭黔,使用MMD可以避免選擇性能受損的極端值。 值得注意的是蒂破,該情節(jié)有相當(dāng)多的不規(guī)則性 - 也許精確的采樣將允許更準(zhǔn)確的選擇馏谨。
使用域混淆正則化進(jìn)行微調(diào)
一旦我們確定了我們對(duì)適應(yīng)層尺寸的選擇,我們就可以使用第3節(jié)中描述的聯(lián)合損失開始微調(diào)附迷。但是惧互,我們需要設(shè)置正則化超參數(shù)λ。 將λ設(shè)置得太低將導(dǎo)致MMD正則化器對(duì)學(xué)習(xí)到的特征沒有影響喇伯,但是將λ設(shè)置得太高將會(huì)過度調(diào)整并學(xué)習(xí)退化特征壹哺,其中所有點(diǎn)都太靠近在一起。 我們將正則化超參數(shù)設(shè)置為λ=
0.25艘刚,這使得目標(biāo)主要加權(quán)分類管宵,但具有足夠的正則化以避免過度擬合。
我們對(duì)無(wú)監(jiān)督和監(jiān)督使用相同的微調(diào)架構(gòu)攀甚。 但是箩朴,在監(jiān)督設(shè)置中,分類器對(duì)來(lái)自兩個(gè)域的數(shù)據(jù)進(jìn)行訓(xùn)練秋度,而在無(wú)監(jiān)督設(shè)置中炸庞,由于缺少有標(biāo)簽的訓(xùn)練數(shù)據(jù),分類器僅查看源數(shù)據(jù)荚斯。 在這兩種設(shè)置中埠居,MMD規(guī)范器都可以看到所有數(shù)據(jù),因?yàn)樗恍枰獦?biāo)簽事期。
最后滥壕,因?yàn)檫m應(yīng)層和分類器正在從頭開始訓(xùn)練,我們將其學(xué)習(xí)率設(shè)置為比從預(yù)訓(xùn)練模型復(fù)制的網(wǎng)絡(luò)的較低層高10倍兽泣。 然后通過標(biāo)準(zhǔn)反向傳播優(yōu)化進(jìn)行微調(diào)绎橘。
監(jiān)督的適應(yīng)設(shè)置結(jié)果如表1所示,無(wú)監(jiān)督的自適應(yīng)結(jié)果如表2所示唠倦。我們注意到我們的算法明顯優(yōu)于所有競(jìng)爭(zhēng)方法称鳞。 我們方法的明顯改進(jìn)表明,通過MMD正則化調(diào)整學(xué)習(xí)的適應(yīng)層能夠成功地遷移到新的目標(biāo)域稠鼻。
為了確定MMD正則化如何影響學(xué)習(xí)冈止,我們還在圖5中的亞馬遜→網(wǎng)絡(luò)攝像頭遷移任務(wù)上比較有和沒有正則化的學(xué)習(xí)曲線。我們看到候齿,雖然非正則化的版本最初訓(xùn)練更快熙暴,但它很快就開始過度訓(xùn)練苫亦, 并且測(cè)試精度受到影響。 相比之下怨咪,使用MMD正則化防止網(wǎng)絡(luò)過擬合到源數(shù)據(jù)屋剑,雖然訓(xùn)練需要更長(zhǎng)時(shí)間,但正則化導(dǎo)致更高的最終測(cè)試精度诗眨。
圖5:對(duì)于正則化和非正則化方法的最初700次調(diào)整迭代期間無(wú)監(jiān)督的亞馬遜→Webcam分割的測(cè)試精度圖唉匾。 雖然最初的非正則化訓(xùn)練可以獲得更好的性能,但它可以超過源數(shù)據(jù)匠楚。 相比之下巍膘,使用正則化防止過擬合,因此盡管初始學(xué)習(xí)速度較慢芋簿,但我們最終會(huì)看到更好的最終性能峡懈。*
? 為了進(jìn)一步證明我們學(xué)習(xí)的特征的域不變性,我們?cè)趫D6中繪制了使用我們學(xué)習(xí)的表示的亞馬遜和網(wǎng)絡(luò)攝像頭圖像的t-SNE嵌入与斤,并將其與在預(yù)訓(xùn)練模型中用fc7創(chuàng)建的嵌入進(jìn)行比較肪康。 通過檢查嵌入,我們看到我們的特征表示在混合每個(gè)簇內(nèi)的域時(shí)表現(xiàn)出更嚴(yán)格的類聚類撩穿。 雖然fc7嵌入中存在弱聚類磷支,但我們發(fā)現(xiàn)大多數(shù)緊密聚類由來(lái)自一個(gè)域或另一個(gè)域的數(shù)據(jù)點(diǎn)組成,但很少都是食寡。
在office數(shù)據(jù)集上歷史的進(jìn)步
? 在圖7中雾狈,我們報(bào)告了自引入標(biāo)準(zhǔn)OFFICE數(shù)據(jù)集以來(lái)的歷史進(jìn)展。 我們指出使用傳統(tǒng)特征的方法(例如:SURFBoW)和藍(lán)色圓圈以及使用深紅色方形的深度特征的方法抵皱。 我們展示了兩種適應(yīng)方案善榛。 第一種方案是視覺上遙遠(yuǎn)的域(亞馬遜→網(wǎng)絡(luò)攝像頭)的監(jiān)督適應(yīng)任務(wù)。 對(duì)于此任務(wù)呻畸,我們的算法優(yōu)于DeCAF 3.4%的多類精度移盆。 最后,我們展示了無(wú)監(jiān)督適應(yīng)相似轉(zhuǎn)換的最艱巨的任務(wù)擂错。 在這里味滞,我們表明我們的方法提供了5.5%多類精度的最重要的改進(jìn)樱蛤。
圖7:過去幾年在標(biāo)準(zhǔn)視覺域適應(yīng)數(shù)據(jù)集上的快速進(jìn)展钮呀,結(jié)果[29]。 我們?cè)趤嗰R遜→網(wǎng)絡(luò)攝像頭上展示使用傳統(tǒng)手工設(shè)計(jì)的藍(lán)色圓圈視覺表示的方法昨凡,使用深度表示的方法用紅色方塊表示爽醋。 對(duì)于監(jiān)督任務(wù),我們的方法實(shí)現(xiàn)了84%的多類精度便脊,增加了3%蚂四。 對(duì)于無(wú)監(jiān)督任務(wù),我們的方法實(shí)現(xiàn)了60%的多類精度,增加了6%遂赠。*
結(jié)論
在本文中久妆,我們提出了一個(gè)學(xué)習(xí)領(lǐng)域不變性特征的目標(biāo)函數(shù)用于分類。 該目標(biāo)利用額外的域混淆術(shù)語(yǔ)來(lái)確保在學(xué)習(xí)的特征中無(wú)法區(qū)分域跷睦。 然后筷弦,我們提出了各種方法來(lái)優(yōu)化這一目標(biāo),從固定池的簡(jiǎn)單特征選擇到通過反向傳播直接最小化目標(biāo)的完整卷積架構(gòu)抑诸。
我們的完整方法使用MMD來(lái)選擇體系結(jié)構(gòu)的深度和寬度烂琴,同時(shí)在微調(diào)期間將其用作正則化器,在標(biāo)準(zhǔn)視覺域適應(yīng)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能蜕乡,超越了之前相當(dāng)可觀的方法奸绷。
這些實(shí)驗(yàn)表明,將域混淆項(xiàng)納入判別特征學(xué)習(xí)過程是確保學(xué)習(xí)特征既可用于分類又對(duì)域移位不變的有效方法层玲。
致謝
? 這項(xiàng)工作部分得到了DARPA的MSEE和SMISC計(jì)劃的支持号醉,NSF獎(jiǎng)勵(lì)了IIS-1427425,IIS-1212798和IIS-1116411辛块,豐田以及伯克利遠(yuǎn)景和學(xué)習(xí)中心
圖6:亞馬遜(藍(lán)色)和網(wǎng)絡(luò)攝像頭(綠色)圖像的t-SNE嵌入使用我們基于MMD正則化學(xué)習(xí)的監(jiān)督256維特征(左上)和來(lái)自預(yù)訓(xùn)練模型的原始fc7特征(右下)扣癣。 觀察由我們的特征形成的聚類分離類別,同時(shí)比未訓(xùn)練域不變性的原始特征更有效地混合域憨降。 例如父虑,在fc7-space中,亞馬遜監(jiān)視器和Webcam監(jiān)視器被分成不同的集群授药,而使用我們的所學(xué)習(xí)的特征士嚎,所有與域無(wú)關(guān)的監(jiān)視器都被混合到同一個(gè)集群中。