論文原文:Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[J]. 2017.
原文鏈接:https://arxiv.org/abs/1710.09412
1.摘要
??大型深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的缀拭,但在記憶和針對對抗樣本的敏感性上卻表現(xiàn)地不太理想诗充。在這項研究中,我們提出了mixup域那,它是一個用以解決這些問題的簡單學(xué)習(xí)原則。實質(zhì)上蹦漠,mixup是在樣本對和其標(biāo)簽的凸組合(convex combinations)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。通過這樣做状您,mixup將神經(jīng)網(wǎng)絡(luò)正規(guī)化以支持訓(xùn)練樣本之間的簡單線性行為傀蓉。我們分別在ImageNet-2012欧漱、CIFAR-10、CIFAR-100葬燎、Google命令和UCI數(shù)據(jù)集上進(jìn)行試驗误甚,研究結(jié)果表明,mixup可以改進(jìn)當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的泛化能力谱净。我們還發(fā)現(xiàn)窑邦,mixup能夠減少對錯誤標(biāo)簽的記憶,增加對抗樣本的健壯性壕探,并能夠穩(wěn)定對生成對抗網(wǎng)絡(luò)的訓(xùn)練過程冈钦。
2.引入
??大型深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺(Krizhevsky 等人于2012年提出)、語音識別(Hinton 等人于2012年提出)和強(qiáng)化學(xué)習(xí)(Silver等人于2016年提出)等領(lǐng)域均實現(xiàn)了突破性發(fā)展浩蓉。在大多數(shù)的成功應(yīng)用中派继,這些神經(jīng)網(wǎng)絡(luò)有兩個共同點:首先宾袜,它們進(jìn)行訓(xùn)練以將其訓(xùn)練數(shù)據(jù)的平均誤差最小化捻艳,這種學(xué)習(xí)規(guī)則也被稱為經(jīng)驗風(fēng)險最小化(Empirical Risk Minimization,ERM)原則(Vapnik于1998年提出)庆猫;其次认轨,這些當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的大小與訓(xùn)練樣本的數(shù)量呈線性關(guān)系。例如月培,Springenberg等人(于2015年提出)的網(wǎng)絡(luò)使用106個參數(shù)來對CIFAR-10數(shù)據(jù)集中的5×104個圖像進(jìn)行建模嘁字,Simonyan和Zisserman(于2015年提出)的網(wǎng)絡(luò)使用108個參數(shù)來對ImageNet-2012數(shù)據(jù)集中的106個圖像進(jìn)行建模,Chelba等人(于2013年提出)的網(wǎng)絡(luò)使用2×10^10個參數(shù)對十億單詞(One Billion Word)數(shù)據(jù)集中的10^9個單詞進(jìn)行建模杉畜。
??引人注目的是纪蜒,學(xué)習(xí)理論(Vapnik和Chervonenkis于1971年提出)的經(jīng)典結(jié)果告訴我們,只要學(xué)習(xí)機(jī)器(如神經(jīng)網(wǎng)絡(luò))的大小不隨著訓(xùn)練數(shù)據(jù)數(shù)量的增加而增加此叠,那么ERM的收斂性就是可以得到保證的纯续。其中,學(xué)習(xí)機(jī)器的大小是根據(jù)其參數(shù)數(shù)量灭袁,或相關(guān)地猬错,根據(jù)其VC復(fù)雜度(Harvey等人于2017年提出)來衡量的
??這一矛盾挑戰(zhàn)了ERM訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的適應(yīng)性,正如在最近的研究中所強(qiáng)調(diào)的那樣茸歧。一方面倦炒,ERM允許大型神經(jīng)網(wǎng)絡(luò)記憶(而不是從中泛化)訓(xùn)練數(shù)據(jù),即使是在強(qiáng)正則化软瞎,或是標(biāo)簽是隨機(jī)分配的分類問題(Zhang等人于2017年提出)中逢唤。另一方面拉讯,在對訓(xùn)練分布之外的樣本(也被稱之為對抗樣本)進(jìn)行評估時,用ERM訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會徹底地改變其預(yù)測結(jié)果(Szegedy等人于2014年提出)智玻。這一證據(jù)表明遂唧,當(dāng)測試分布與訓(xùn)練數(shù)據(jù)略有不同時,ERM便無法對其進(jìn)行解釋或為其提供泛化吊奢。那么盖彭,ERM的替代方案是什么呢?
??選擇在類似但不相同的樣本上進(jìn)行訓(xùn)練以增加到訓(xùn)練數(shù)據(jù)中的方法稱為數(shù)據(jù)增強(qiáng)(data augmentation)(Simard等人于1998年提出)页滚,而后由鄰域風(fēng)險最小化原則(Vicinal Risk Minimization召边,VRM)形式化(Chapelle等人于2000年提出)。在VRM中裹驰,需要用人類知識來描述訓(xùn)練數(shù)據(jù)中每個樣本周圍的鄰域區(qū)域隧熙。然后,可以從訓(xùn)練樣本的附近分布中提取附加的虛擬樣本幻林,以擴(kuò)大訓(xùn)練分布的支持贞盯。例如,當(dāng)進(jìn)行圖像分類時沪饺,通常將一個圖像的鄰域定義為其水平反射躏敢、輕微旋轉(zhuǎn)和輕微縮放的集合。雖然一直以來整葡,數(shù)據(jù)增強(qiáng)都會促使改進(jìn)泛化能力(Simard等人于1998年提出)件余,但是該過程是依賴于數(shù)據(jù)集的,因此需要使用專家知識遭居。除此之外啼器,數(shù)據(jù)擴(kuò)充假設(shè)鄰域中的樣本共享相同的類,并且不對不同類的樣本之間的鄰域關(guān)系進(jìn)行建模俱萍。
??貢獻(xiàn):受到這些問題的啟發(fā)端壳,我們引入了一個簡單的、并且和數(shù)據(jù)無關(guān)的數(shù)據(jù)擴(kuò)充例程枪蘑,稱為mixup损谦。簡而言之,mixup能夠構(gòu)建虛擬的訓(xùn)練樣本:
??其中(xi,yi)和(xj,yj)是從我們的訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的兩個樣本腥寇,且λ∈[0,1]成翩。因此,mixup通過結(jié)合先驗知識赦役,即特征向量的線性插值應(yīng)該導(dǎo)致相關(guān)目標(biāo)的線性插值麻敌,來擴(kuò)展訓(xùn)練分布。Mixup在很少的幾行代碼中就可以得以實施掂摔,并且引入了最少的計算開銷术羔。
??盡管它很簡單赢赊,但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數(shù)據(jù)集中實現(xiàn)了當(dāng)前最先進(jìn)的性能级历。此外释移,當(dāng)從錯誤數(shù)據(jù)中進(jìn)行學(xué)習(xí),或面對對抗樣本時寥殖,mixup能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)的健壯性玩讳。最后,mixup能夠改善在語音和表格數(shù)據(jù)中的泛化能力嚼贡,并可用于穩(wěn)定GAN的訓(xùn)練過程熏纯。相關(guān)實驗的源代碼資源鏈接:https://coming.soon/mixup。
??我們通過探討與之前工作的聯(lián)系來結(jié)束本文粤策,并且提出一些觀點以供討論樟澜。
3.從經(jīng)驗風(fēng)險最小到mixup
??在監(jiān)督學(xué)習(xí)當(dāng)中,我們感興趣的是找到一個函數(shù)f來描述隨便一個特征向量X和目標(biāo)向量Y之間的關(guān)系叮盘,這種關(guān)系遵循聯(lián)合分布P(X,Y)秩贰。為此,我們定義了一個損失函數(shù)L用來懲罰預(yù)測值f(x)和實際目標(biāo)值y之間的區(qū)別柔吼。然后呢毒费,我們最小化在這個數(shù)據(jù)分布P上的平均損失,這也就是我們熟知的期望風(fēng)險:?? 不幸的是嚷堡,這個分布P在絕大多數(shù)情況下都是未知的蝗罗。不過呢艇棕,我們通常很容易獲取一個訓(xùn)練數(shù)據(jù)集
??然而,樸素估計
?? mixup的實現(xiàn)簡單直接啤挎,下圖展示了用PyTorch訓(xùn)練時實現(xiàn)mixup的幾行必要的代碼驻谆。
?? mixup究竟做了什么?mixup鄰域分布可以被理解為一種數(shù)據(jù)增強(qiáng)方式庆聘,它令模型在處理樣本和樣本之間的區(qū)域時表現(xiàn)為線性胜臊。我們認(rèn)為,這種線性建模減少了在預(yù)測訓(xùn)練樣本以外的數(shù)據(jù)時的不適應(yīng)性伙判。從奧卡姆剃刀的原理出發(fā)象对,線性是一個很好的歸納偏見,因為它是最簡單的可能的幾種行為之一宴抚。圖1顯示了mixup導(dǎo)致決策邊界從一個類到另一個類線性的轉(zhuǎn)變勒魔,提供了一個更平滑的不確定性估計。圖2顯示了在CIFAR-10數(shù)據(jù)集上用mixup和ERM兩個方法訓(xùn)練的兩個神經(jīng)網(wǎng)絡(luò)模型的平均表現(xiàn)菇曲。兩個模型有相同的結(jié)構(gòu)冠绢,使用相同的訓(xùn)練過程,在同一個從訓(xùn)練數(shù)據(jù)里隨機(jī)抽樣而來的樣本上來評估常潮。用mixup訓(xùn)練的模型在預(yù)測訓(xùn)練數(shù)據(jù)之間的數(shù)據(jù)時更穩(wěn)定弟胀。
4.討論
?? 在此研究中,我們提出了mixup,一個和數(shù)據(jù)無關(guān)的邮利、簡單的數(shù)據(jù)增強(qiáng)原則弥雹。研究結(jié)果表明,mixup是鄰域風(fēng)險最小化的一種形式延届,它在虛擬樣本(即構(gòu)建為訓(xùn)練集中的兩個隨機(jī)樣本及其標(biāo)簽的線性插值)中進(jìn)行訓(xùn)練剪勿。將mixup集成到現(xiàn)有的訓(xùn)練管道中僅需要幾行代碼,并且很少或幾乎沒有計算開銷方庭。在廣泛的評估中厕吉,結(jié)果已經(jīng)表明,mixup改進(jìn)了當(dāng)前最先進(jìn)的模型在ImageNet械念、CIFAR头朱、語音和表格數(shù)據(jù)集中的泛化誤差。此外龄减,mixup有助于有助于消除對錯誤標(biāo)簽的記憶项钮、對對抗樣本的敏感性以及對抗訓(xùn)練的不穩(wěn)定性。
?? 在我們的實驗中希停,以下思維趨勢是一致的:隨著α越來越大烁巫,實際數(shù)據(jù)的訓(xùn)練誤差就會增加,而泛化差距會縮小宠能。這就支持了我們的假設(shè)亚隙,即mixup隱式地控制了模型的復(fù)雜性。然而违崇,我們還沒有一個很好的理論來理解這種偏差—方差平衡(bias-variance trade-off)的“最佳點”阿弃。例如,在CIFAR-10分類中羞延,即使在α → ∞(即僅對真實樣本的平均值進(jìn)行訓(xùn)練)的情況下渣淳,我們?nèi)匀豢梢栽谡鎸崝?shù)據(jù)中獲得非常低的訓(xùn)練誤差。而在ImageNet分類中肴楷,當(dāng)α → ∞時水由,真實數(shù)據(jù)的訓(xùn)練誤差會顯著增加荠呐∪瑁考慮到我們的ImageNet和Google命令實驗是用不同的模型架構(gòu)進(jìn)行的,我們推測泥张,增加模型容量會降低訓(xùn)練誤差對較大的α的敏感性呵恢,從而給予mixup一個更大的優(yōu)勢。
??與此同時媚创,mixup還為進(jìn)行進(jìn)一步探索開辟了幾種可能性渗钉。首先,是否有可能讓類似的想法在其他類型的監(jiān)督學(xué)習(xí)問題上發(fā)揮作用,比如回歸和結(jié)構(gòu)化預(yù)測鳄橘?雖然將mixup泛化到回歸問題是很簡單的声离,但要將其應(yīng)用到諸如圖像分割這樣的結(jié)構(gòu)化預(yù)測問題上效果就不那么明顯了。第二瘫怜,類似的方法能否在監(jiān)督學(xué)習(xí)之外的問題上有所幫助术徊?插補(bǔ)原理似乎是一種合理的歸納偏置(inductive bias),即也有可能在無監(jiān)督鲸湃、半監(jiān)督和強(qiáng)化學(xué)習(xí)中有所幫助赠涮。我們是否可以將mixup擴(kuò)展到特征標(biāo)簽外插,以確保遠(yuǎn)離訓(xùn)練數(shù)據(jù)的強(qiáng)大的模型行為暗挑?雖然我們對這些方向的討論仍然是具有推測性的笋除,但我們對mixup未來所能開辟的可能性抱有極大的期待,并希望我們的觀察結(jié)果將有助于未來的發(fā)展炸裆。
參考翻譯:http://blog.csdn.net/cygqjbabx875u/article/details/78421324