mixup:超越經(jīng)驗風(fēng)險最小化

論文原文:Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[J]. 2017.
原文鏈接:https://arxiv.org/abs/1710.09412

1.摘要

??大型深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的缀拭,但在記憶和針對對抗樣本的敏感性上卻表現(xiàn)地不太理想诗充。在這項研究中,我們提出了mixup域那,它是一個用以解決這些問題的簡單學(xué)習(xí)原則。實質(zhì)上蹦漠,mixup是在樣本對和其標(biāo)簽的凸組合(convex combinations)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。通過這樣做状您,mixup將神經(jīng)網(wǎng)絡(luò)正規(guī)化以支持訓(xùn)練樣本之間的簡單線性行為傀蓉。我們分別在ImageNet-2012欧漱、CIFAR-10、CIFAR-100葬燎、Google命令和UCI數(shù)據(jù)集上進(jìn)行試驗误甚,研究結(jié)果表明,mixup可以改進(jìn)當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的泛化能力谱净。我們還發(fā)現(xiàn)窑邦,mixup能夠減少對錯誤標(biāo)簽的記憶,增加對抗樣本的健壯性壕探,并能夠穩(wěn)定對生成對抗網(wǎng)絡(luò)的訓(xùn)練過程冈钦。

2.引入

??大型深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺(Krizhevsky 等人于2012年提出)、語音識別(Hinton 等人于2012年提出)和強(qiáng)化學(xué)習(xí)(Silver等人于2016年提出)等領(lǐng)域均實現(xiàn)了突破性發(fā)展浩蓉。在大多數(shù)的成功應(yīng)用中派继,這些神經(jīng)網(wǎng)絡(luò)有兩個共同點:首先宾袜,它們進(jìn)行訓(xùn)練以將其訓(xùn)練數(shù)據(jù)的平均誤差最小化捻艳,這種學(xué)習(xí)規(guī)則也被稱為經(jīng)驗風(fēng)險最小化(Empirical Risk Minimization,ERM)原則(Vapnik于1998年提出)庆猫;其次认轨,這些當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的大小與訓(xùn)練樣本的數(shù)量呈線性關(guān)系。例如月培,Springenberg等人(于2015年提出)的網(wǎng)絡(luò)使用106個參數(shù)來對CIFAR-10數(shù)據(jù)集中的5×104個圖像進(jìn)行建模嘁字,Simonyan和Zisserman(于2015年提出)的網(wǎng)絡(luò)使用108個參數(shù)來對ImageNet-2012數(shù)據(jù)集中的106個圖像進(jìn)行建模,Chelba等人(于2013年提出)的網(wǎng)絡(luò)使用2×10^10個參數(shù)對十億單詞(One Billion Word)數(shù)據(jù)集中的10^9個單詞進(jìn)行建模杉畜。
??引人注目的是纪蜒,學(xué)習(xí)理論(Vapnik和Chervonenkis于1971年提出)的經(jīng)典結(jié)果告訴我們,只要學(xué)習(xí)機(jī)器(如神經(jīng)網(wǎng)絡(luò))的大小不隨著訓(xùn)練數(shù)據(jù)數(shù)量的增加而增加此叠,那么ERM的收斂性就是可以得到保證的纯续。其中,學(xué)習(xí)機(jī)器的大小是根據(jù)其參數(shù)數(shù)量灭袁,或相關(guān)地猬错,根據(jù)其VC復(fù)雜度(Harvey等人于2017年提出)來衡量的
??這一矛盾挑戰(zhàn)了ERM訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的適應(yīng)性,正如在最近的研究中所強(qiáng)調(diào)的那樣茸歧。一方面倦炒,ERM允許大型神經(jīng)網(wǎng)絡(luò)記憶(而不是從中泛化)訓(xùn)練數(shù)據(jù),即使是在強(qiáng)正則化软瞎,或是標(biāo)簽是隨機(jī)分配的分類問題(Zhang等人于2017年提出)中逢唤。另一方面拉讯,在對訓(xùn)練分布之外的樣本(也被稱之為對抗樣本)進(jìn)行評估時,用ERM訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會徹底地改變其預(yù)測結(jié)果(Szegedy等人于2014年提出)智玻。這一證據(jù)表明遂唧,當(dāng)測試分布與訓(xùn)練數(shù)據(jù)略有不同時,ERM便無法對其進(jìn)行解釋或為其提供泛化吊奢。那么盖彭,ERM的替代方案是什么呢?
??選擇在類似但不相同的樣本上進(jìn)行訓(xùn)練以增加到訓(xùn)練數(shù)據(jù)中的方法稱為數(shù)據(jù)增強(qiáng)(data augmentation)(Simard等人于1998年提出)页滚,而后由鄰域風(fēng)險最小化原則(Vicinal Risk Minimization召边,VRM)形式化(Chapelle等人于2000年提出)。在VRM中裹驰,需要用人類知識來描述訓(xùn)練數(shù)據(jù)中每個樣本周圍的鄰域區(qū)域隧熙。然后,可以從訓(xùn)練樣本的附近分布中提取附加的虛擬樣本幻林,以擴(kuò)大訓(xùn)練分布的支持贞盯。例如,當(dāng)進(jìn)行圖像分類時沪饺,通常將一個圖像的鄰域定義為其水平反射躏敢、輕微旋轉(zhuǎn)和輕微縮放的集合。雖然一直以來整葡,數(shù)據(jù)增強(qiáng)都會促使改進(jìn)泛化能力(Simard等人于1998年提出)件余,但是該過程是依賴于數(shù)據(jù)集的,因此需要使用專家知識遭居。除此之外啼器,數(shù)據(jù)擴(kuò)充假設(shè)鄰域中的樣本共享相同的類,并且不對不同類的樣本之間的鄰域關(guān)系進(jìn)行建模俱萍。
??貢獻(xiàn):受到這些問題的啟發(fā)端壳,我們引入了一個簡單的、并且和數(shù)據(jù)無關(guān)的數(shù)據(jù)擴(kuò)充例程枪蘑,稱為mixup损谦。簡而言之,mixup能夠構(gòu)建虛擬的訓(xùn)練樣本:

image.png

??其中(xi,yi)和(xj,yj)是從我們的訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的兩個樣本腥寇,且λ∈[0,1]成翩。因此,mixup通過結(jié)合先驗知識赦役,即特征向量的線性插值應(yīng)該導(dǎo)致相關(guān)目標(biāo)的線性插值麻敌,來擴(kuò)展訓(xùn)練分布。Mixup在很少的幾行代碼中就可以得以實施掂摔,并且引入了最少的計算開銷术羔。
??盡管它很簡單赢赊,但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數(shù)據(jù)集中實現(xiàn)了當(dāng)前最先進(jìn)的性能级历。此外释移,當(dāng)從錯誤數(shù)據(jù)中進(jìn)行學(xué)習(xí),或面對對抗樣本時寥殖,mixup能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)的健壯性玩讳。最后,mixup能夠改善在語音和表格數(shù)據(jù)中的泛化能力嚼贡,并可用于穩(wěn)定GAN的訓(xùn)練過程熏纯。相關(guān)實驗的源代碼資源鏈接:https://coming.soon/mixup。
??我們通過探討與之前工作的聯(lián)系來結(jié)束本文粤策,并且提出一些觀點以供討論樟澜。

3.從經(jīng)驗風(fēng)險最小到mixup

??在監(jiān)督學(xué)習(xí)當(dāng)中,我們感興趣的是找到一個函數(shù)f來描述隨便一個特征向量X和目標(biāo)向量Y之間的關(guān)系叮盘,這種關(guān)系遵循聯(lián)合分布P(X,Y)秩贰。為此,我們定義了一個損失函數(shù)L用來懲罰預(yù)測值f(x)和實際目標(biāo)值y之間的區(qū)別柔吼。然后呢毒费,我們最小化在這個數(shù)據(jù)分布P上的平均損失,這也就是我們熟知的期望風(fēng)險:
image.png

?? 不幸的是嚷堡,這個分布P在絕大多數(shù)情況下都是未知的蝗罗。不過呢艇棕,我們通常很容易獲取一個訓(xùn)練數(shù)據(jù)集
image.png
在這里對于i=1,2,...,n來說蝌戒,
image.png
。使用這個訓(xùn)練集沼琉,我們能通過經(jīng)驗分布獲取到近似的P
image.png
在這里北苟,
image.png

是以(xi,yi)為中心的迪拉克測度。使用經(jīng)驗分布
image.png
打瘪,我們能夠獲得經(jīng)驗風(fēng)險的近似期望風(fēng)險:
image.png
通過最小化上面式子而學(xué)習(xí)到的函數(shù)f就是廣為人知的經(jīng)驗風(fēng)險最小化理論,Empirical Risk Minimization (ERP)(Vapnik,1998)友鼻。雖然計算效率很高,但是經(jīng)驗損失只監(jiān)控了有限的n個樣本上函數(shù)f的表現(xiàn)闺骚。當(dāng)考慮一個具有與n相當(dāng)數(shù)量參數(shù)的函數(shù)時(比如大型神經(jīng)網(wǎng)絡(luò))彩扔,一個最簡單的方法就是直接記住這個訓(xùn)練數(shù)據(jù)。不過僻爽,這種記憶反過來使得f在訓(xùn)練集之外的數(shù)據(jù)上表現(xiàn)不夠令人滿意虫碉。
??然而,樸素估計
image.png
是用來近似真實分布的很多方法的其中一種胸梆。比如敦捧,在鄰域風(fēng)險最小化(Vicinal Risk Minimization须板,VRM)原則中,分布P就是用下式來定義
image.png
這里兢卵,v是一個鄰域分布习瑰,用來表示在訓(xùn)練特征-目標(biāo)對(xi,yi)鄰域上尋找到虛構(gòu)特征-目標(biāo)對
image.png
的概率。特別地秽荤,Chapelle等人考慮高斯鄰域
image.png
甜奄,這等價于通過添加高斯噪聲來增強(qiáng)數(shù)據(jù)。在使用VRM學(xué)習(xí)時窃款,我們在鄰域分布上采樣來構(gòu)造一個數(shù)據(jù)集
image.png
贺嫂,并且最小化經(jīng)驗鄰域風(fēng)險:
image.png

本篇論文的貢獻(xiàn)在于提出了一種通用的鄰域分布,mixup:
image.png
在這里雁乡,
image.png
總而言之第喳,從mixup鄰域分布采樣,產(chǎn)生虛擬特征-目標(biāo)向量
image.png
這里踱稍,(xi曲饱,yi)和(xj,yj)是從訓(xùn)練數(shù)據(jù)中隨機(jī)抽樣的2個特征-目標(biāo)向量,λ屬于[0,1]珠月。mixup的超參數(shù)α控制著特征-目標(biāo)對之間插值的強(qiáng)度扩淀,當(dāng)α趨于0的時候mixup模型回歸會回歸到ERM。
?? mixup的實現(xiàn)簡單直接啤挎,下圖展示了用PyTorch訓(xùn)練時實現(xiàn)mixup的幾行必要的代碼驻谆。
?? mixup究竟做了什么?mixup鄰域分布可以被理解為一種數(shù)據(jù)增強(qiáng)方式庆聘,它令模型在處理樣本和樣本之間的區(qū)域時表現(xiàn)為線性胜臊。我們認(rèn)為,這種線性建模減少了在預(yù)測訓(xùn)練樣本以外的數(shù)據(jù)時的不適應(yīng)性伙判。從奧卡姆剃刀的原理出發(fā)象对,線性是一個很好的歸納偏見,因為它是最簡單的可能的幾種行為之一宴抚。圖1顯示了mixup導(dǎo)致決策邊界從一個類到另一個類線性的轉(zhuǎn)變勒魔,提供了一個更平滑的不確定性估計。圖2顯示了在CIFAR-10數(shù)據(jù)集上用mixup和ERM兩個方法訓(xùn)練的兩個神經(jīng)網(wǎng)絡(luò)模型的平均表現(xiàn)菇曲。兩個模型有相同的結(jié)構(gòu)冠绢,使用相同的訓(xùn)練過程,在同一個從訓(xùn)練數(shù)據(jù)里隨機(jī)抽樣而來的樣本上來評估常潮。用mixup訓(xùn)練的模型在預(yù)測訓(xùn)練數(shù)據(jù)之間的數(shù)據(jù)時更穩(wěn)定弟胀。
image.png
image.png

4.討論

?? 在此研究中,我們提出了mixup,一個和數(shù)據(jù)無關(guān)的邮利、簡單的數(shù)據(jù)增強(qiáng)原則弥雹。研究結(jié)果表明,mixup是鄰域風(fēng)險最小化的一種形式延届,它在虛擬樣本(即構(gòu)建為訓(xùn)練集中的兩個隨機(jī)樣本及其標(biāo)簽的線性插值)中進(jìn)行訓(xùn)練剪勿。將mixup集成到現(xiàn)有的訓(xùn)練管道中僅需要幾行代碼,并且很少或幾乎沒有計算開銷方庭。在廣泛的評估中厕吉,結(jié)果已經(jīng)表明,mixup改進(jìn)了當(dāng)前最先進(jìn)的模型在ImageNet械念、CIFAR头朱、語音和表格數(shù)據(jù)集中的泛化誤差。此外龄减,mixup有助于有助于消除對錯誤標(biāo)簽的記憶项钮、對對抗樣本的敏感性以及對抗訓(xùn)練的不穩(wěn)定性。
?? 在我們的實驗中希停,以下思維趨勢是一致的:隨著α越來越大烁巫,實際數(shù)據(jù)的訓(xùn)練誤差就會增加,而泛化差距會縮小宠能。這就支持了我們的假設(shè)亚隙,即mixup隱式地控制了模型的復(fù)雜性。然而违崇,我們還沒有一個很好的理論來理解這種偏差—方差平衡(bias-variance trade-off)的“最佳點”阿弃。例如,在CIFAR-10分類中羞延,即使在α → ∞(即僅對真實樣本的平均值進(jìn)行訓(xùn)練)的情況下渣淳,我們?nèi)匀豢梢栽谡鎸崝?shù)據(jù)中獲得非常低的訓(xùn)練誤差。而在ImageNet分類中肴楷,當(dāng)α → ∞時水由,真實數(shù)據(jù)的訓(xùn)練誤差會顯著增加荠呐∪瑁考慮到我們的ImageNet和Google命令實驗是用不同的模型架構(gòu)進(jìn)行的,我們推測泥张,增加模型容量會降低訓(xùn)練誤差對較大的α的敏感性呵恢,從而給予mixup一個更大的優(yōu)勢。
??與此同時媚创,mixup還為進(jìn)行進(jìn)一步探索開辟了幾種可能性渗钉。首先,是否有可能讓類似的想法在其他類型的監(jiān)督學(xué)習(xí)問題上發(fā)揮作用,比如回歸和結(jié)構(gòu)化預(yù)測鳄橘?雖然將mixup泛化到回歸問題是很簡單的声离,但要將其應(yīng)用到諸如圖像分割這樣的結(jié)構(gòu)化預(yù)測問題上效果就不那么明顯了。第二瘫怜,類似的方法能否在監(jiān)督學(xué)習(xí)之外的問題上有所幫助术徊?插補(bǔ)原理似乎是一種合理的歸納偏置(inductive bias),即也有可能在無監(jiān)督鲸湃、半監(jiān)督和強(qiáng)化學(xué)習(xí)中有所幫助赠涮。我們是否可以將mixup擴(kuò)展到特征標(biāo)簽外插,以確保遠(yuǎn)離訓(xùn)練數(shù)據(jù)的強(qiáng)大的模型行為暗挑?雖然我們對這些方向的討論仍然是具有推測性的笋除,但我們對mixup未來所能開辟的可能性抱有極大的期待,并希望我們的觀察結(jié)果將有助于未來的發(fā)展炸裆。
參考翻譯:http://blog.csdn.net/cygqjbabx875u/article/details/78421324

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末垃它,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子烹看,更是在濱河造成了極大的恐慌嗤瞎,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件听系,死亡現(xiàn)場離奇詭異贝奇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)靠胜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門掉瞳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人浪漠,你說我怎么就攤上這事陕习。” “怎么了址愿?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵该镣,是天一觀的道長。 經(jīng)常有香客問我响谓,道長损合,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任娘纷,我火速辦了婚禮嫁审,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赖晶。我一直安慰自己律适,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捂贿,像睡著了一般纠修。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上厂僧,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天分瘾,我揣著相機(jī)與錄音,去河邊找鬼吁系。 笑死德召,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汽纤。 我是一名探鬼主播上岗,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蕴坪!你這毒婦竟也來了肴掷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤背传,失蹤者是張志新(化名)和其女友劉穎呆瞻,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體径玖,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡痴脾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了梳星。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赞赖。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖冤灾,靈堂內(nèi)的尸體忽然破棺而出前域,到底是詐尸還是另有隱情,我是刑警寧澤韵吨,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布匿垄,位于F島的核電站,受9級特大地震影響归粉,放射性物質(zhì)發(fā)生泄漏椿疗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一盏浇、第九天 我趴在偏房一處隱蔽的房頂上張望变丧。 院中可真熱鬧,春花似錦绢掰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽攻晒。三九已至,卻和暖如春班挖,著一層夾襖步出監(jiān)牢的瞬間鲁捏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工萧芙, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留给梅,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓双揪,卻偏偏與公主長得像动羽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子渔期,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容