mixup:超越經(jīng)驗風(fēng)險最小化

論文原文：Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[J]. 2017.
原文鏈接：https://arxiv.org/abs/1710.09412

1.摘要

??大型深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的缀拭，但在記憶和針對對抗樣本的敏感性上卻表現(xiàn)地不太理想诗充。在這項研究中，我們提出了mixup域那，它是一個用以解決這些問題的簡單學(xué)習(xí)原則。實質(zhì)上蹦漠，mixup是在樣本對和其標(biāo)簽的凸組合（convex combinations）上訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。通過這樣做状您，mixup將神經(jīng)網(wǎng)絡(luò)正規(guī)化以支持訓(xùn)練樣本之間的簡單線性行為傀蓉。我們分別在ImageNet-2012欧漱、CIFAR-10、CIFAR-100葬燎、Google命令和UCI數(shù)據(jù)集上進(jìn)行試驗误甚，研究結(jié)果表明，mixup可以改進(jìn)當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的泛化能力谱净。我們還發(fā)現(xiàn)窑邦，mixup能夠減少對錯誤標(biāo)簽的記憶，增加對抗樣本的健壯性壕探，并能夠穩(wěn)定對生成對抗網(wǎng)絡(luò)的訓(xùn)練過程冈钦。

2.引入

??大型深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺（Krizhevsky 等人于2012年提出）、語音識別（Hinton 等人于2012年提出）和強(qiáng)化學(xué)習(xí)（Silver等人于2016年提出）等領(lǐng)域均實現(xiàn)了突破性發(fā)展浩蓉。在大多數(shù)的成功應(yīng)用中派继，這些神經(jīng)網(wǎng)絡(luò)有兩個共同點：首先宾袜，它們進(jìn)行訓(xùn)練以將其訓(xùn)練數(shù)據(jù)的平均誤差最小化捻艳，這種學(xué)習(xí)規(guī)則也被稱為經(jīng)驗風(fēng)險最小化（Empirical Risk Minimization，ERM）原則（Vapnik于1998年提出）庆猫；其次认轨，這些當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的大小與訓(xùn)練樣本的數(shù)量呈線性關(guān)系。例如月培，Springenberg等人（于2015年提出）的網(wǎng)絡(luò)使用10^{6個參數(shù)來對CIFAR-10數(shù)據(jù)集中的5×10}4個圖像進(jìn)行建模嘁字，Simonyan和Zisserman（于2015年提出）的網(wǎng)絡(luò)使用10^{8個參數(shù)來對ImageNet-2012數(shù)據(jù)集中的10}6個圖像進(jìn)行建模，Chelba等人（于2013年提出）的網(wǎng)絡(luò)使用2×10^10個參數(shù)對十億單詞（One Billion Word）數(shù)據(jù)集中的10^9個單詞進(jìn)行建模杉畜。
??引人注目的是纪蜒，學(xué)習(xí)理論（Vapnik和Chervonenkis于1971年提出）的經(jīng)典結(jié)果告訴我們，只要學(xué)習(xí)機(jī)器（如神經(jīng)網(wǎng)絡(luò)）的大小不隨著訓(xùn)練數(shù)據(jù)數(shù)量的增加而增加此叠，那么ERM的收斂性就是可以得到保證的纯续。其中，學(xué)習(xí)機(jī)器的大小是根據(jù)其參數(shù)數(shù)量灭袁，或相關(guān)地猬错，根據(jù)其VC復(fù)雜度（Harvey等人于2017年提出）來衡量的
??這一矛盾挑戰(zhàn)了ERM訓(xùn)練當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的適應(yīng)性，正如在最近的研究中所強(qiáng)調(diào)的那樣茸歧。一方面倦炒，ERM允許大型神經(jīng)網(wǎng)絡(luò)記憶（而不是從中泛化）訓(xùn)練數(shù)據(jù)，即使是在強(qiáng)正則化软瞎，或是標(biāo)簽是隨機(jī)分配的分類問題（Zhang等人于2017年提出）中逢唤。另一方面拉讯，在對訓(xùn)練分布之外的樣本（也被稱之為對抗樣本）進(jìn)行評估時，用ERM訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會徹底地改變其預(yù)測結(jié)果（Szegedy等人于2014年提出）智玻。這一證據(jù)表明遂唧，當(dāng)測試分布與訓(xùn)練數(shù)據(jù)略有不同時，ERM便無法對其進(jìn)行解釋或為其提供泛化吊奢。那么盖彭，ERM的替代方案是什么呢？
??選擇在類似但不相同的樣本上進(jìn)行訓(xùn)練以增加到訓(xùn)練數(shù)據(jù)中的方法稱為數(shù)據(jù)增強(qiáng)（data augmentation）（Simard等人于1998年提出）页滚，而后由鄰域風(fēng)險最小化原則（Vicinal Risk Minimization召边，VRM）形式化（Chapelle等人于2000年提出）。在VRM中裹驰，需要用人類知識來描述訓(xùn)練數(shù)據(jù)中每個樣本周圍的鄰域區(qū)域隧熙。然后，可以從訓(xùn)練樣本的附近分布中提取附加的虛擬樣本幻林，以擴(kuò)大訓(xùn)練分布的支持贞盯。例如，當(dāng)進(jìn)行圖像分類時沪饺，通常將一個圖像的鄰域定義為其水平反射躏敢、輕微旋轉(zhuǎn)和輕微縮放的集合。雖然一直以來整葡，數(shù)據(jù)增強(qiáng)都會促使改進(jìn)泛化能力（Simard等人于1998年提出）件余，但是該過程是依賴于數(shù)據(jù)集的，因此需要使用專家知識遭居。除此之外啼器，數(shù)據(jù)擴(kuò)充假設(shè)鄰域中的樣本共享相同的類，并且不對不同類的樣本之間的鄰域關(guān)系進(jìn)行建模俱萍。
??貢獻(xiàn)：受到這些問題的啟發(fā)端壳，我們引入了一個簡單的、并且和數(shù)據(jù)無關(guān)的數(shù)據(jù)擴(kuò)充例程枪蘑，稱為mixup损谦。簡而言之，mixup能夠構(gòu)建虛擬的訓(xùn)練樣本：

image.png

??其中(xi,yi)和(xj,yj)是從我們的訓(xùn)練數(shù)據(jù)中隨機(jī)抽取的兩個樣本腥寇，且λ∈[0,1]成翩。因此，mixup通過結(jié)合先驗知識赦役，即特征向量的線性插值應(yīng)該導(dǎo)致相關(guān)目標(biāo)的線性插值麻敌，來擴(kuò)展訓(xùn)練分布。Mixup在很少的幾行代碼中就可以得以實施掂摔，并且引入了最少的計算開銷术羔。
??盡管它很簡單赢赊，但mixup在CIFAR-10、CIFAR-100和ImageNet-2012圖像分類數(shù)據(jù)集中實現(xiàn)了當(dāng)前最先進(jìn)的性能级历。此外释移，當(dāng)從錯誤數(shù)據(jù)中進(jìn)行學(xué)習(xí)，或面對對抗樣本時寥殖，mixup能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)的健壯性玩讳。最后，mixup能夠改善在語音和表格數(shù)據(jù)中的泛化能力嚼贡，并可用于穩(wěn)定GAN的訓(xùn)練過程熏纯。相關(guān)實驗的源代碼資源鏈接：https：//coming.soon/mixup。
??我們通過探討與之前工作的聯(lián)系來結(jié)束本文粤策，并且提出一些觀點以供討論樟澜。

3.從經(jīng)驗風(fēng)險最小到mixup

??在監(jiān)督學(xué)習(xí)當(dāng)中，我們感興趣的是找到一個函數(shù)f來描述隨便一個特征向量X和目標(biāo)向量Y之間的關(guān)系叮盘，這種關(guān)系遵循聯(lián)合分布P(X,Y)秩贰。為此，我們定義了一個損失函數(shù)L用來懲罰預(yù)測值f(x)和實際目標(biāo)值y之間的區(qū)別柔吼。然后呢毒费，我們最小化在這個數(shù)據(jù)分布P上的平均損失，這也就是我們熟知的期望風(fēng)險：

image.png

?? 不幸的是嚷堡，這個分布P在絕大多數(shù)情況下都是未知的蝗罗。不過呢艇棕，我們通常很容易獲取一個訓(xùn)練數(shù)據(jù)集

image.png

在這里對于i=1,2,...,n來說蝌戒，

image.png

。使用這個訓(xùn)練集沼琉，我們能通過經(jīng)驗分布獲取到近似的P

image.png

在這里北苟，

image.png

是以(xi,yi)為中心的迪拉克測度。使用經(jīng)驗分布

image.png

打瘪，我們能夠獲得經(jīng)驗風(fēng)險的近似期望風(fēng)險：

image.png

通過最小化上面式子而學(xué)習(xí)到的函數(shù)f就是廣為人知的經(jīng)驗風(fēng)險最小化理論,Empirical Risk Minimization (ERP)(Vapnik,1998)友鼻。雖然計算效率很高，但是經(jīng)驗損失只監(jiān)控了有限的n個樣本上函數(shù)f的表現(xiàn)闺骚。當(dāng)考慮一個具有與n相當(dāng)數(shù)量參數(shù)的函數(shù)時(比如大型神經(jīng)網(wǎng)絡(luò))彩扔，一個最簡單的方法就是直接記住這個訓(xùn)練數(shù)據(jù)。不過僻爽，這種記憶反過來使得f在訓(xùn)練集之外的數(shù)據(jù)上表現(xiàn)不夠令人滿意虫碉。
??然而，樸素估計

image.png

是用來近似真實分布的很多方法的其中一種胸梆。比如敦捧，在鄰域風(fēng)險最小化(Vicinal Risk Minimization须板，VRM)原則中，分布P就是用下式來定義

image.png

這里兢卵，v是一個鄰域分布习瑰，用來表示在訓(xùn)練特征-目標(biāo)對(xi,yi)鄰域上尋找到虛構(gòu)特征-目標(biāo)對

image.png

的概率。特別地秽荤，Chapelle等人考慮高斯鄰域

image.png

甜奄，這等價于通過添加高斯噪聲來增強(qiáng)數(shù)據(jù)。在使用VRM學(xué)習(xí)時窃款，我們在鄰域分布上采樣來構(gòu)造一個數(shù)據(jù)集

image.png

贺嫂，并且最小化經(jīng)驗鄰域風(fēng)險：

image.png

本篇論文的貢獻(xiàn)在于提出了一種通用的鄰域分布，mixup：

image.png

在這里雁乡，

image.png

總而言之第喳，從mixup鄰域分布采樣，產(chǎn)生虛擬特征-目標(biāo)向量

image.png

這里踱稍，(xi曲饱，yi)和(xj,yj)是從訓(xùn)練數(shù)據(jù)中隨機(jī)抽樣的2個特征-目標(biāo)向量，λ屬于[0,1]珠月。mixup的超參數(shù)α控制著特征-目標(biāo)對之間插值的強(qiáng)度扩淀，當(dāng)α趨于0的時候mixup模型回歸會回歸到ERM。
?? mixup的實現(xiàn)簡單直接啤挎，下圖展示了用PyTorch訓(xùn)練時實現(xiàn)mixup的幾行必要的代碼驻谆。
?? mixup究竟做了什么？mixup鄰域分布可以被理解為一種數(shù)據(jù)增強(qiáng)方式庆聘，它令模型在處理樣本和樣本之間的區(qū)域時表現(xiàn)為線性胜臊。我們認(rèn)為，這種線性建模減少了在預(yù)測訓(xùn)練樣本以外的數(shù)據(jù)時的不適應(yīng)性伙判。從奧卡姆剃刀的原理出發(fā)象对，線性是一個很好的歸納偏見，因為它是最簡單的可能的幾種行為之一宴抚。圖1顯示了mixup導(dǎo)致決策邊界從一個類到另一個類線性的轉(zhuǎn)變勒魔，提供了一個更平滑的不確定性估計。圖2顯示了在CIFAR-10數(shù)據(jù)集上用mixup和ERM兩個方法訓(xùn)練的兩個神經(jīng)網(wǎng)絡(luò)模型的平均表現(xiàn)菇曲。兩個模型有相同的結(jié)構(gòu)冠绢，使用相同的訓(xùn)練過程，在同一個從訓(xùn)練數(shù)據(jù)里隨機(jī)抽樣而來的樣本上來評估常潮。用mixup訓(xùn)練的模型在預(yù)測訓(xùn)練數(shù)據(jù)之間的數(shù)據(jù)時更穩(wěn)定弟胀。

image.png

4.討論

?? 在此研究中，我們提出了mixup，一個和數(shù)據(jù)無關(guān)的邮利、簡單的數(shù)據(jù)增強(qiáng)原則弥雹。研究結(jié)果表明，mixup是鄰域風(fēng)險最小化的一種形式延届，它在虛擬樣本（即構(gòu)建為訓(xùn)練集中的兩個隨機(jī)樣本及其標(biāo)簽的線性插值）中進(jìn)行訓(xùn)練剪勿。將mixup集成到現(xiàn)有的訓(xùn)練管道中僅需要幾行代碼，并且很少或幾乎沒有計算開銷方庭。在廣泛的評估中厕吉，結(jié)果已經(jīng)表明，mixup改進(jìn)了當(dāng)前最先進(jìn)的模型在ImageNet械念、CIFAR头朱、語音和表格數(shù)據(jù)集中的泛化誤差。此外龄减，mixup有助于有助于消除對錯誤標(biāo)簽的記憶项钮、對對抗樣本的敏感性以及對抗訓(xùn)練的不穩(wěn)定性。
?? 在我們的實驗中希停，以下思維趨勢是一致的：隨著α越來越大烁巫，實際數(shù)據(jù)的訓(xùn)練誤差就會增加，而泛化差距會縮小宠能。這就支持了我們的假設(shè)亚隙，即mixup隱式地控制了模型的復(fù)雜性。然而违崇，我們還沒有一個很好的理論來理解這種偏差—方差平衡（bias-variance trade-off）的“最佳點”阿弃。例如，在CIFAR-10分類中羞延，即使在α → ∞（即僅對真實樣本的平均值進(jìn)行訓(xùn)練）的情況下渣淳，我們?nèi)匀豢梢栽谡鎸崝?shù)據(jù)中獲得非常低的訓(xùn)練誤差。而在ImageNet分類中肴楷，當(dāng)α → ∞時水由，真實數(shù)據(jù)的訓(xùn)練誤差會顯著增加荠呐∪瑁考慮到我們的ImageNet和Google命令實驗是用不同的模型架構(gòu)進(jìn)行的，我們推測泥张，增加模型容量會降低訓(xùn)練誤差對較大的α的敏感性呵恢，從而給予mixup一個更大的優(yōu)勢。
??與此同時媚创，mixup還為進(jìn)行進(jìn)一步探索開辟了幾種可能性渗钉。首先，是否有可能讓類似的想法在其他類型的監(jiān)督學(xué)習(xí)問題上發(fā)揮作用，比如回歸和結(jié)構(gòu)化預(yù)測鳄橘？雖然將mixup泛化到回歸問題是很簡單的声离，但要將其應(yīng)用到諸如圖像分割這樣的結(jié)構(gòu)化預(yù)測問題上效果就不那么明顯了。第二瘫怜，類似的方法能否在監(jiān)督學(xué)習(xí)之外的問題上有所幫助术徊？插補(bǔ)原理似乎是一種合理的歸納偏置（inductive bias），即也有可能在無監(jiān)督鲸湃、半監(jiān)督和強(qiáng)化學(xué)習(xí)中有所幫助赠涮。我們是否可以將mixup擴(kuò)展到特征標(biāo)簽外插，以確保遠(yuǎn)離訓(xùn)練數(shù)據(jù)的強(qiáng)大的模型行為暗挑？雖然我們對這些方向的討論仍然是具有推測性的笋除，但我們對mixup未來所能開辟的可能性抱有極大的期待，并希望我們的觀察結(jié)果將有助于未來的發(fā)展炸裆。
參考翻譯：http://blog.csdn.net/cygqjbabx875u/article/details/78421324

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末垃它，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子烹看，更是在濱河造成了極大的恐慌嗤瞎，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件听系，死亡現(xiàn)場離奇詭異贝奇，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)靠胜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門掉瞳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人浪漠，你說我怎么就攤上這事陕习。” “怎么了址愿？”我有些...
開封第一講書人閱讀 157,921評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵该镣，是天一觀的道長。經(jīng)常有香客問我响谓，道長损合，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,648評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任娘纷，我火速辦了婚禮嫁审，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘赖晶。我一直安慰自己律适，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,770評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著捂贿，像睡著了一般纠修。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上厂僧，一...
開封第一講書人閱讀 49,950評論 1贊 291
城市分裂傳說
那天分瘾，我揣著相機(jī)與錄音，去河邊找鬼吁系。笑死德召，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的汽纤。我是一名探鬼主播上岗，決...
沈念sama閱讀 39,090評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼蕴坪！你這毒婦竟也來了肴掷？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,817評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤背传，失蹤者是張志新（化名）和其女友劉穎呆瞻，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體径玖，經(jīng)...
沈念sama閱讀 44,275評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡痴脾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,592評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了梳星。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赞赖。...
茶點故事閱讀 38,724評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖冤灾，靈堂內(nèi)的尸體忽然破棺而出前域，到底是詐尸還是另有隱情，我是刑警寧澤韵吨，帶...
沈念sama閱讀 34,409評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布匿垄，位于F島的核電站，受9級特大地震影響归粉，放射性物質(zhì)發(fā)生泄漏椿疗。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,052評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一盏浇、第九天我趴在偏房一處隱蔽的房頂上張望变丧。院中可真熱鬧，春花似錦绢掰、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評論 0贊 21
一樁弒父案滴劲，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽攻晒。三九已至，卻和暖如春班挖，著一層夾襖步出監(jiān)牢的瞬間鲁捏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,043評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工萧芙，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留给梅，地道東北人。一個月前我還...
沈念sama閱讀 46,503評論 2贊 361
代替公主和親
正文我出身青樓双揪，卻偏偏與公主長得像动羽，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子渔期，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,627評論 2贊 350

mixup:超越經(jīng)驗風(fēng)險最小化

1.摘要

2.引入

3.從經(jīng)驗風(fēng)險最小到mixup

4.討論

推薦閱讀更多精彩內(nèi)容