李飛飛等人提出MentorNet：讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

姓名：張萌? ? ? ? ? 學(xué)號17021211113

轉(zhuǎn)自:

http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg

【嵌牛導(dǎo)讀】：有老師指導(dǎo)就能更好地學(xué)習(xí)嗎大渤？對于深度神經(jīng)網(wǎng)絡(luò)是否也是如此？近日捻脖，谷歌和斯坦福大學(xué)的研究者在其論文中提出了一種用 MentorNet 監(jiān)督 StudentNet 進行訓(xùn)練的新技術(shù)酪劫。這項研究的第一作者是谷歌云機器學(xué)習(xí)的研究科學(xué)家蔣路（Lu Jiang），另外李佳和李飛飛也參與了該研究。

【嵌牛鼻子】：深度神經(jīng)網(wǎng)絡(luò)

【嵌牛提問】：如何讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲洋丐？

【嵌牛正文】：在目標識別 [19, 15, 39] 和檢測 [14] 等多種視覺任務(wù)上吊圾，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大的成功。當前最佳的深度網(wǎng)絡(luò)有數(shù)百層挂绰，而可訓(xùn)練的模型參數(shù)的數(shù)量更是遠遠超過了它們訓(xùn)練所用的樣本的數(shù)量屎篱。最近一項研究發(fā)現(xiàn)即使是在有損的標簽上（其中部分或所有真實標簽被隨機標簽替換）服赎，深度網(wǎng)絡(luò)也能記憶整個數(shù)據(jù) [45]。正則化（regularization）是一種用于克服過擬合的有效方法交播。張弛原等人 [45] 通過實驗表明：當在有損的標簽上訓(xùn)練時重虑，權(quán)重衰減、數(shù)據(jù)增強 [20] 和 dropout [36] 等常用于神經(jīng)網(wǎng)絡(luò)的正則化算法（即模型正則化器（model regularizer））在提升深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）的生成表現(xiàn)上的效果不佳秦士；我們的研究也證實了這個觀察結(jié)果缺厉。深度 CNN 通常是在大規(guī)模數(shù)據(jù)上訓(xùn)練的，在這些數(shù)據(jù)上的標注通常有很多噪聲 [1,11]隧土。過擬合訓(xùn)練數(shù)據(jù)中的噪聲常常會讓模型的表現(xiàn)變得很差提针。

圖片發(fā)自簡書App

圖 1：已有的正則化方法和我們的正則化方法的圖示。每個點表示一個訓(xùn)練樣本曹傀，點的大小表示樣本權(quán)重辐脖。曲線表示學(xué)習(xí)到的模型。權(quán)重衰減等已有的正則化方法對深度 CNN 而言效果不佳皆愉。數(shù)據(jù)正則化是通過學(xué)習(xí)為樣本分配合適的權(quán)重來解決深度 CNN 的過擬合問題嗜价。

由于模型參數(shù)數(shù)量龐大，所以正則化非常深度的 CNN 頗具挑戰(zhàn)性幕庐。為了解決這一難題炭剪，我們提出了一種在數(shù)據(jù)維（data dimension）中正則化深度 CNN 的全新技術(shù)，我們稱之為數(shù)據(jù)正則化（data regularization）翔脱。我們的目標是通過正則化在有損標簽上訓(xùn)練的 CNN 來提升其在清潔測試數(shù)據(jù)上的泛化表現(xiàn)奴拦。可以被看作是深度 CNN 的網(wǎng)絡(luò)有 Resnet [15] 和 Inception-resnet [39]届吁，它們有幾百層错妖，而且參數(shù)的數(shù)量比訓(xùn)練樣本的數(shù)量多幾個數(shù)量級。具體來說疚沐，我們提出為用于訓(xùn)練該分類網(wǎng)絡(luò)（即 StudentNet）的每個樣本學(xué)習(xí)隨時間變化的權(quán)重暂氯。我們引入了一種 MentorNet 來監(jiān)督該 StudentNet 的訓(xùn)練。如圖 1 所示亮蛔，在訓(xùn)練過程中痴施，MentorNet 學(xué)習(xí)為每個訓(xùn)練樣本分配一個權(quán)重。通過學(xué)習(xí)不均衡的權(quán)重究流，MentorNet 鼓勵某些樣本學(xué)得更早辣吃，并且得到更多注意，由此對學(xué)習(xí)工作進行優(yōu)先級排列芬探。對于 MentorNet 訓(xùn)練神得，我們首先預(yù)訓(xùn)練一個 MentorNet 來近似得到有標簽數(shù)據(jù)中特定的一些預(yù)定義權(quán)重。然后我們在具有清潔標簽的第三個數(shù)據(jù)集上對它進行微調(diào)偷仿。在測試的時候哩簿，StudentNet 獨自進行預(yù)測宵蕉，不會使用 MentorNet。

我們的方法受到了課程學(xué)習(xí)（curriculum learning）[4] 的啟發(fā)节榜。MentorNet 學(xué)習(xí)給訓(xùn)練樣本加權(quán)羡玛，從而得到一個課程（curriculum），該課程決定了學(xué)習(xí)每個樣本的時間和注意程度宗苍。課程學(xué)習(xí)已經(jīng)在各種計算機視覺問題 [38, 26, 7, 16, 25, 44]缝左、臉部檢測 [26]、目標檢測 [7]浓若、視頻檢測 [16] 中被用來尋找更好的極小值了。我們的模型通過神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程蛇数，從而推進了課程學(xué)習(xí)方法挪钓。我們提出的模型讓我們可以通過一個共同框架來理解和進一步分析已有的加權(quán)方案，比如自步式加權(quán)（self-paced weighting）[21]耳舅、hard negative mining [31] 和 focal loss [27]碌上，更重要的是讓我們可以通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些方案。此外浦徊，我們討論了一種使用深度 CNN 在大規(guī)模數(shù)據(jù)上用于優(yōu)化 MentorNet 的算法馏予。我們從理論上證明了它的收斂性并且通過實驗在大規(guī)模 ImageNet 數(shù)據(jù)上評估了該算法的表現(xiàn)。

我們在 CIFAR-10盔性、CIFAR-100霞丧、ImageNet 和 YFCC100M 這四個基準上驗證了 MentorNet。全方位的實驗表明 MentorNet 可以提升在受控和真實有噪聲標簽上訓(xùn)練的深度 CNN 的表現(xiàn)冕香，并且表現(xiàn)也優(yōu)于之前最佳的弱監(jiān)督學(xué)習(xí)方法蛹尝。總而言之悉尾，本論文有三大貢獻：

我們發(fā)現(xiàn)通過學(xué)習(xí)另一個網(wǎng)絡(luò)來加權(quán)訓(xùn)練樣本突那，在有損標簽上訓(xùn)練的深度 CNN 可以獲得提升。

我們提出了一種使用在大數(shù)據(jù)上的深度 CNN 來優(yōu)化 MentorNet 的算法构眯，并且在標準的輕微假設(shè)下證明了其收斂性愕难。

我們在具有受控的和真實的有噪聲標簽的 4 個數(shù)據(jù)集上實證驗證了我們提出的模型。

算法

事實證明惫霸，相關(guān)研究中所使用的其它最小化方法難以應(yīng)付大規(guī)模訓(xùn)練猫缭，這主要是由于兩大重要原因。首先壹店，在固定隱變量 v 時最小化網(wǎng)絡(luò)參數(shù) w 的子程序中饵骨，隨機梯度下降通常需要很多步驟才能實現(xiàn)收斂。這意味著這一單個子步驟可能需要消耗很長的時間茫打。但是居触，這樣的計算往往很浪費妖混，尤其是在訓(xùn)練的初始部分；因為當 v 離最優(yōu)點還很遠時轮洋，找到對應(yīng)于這個 v 的準確的最優(yōu) w 并沒有多大用處制市。其次，更重要的是弊予，固定 w 而最小化 v 的子程序往往不切實際祥楣，因為固定的向量 v 甚至可能都無法放入內(nèi)存。比如汉柒，在 5000 個類別上訓(xùn)練 1000 萬個樣本误褪，光是存儲其權(quán)重矩陣就需要消耗 2TB。在有大規(guī)模訓(xùn)練數(shù)據(jù)時訓(xùn)練數(shù)據(jù)正則化目標需要一些算法層面的思考碾褂。

圖片發(fā)自簡書App

算法 1

圖片發(fā)自簡書App

圖 2：我們提出的 MentorNet 架構(gòu)兽间。輸入特征是樣本損失、標簽和訓(xùn)練 epoch正塌。輸出是 mini-batch 中每個樣本的權(quán)重嘀略。emb、fc 和 prob sampling 分別表示嵌入乓诽、全連接和概率采樣層帜羊。和分別表示在 epoch t 處的樣本損失和損失移動平均（loss moving average）。

圖片發(fā)自簡書App

表 1：學(xué)習(xí)預(yù)定義的加權(quán)方案的 MSE 比較鸠天。

圖片發(fā)自簡書App

圖 3：MentorNet 架構(gòu)的收斂比較讼育。

圖片發(fā)自簡書App

圖 4：經(jīng)典正則化算法和我們的正則化算法在 CIFAR-10 和 CIFAR-100 上的結(jié)果比較。圖上說明了數(shù)據(jù)集和 StudentNet稠集。x 軸和 y 軸分別表示噪聲比例和在清潔的測試數(shù)據(jù)上的分類準確度窥淆。

論文：MentorNet：在有損的標簽上正則化非常深度的神經(jīng)網(wǎng)絡(luò)（MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels）

圖片發(fā)自簡書App

論文鏈接：https://arxiv.org/abs/1712.05055

摘要：最近的研究發(fā)現(xiàn)即使當標簽完全隨機時，深度網(wǎng)絡(luò)也能記憶整個數(shù)據(jù)巍杈。因為深度模型是在標簽往往有噪聲的大數(shù)據(jù)上訓(xùn)練的忧饭，過擬合噪聲可能會導(dǎo)致模型表現(xiàn)不佳。為了克服過擬合有損訓(xùn)練數(shù)據(jù)的問題筷畦，我們提出了一種在數(shù)據(jù)維中正則化深度網(wǎng)絡(luò)的全新技術(shù)词裤。這種方法是學(xué)習(xí)一個名叫 MentorNet 的神經(jīng)網(wǎng)絡(luò)來監(jiān)督基礎(chǔ)網(wǎng)絡(luò) StudentNet 的訓(xùn)練。我們的工作受到了課程學(xué)習(xí)的啟發(fā)并且通過神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程而推進了這一理論鳖宾。我們在幾個基準上演示了 MentorNet 的效果吼砂。全方位的實驗表明其能夠顯著提升有損訓(xùn)練數(shù)據(jù)上當前最佳深度網(wǎng)絡(luò)的泛化表現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鼎文，一起剝皮案震驚了整個濱河市渔肩，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌拇惋，老刑警劉巖周偎，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件抹剩，死亡現(xiàn)場離奇詭異，居然都是意外死亡蓉坎，警方通過查閱死者的電腦和手機澳眷，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛉艾，“玉大人钳踊，你說我怎么就攤上這事∥鸷睿” “怎么了拓瞪？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長助琐。經(jīng)常有香客問我祭埂，道長，這世上最難降的妖魔是什么弓柱？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮侧但，結(jié)果婚禮上矢空，老公的妹妹穿的比我還像新娘。我一直安慰自己禀横，他們只是感情好屁药，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著柏锄，像睡著了一般酿箭。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上趾娃，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天缭嫡，我揣著相機與錄音，去河邊找鬼抬闷。笑死妇蛀，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的笤成。我是一名探鬼主播评架，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼炕泳！你這毒婦竟也來了纵诞？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤培遵，失蹤者是張志新（化名）和其女友劉穎浙芙，沒想到半個月后登刺，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡茁裙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年塘砸，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晤锥。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡掉蔬，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出矾瘾，到底是詐尸還是另有隱情女轿，我是刑警寧澤，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布壕翩，位于F島的核電站蛉迹，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏放妈。R本人自食惡果不足惜北救，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望芜抒。院中可真熱鬧珍策，春花似錦、人聲如沸宅倒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽拐迁。三九已至蹭劈，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間线召，已是汗流浹背铺韧。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缓淹，地道東北人祟蚀。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像割卖，于是被迫代替她去往敵國和親前酿。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353

李飛飛等人提出MentorNet：讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲

推薦閱讀更多精彩內(nèi)容