姓名:張萌? ? ? ? ? 學(xué)號17021211113
轉(zhuǎn)自:
http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg
【嵌牛導(dǎo)讀】:有老師指導(dǎo)就能更好地學(xué)習(xí)嗎大渤?對于深度神經(jīng)網(wǎng)絡(luò)是否也是如此?近日捻脖,谷歌和斯坦福大學(xué)的研究者在其論文中提出了一種用 MentorNet 監(jiān)督 StudentNet 進行訓(xùn)練的新技術(shù)酪劫。這項研究的第一作者是谷歌云機器學(xué)習(xí)的研究科學(xué)家蔣路(Lu Jiang),另外李佳和李飛飛也參與了該研究。
【嵌牛鼻子】:深度神經(jīng)網(wǎng)絡(luò)
【嵌牛提問】:如何讓深度神經(jīng)網(wǎng)絡(luò)克服大數(shù)據(jù)中的噪聲洋丐?
【嵌牛正文】:在目標識別 [19, 15, 39] 和檢測 [14] 等多種視覺任務(wù)上吊圾,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大的成功。當前最佳的深度網(wǎng)絡(luò)有數(shù)百層挂绰,而可訓(xùn)練的模型參數(shù)的數(shù)量更是遠遠超過了它們訓(xùn)練所用的樣本的數(shù)量屎篱。最近一項研究發(fā)現(xiàn)即使是在有損的標簽上(其中部分或所有真實標簽被隨機標簽替換)服赎,深度網(wǎng)絡(luò)也能記憶整個數(shù)據(jù) [45]。正則化(regularization)是一種用于克服過擬合的有效方法交播。張弛原等人 [45] 通過實驗表明:當在有損的標簽上訓(xùn)練時重虑,權(quán)重衰減、數(shù)據(jù)增強 [20] 和 dropout [36] 等常用于神經(jīng)網(wǎng)絡(luò)的正則化算法(即模型正則化器(model regularizer))在提升深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的生成表現(xiàn)上的效果不佳秦士;我們的研究也證實了這個觀察結(jié)果缺厉。深度 CNN 通常是在大規(guī)模數(shù)據(jù)上訓(xùn)練的,在這些數(shù)據(jù)上的標注通常有很多噪聲 [1,11]隧土。過擬合訓(xùn)練數(shù)據(jù)中的噪聲常常會讓模型的表現(xiàn)變得很差提针。
圖 1:已有的正則化方法和我們的正則化方法的圖示。每個點表示一個訓(xùn)練樣本曹傀,點的大小表示樣本權(quán)重辐脖。曲線表示學(xué)習(xí)到的模型。權(quán)重衰減等已有的正則化方法對深度 CNN 而言效果不佳皆愉。數(shù)據(jù)正則化是通過學(xué)習(xí)為樣本分配合適的權(quán)重來解決深度 CNN 的過擬合問題嗜价。
由于模型參數(shù)數(shù)量龐大,所以正則化非常深度的 CNN 頗具挑戰(zhàn)性幕庐。為了解決這一難題炭剪,我們提出了一種在數(shù)據(jù)維(data dimension)中正則化深度 CNN 的全新技術(shù),我們稱之為數(shù)據(jù)正則化(data regularization)翔脱。我們的目標是通過正則化在有損標簽上訓(xùn)練的 CNN 來提升其在清潔測試數(shù)據(jù)上的泛化表現(xiàn)奴拦。可以被看作是深度 CNN 的網(wǎng)絡(luò)有 Resnet [15] 和 Inception-resnet [39]届吁,它們有幾百層错妖,而且參數(shù)的數(shù)量比訓(xùn)練樣本的數(shù)量多幾個數(shù)量級。具體來說疚沐,我們提出為用于訓(xùn)練該分類網(wǎng)絡(luò)(即 StudentNet)的每個樣本學(xué)習(xí)隨時間變化的權(quán)重暂氯。我們引入了一種 MentorNet 來監(jiān)督該 StudentNet 的訓(xùn)練。如圖 1 所示亮蛔,在訓(xùn)練過程中痴施,MentorNet 學(xué)習(xí)為每個訓(xùn)練樣本分配一個權(quán)重。通過學(xué)習(xí)不均衡的權(quán)重究流,MentorNet 鼓勵某些樣本學(xué)得更早辣吃,并且得到更多注意,由此對學(xué)習(xí)工作進行優(yōu)先級排列芬探。對于 MentorNet 訓(xùn)練神得,我們首先預(yù)訓(xùn)練一個 MentorNet 來近似得到有標簽數(shù)據(jù)中特定的一些預(yù)定義權(quán)重。然后我們在具有清潔標簽的第三個數(shù)據(jù)集上對它進行微調(diào)偷仿。在測試的時候哩簿,StudentNet 獨自進行預(yù)測宵蕉,不會使用 MentorNet。
我們的方法受到了課程學(xué)習(xí)(curriculum learning)[4] 的啟發(fā)节榜。MentorNet 學(xué)習(xí)給訓(xùn)練樣本加權(quán)羡玛,從而得到一個課程(curriculum),該課程決定了學(xué)習(xí)每個樣本的時間和注意程度宗苍。課程學(xué)習(xí)已經(jīng)在各種計算機視覺問題 [38, 26, 7, 16, 25, 44]缝左、臉部檢測 [26]、目標檢測 [7]浓若、視頻檢測 [16] 中被用來尋找更好的極小值了。我們的模型通過神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程蛇数,從而推進了課程學(xué)習(xí)方法挪钓。我們提出的模型讓我們可以通過一個共同框架來理解和進一步分析已有的加權(quán)方案,比如自步式加權(quán)(self-paced weighting)[21]耳舅、hard negative mining [31] 和 focal loss [27]碌上,更重要的是讓我們可以通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些方案。此外浦徊,我們討論了一種使用深度 CNN 在大規(guī)模數(shù)據(jù)上用于優(yōu)化 MentorNet 的算法馏予。我們從理論上證明了它的收斂性并且通過實驗在大規(guī)模 ImageNet 數(shù)據(jù)上評估了該算法的表現(xiàn)。
我們在 CIFAR-10盔性、CIFAR-100霞丧、ImageNet 和 YFCC100M 這四個基準上驗證了 MentorNet。全方位的實驗表明 MentorNet 可以提升在受控和真實有噪聲標簽上訓(xùn)練的深度 CNN 的表現(xiàn)冕香,并且表現(xiàn)也優(yōu)于之前最佳的弱監(jiān)督學(xué)習(xí)方法蛹尝。總而言之悉尾,本論文有三大貢獻:
我們發(fā)現(xiàn)通過學(xué)習(xí)另一個網(wǎng)絡(luò)來加權(quán)訓(xùn)練樣本突那,在有損標簽上訓(xùn)練的深度 CNN 可以獲得提升。
我們提出了一種使用在大數(shù)據(jù)上的深度 CNN 來優(yōu)化 MentorNet 的算法构眯,并且在標準的輕微假設(shè)下證明了其收斂性愕难。
我們在具有受控的和真實的有噪聲標簽的 4 個數(shù)據(jù)集上實證驗證了我們提出的模型。
算法
事實證明惫霸,相關(guān)研究中所使用的其它最小化方法難以應(yīng)付大規(guī)模訓(xùn)練猫缭,這主要是由于兩大重要原因。首先壹店,在固定隱變量 v 時最小化網(wǎng)絡(luò)參數(shù) w 的子程序中饵骨,隨機梯度下降通常需要很多步驟才能實現(xiàn)收斂。這意味著這一單個子步驟可能需要消耗很長的時間茫打。但是居触,這樣的計算往往很浪費妖混,尤其是在訓(xùn)練的初始部分;因為當 v 離最優(yōu)點還很遠時轮洋,找到對應(yīng)于這個 v 的準確的最優(yōu) w 并沒有多大用處制市。其次,更重要的是弊予,固定 w 而最小化 v 的子程序往往不切實際祥楣,因為固定的向量 v 甚至可能都無法放入內(nèi)存。比如汉柒,在 5000 個類別上訓(xùn)練 1000 萬個樣本误褪,光是存儲其權(quán)重矩陣就需要消耗 2TB。在有大規(guī)模訓(xùn)練數(shù)據(jù)時訓(xùn)練數(shù)據(jù)正則化目標需要一些算法層面的思考碾褂。
算法 1
圖 2:我們提出的 MentorNet 架構(gòu)兽间。輸入特征是樣本損失、標簽和訓(xùn)練 epoch正塌。輸出是 mini-batch 中每個樣本的權(quán)重嘀略。emb、fc 和 prob sampling 分別表示嵌入乓诽、全連接和概率采樣層帜羊。和分別表示在 epoch t 處的樣本損失和損失移動平均(loss moving average)。
表 1:學(xué)習(xí)預(yù)定義的加權(quán)方案的 MSE 比較鸠天。
圖 3:MentorNet 架構(gòu)的收斂比較讼育。
圖 4:經(jīng)典正則化算法和我們的正則化算法在 CIFAR-10 和 CIFAR-100 上的結(jié)果比較。圖上說明了數(shù)據(jù)集和 StudentNet稠集。x 軸和 y 軸分別表示噪聲比例和在清潔的測試數(shù)據(jù)上的分類準確度窥淆。
論文:MentorNet:在有損的標簽上正則化非常深度的神經(jīng)網(wǎng)絡(luò)(MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels)
論文鏈接:https://arxiv.org/abs/1712.05055
摘要:最近的研究發(fā)現(xiàn)即使當標簽完全隨機時,深度網(wǎng)絡(luò)也能記憶整個數(shù)據(jù)巍杈。因為深度模型是在標簽往往有噪聲的大數(shù)據(jù)上訓(xùn)練的忧饭,過擬合噪聲可能會導(dǎo)致模型表現(xiàn)不佳。為了克服過擬合有損訓(xùn)練數(shù)據(jù)的問題筷畦,我們提出了一種在數(shù)據(jù)維中正則化深度網(wǎng)絡(luò)的全新技術(shù)词裤。這種方法是學(xué)習(xí)一個名叫 MentorNet 的神經(jīng)網(wǎng)絡(luò)來監(jiān)督基礎(chǔ)網(wǎng)絡(luò) StudentNet 的訓(xùn)練。我們的工作受到了課程學(xué)習(xí)的啟發(fā)并且通過神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)課程而推進了這一理論鳖宾。我們在幾個基準上演示了 MentorNet 的效果吼砂。全方位的實驗表明其能夠顯著提升有損訓(xùn)練數(shù)據(jù)上當前最佳深度網(wǎng)絡(luò)的泛化表現(xiàn)。