深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化和訓(xùn)練的難點(diǎn)

反向傳播算法仍然是當(dāng)前深度神經(jīng)網(wǎng)絡(luò)最受歡迎的模型最優(yōu)化方法与纽。

反向傳播

反向傳播有前向和后向兩個(gè)操作構(gòu)成，前向操作利用當(dāng)前的權(quán)重參數(shù)和輸入數(shù)據(jù)易桃，從下往上（即從輸入層到輸出層），求取預(yù)測結(jié)果，并利用預(yù)測結(jié)果與真實(shí)值求解出損失函數(shù)的值赴恨。反向操作則利用前向操作求解得到的損失函數(shù)，從上往下（從輸出層到輸入層）伴栓，反向求取每一層對應(yīng)的參數(shù)梯度伦连，利用梯度下降法更新參數(shù)，求解網(wǎng)絡(luò)的參數(shù)梯度钳垮。經(jīng)過前向和反向兩個(gè)操作后惑淳。完成了一次迭代過程。

損失函數(shù)

損失函數(shù)是機(jī)器學(xué)習(xí)中用于衡量模型一次預(yù)測結(jié)果好壞的函數(shù)饺窿，它是一個(gè)非負(fù)實(shí)數(shù)值函數(shù)歧焦，用L(Y,f(x))來表示，常用的損失函數(shù)包括4種肚医。

（1）0-1損失函數(shù)绢馍。0-1損失函數(shù)比較的事預(yù)測值與真實(shí)值是否相同向瓷，0-1損失函數(shù)是一個(gè)非凸函數(shù)，在求解的過程中舰涌，存在很多的不足猖任，而且它只關(guān)心預(yù)測值和真實(shí)值是否相同，沒有考慮到預(yù)測值和真實(shí)值之間的距離舵稠，因此在實(shí)際應(yīng)用中超升，它通常是作為一個(gè)衡量指標(biāo)，而不是最優(yōu)化的目標(biāo)函數(shù)哺徊。

（2）平方損失函數(shù)室琢。平方損失函數(shù)是線性回歸模型最常用的最優(yōu)化目標(biāo)函數(shù)。

（3）對數(shù)損失函數(shù)落追。常用于分類模型的最優(yōu)化目標(biāo)函數(shù)盈滴。

（4）Hinge損失函數(shù)：有時(shí)也稱為最大間隔目標(biāo)函數(shù)。

深度學(xué)習(xí)訓(xùn)練的難點(diǎn)主要為欠擬合和過擬合：

欠擬合-梯度消失

梯度消失也稱為梯度彌撒轿钠，仍然是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中所面臨的最大挑戰(zhàn)之一巢钓。梯度消失產(chǎn)生的源頭就在于激活函數(shù)。對預(yù)激活輸出求導(dǎo)都牽扯到激活函數(shù)的導(dǎo)數(shù)疗垛，傳統(tǒng)的激活函數(shù)及其導(dǎo)數(shù)症汹，rusigmoid和tanh函數(shù)，它們的導(dǎo)數(shù)取值范圍都小于1贷腕。以sigmoid函數(shù)為例背镇，它的取值范圍為[0,1/4]，泽裳，也就是當(dāng)激活函數(shù)求導(dǎo)后瞒斩，它的取值都要比上一層減少1/4，梯度的計(jì)算是隨著層數(shù)的增加而呈現(xiàn)出指數(shù)級的遞減趨勢涮总，離輸出層越遠(yuǎn)胸囱，梯度減少越明顯。

目前幾種常用防止深度神經(jīng)網(wǎng)絡(luò)梯度消失的技巧：

（1）采用更合理的激活函數(shù)瀑梗。

（2）Batch Normalization：有ZCA標(biāo)準(zhǔn)化層和重參數(shù)化層構(gòu)成烹笔。ZCA標(biāo)準(zhǔn)化層是標(biāo)準(zhǔn)化預(yù)激活輸出，是的輸出的每一個(gè)維度都服從標(biāo)準(zhǔn)正態(tài)分布的形式抛丽，即均值為0箕宙，方差為1。重參數(shù)化層主要是對標(biāo)準(zhǔn)化后的預(yù)激活輸出結(jié)果執(zhí)行scale和shift操作铺纽，使得新的輸出值有任意的均值和方差柬帕，這樣梯度消失和非線性激活不再是一組矛盾關(guān)系，模型能夠?qū)崟r(shí)根據(jù)訓(xùn)練數(shù)據(jù)來動(dòng)態(tài)決定激活層的非線性表達(dá)能力。

（3）深度殘差網(wǎng)絡(luò)陷寝。將深度殘差網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)模型也簡稱為ResNet锅很。

過擬合

過擬合一般是指在模型選擇中，選擇的模型參數(shù)過多凤跑，導(dǎo)致對訓(xùn)練數(shù)據(jù)的預(yù)測很好爆安，但對位置數(shù)據(jù)的預(yù)測很差的現(xiàn)象。神經(jīng)網(wǎng)絡(luò)仔引，尤其是在深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域扔仓，網(wǎng)絡(luò)的層數(shù)更深，結(jié)構(gòu)也更復(fù)雜咖耘，一般能達(dá)到數(shù)十層甚至上百層翘簇，而訓(xùn)練樣本往往相對較少，過擬合問題會更加嚴(yán)重儿倒。

正則化是目前機(jī)器學(xué)習(xí)中常用來解決過擬合的技巧版保，較為常見的正則化方法包括：對單模型，比如當(dāng)驗(yàn)證集的效果變化不明顯的時(shí)候可以提前終止迭代夫否，或者采用L1正則化和L2正則化等彻犁。對多模型，可以利用boosting來集成提升凰慈，但在深度學(xué)習(xí)中汞幢，這種方法是不現(xiàn)實(shí)的，因?yàn)閱蝹€(gè)模型的訓(xùn)練已經(jīng)非常復(fù)雜耗時(shí)微谓，并且即使訓(xùn)練處多個(gè)網(wǎng)絡(luò)模型急鳄，也難以在實(shí)際環(huán)境中做到快速集成。

Dropout結(jié)合了單模型和多模型的有點(diǎn)堰酿，它是當(dāng)前深度學(xué)習(xí)領(lǐng)域解決過擬合的強(qiáng)有力的武器。如果不考慮時(shí)間復(fù)雜度张足，可以通過訓(xùn)練多個(gè)不同的網(wǎng)絡(luò)模型來集成提升效果触创，網(wǎng)絡(luò)結(jié)構(gòu)之間差別越大，提升效果也會越明顯为牍。Dropout的思想是每一迭代的過程中哼绑，會隨機(jī)讓網(wǎng)絡(luò)某些節(jié)點(diǎn)（神經(jīng)元）不參與訓(xùn)練，同時(shí)把與這些暫時(shí)丟棄的神經(jīng)元相關(guān)的所有邊全部去掉碉咆，相應(yīng)的權(quán)重不會在這一次迭代中更新抖韩，每一次迭代訓(xùn)練都重復(fù)這個(gè)操作，這些丟棄的神經(jīng)元只是暫時(shí)不做更新疫铜，下一次還是會重新參與隨機(jī)化的Dropout茂浮。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子席揽，更是在濱河造成了極大的恐慌顽馋，老刑警劉巖，帶你破解...
沈念sama閱讀 219,039評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件幌羞，死亡現(xiàn)場離奇詭異寸谜，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)属桦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門熊痴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人聂宾，你說我怎么就攤上這事果善。” “怎么了亏吝？”我有些...
開封第一講書人閱讀 165,417評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵岭埠，是天一觀的道長。經(jīng)常有香客問我蔚鸥，道長惜论，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,868評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任止喷，我火速辦了婚禮馆类，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘弹谁。我一直安慰自己乾巧，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布预愤。她就那樣靜靜地躺著沟于，像睡著了一般。火紅的嫁衣襯著肌膚如雪植康。梳的紋絲不亂的頭發(fā)上旷太，一...
開封第一講書人閱讀 51,692評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音销睁，去河邊找鬼供璧。笑死，一個(gè)胖子當(dāng)著我的面吹牛冻记，可吹牛的內(nèi)容都是我干的睡毒。我是一名探鬼主播，決...
沈念sama閱讀 40,416評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼冗栗，長吁一口氣：“原來是場噩夢啊……” “哼演顾！你這毒婦竟也來了供搀？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,326評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤偶房，失蹤者是張志新（化名）和其女友劉穎趁曼，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棕洋，經(jīng)...
沈念sama閱讀 45,782評論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡挡闰，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掰盘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摄悯。...
茶點(diǎn)故事閱讀 40,102評論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖愧捕，靈堂內(nèi)的尸體忽然破棺而出奢驯，到底是詐尸還是另有隱情，我是刑警寧澤次绘，帶...
沈念sama閱讀 35,790評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布瘪阁，位于F島的核電站，受9級特大地震影響邮偎，放射性物質(zhì)發(fā)生泄漏管跺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一禾进、第九天我趴在偏房一處隱蔽的房頂上張望豁跑。院中可真熱鬧，春花似錦泻云、人聲如沸艇拍。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評論 0贊 22
一樁弒父案宠纯，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽卸夕。三九已至，卻和暖如春婆瓜，著一層夾襖步出監(jiān)牢的瞬間快集，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,113評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工勃救，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人治力。一個(gè)月前我還...
沈念sama閱讀 48,332評論 3贊 373
代替公主和親
正文我出身青樓蒙秒，卻偏偏與公主長得像，于是被迫代替她去往敵國和親宵统。傳聞我的和親對象是個(gè)殘疾皇子晕讲，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評論 2贊 355

深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化和訓(xùn)練的難點(diǎn)

推薦閱讀更多精彩內(nèi)容