梯度消失和梯度爆炸問題詳解

1.為什么使用梯度下降來優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)空猜?

反向傳播(用于優(yōu)化神網(wǎng)參數(shù)):根據(jù)損失函數(shù)計算的誤差通過反向傳播的方式绽慈,指導(dǎo)深度網(wǎng)絡(luò)參數(shù)的更新優(yōu)化。

采取反向傳播的原因:首先辈毯,深層網(wǎng)絡(luò)由許多線性層和非線性層堆疊而來坝疼,每一層非線性層都可以視為是一個非線性函數(shù)f(x)(非線性來自于非線性激活函數(shù)),因此整個深度網(wǎng)絡(luò)可以視為是一個復(fù)合的非線性多元函數(shù)谆沃。

我們最終的目的是希望這個非線性函數(shù)很好的完成輸入到輸出之間的映射钝凶,也就是找到讓損失函數(shù)取得極小值。所以最終的問題就變成了一個尋找函數(shù)最小值的問題唁影,在數(shù)學(xué)上耕陷,很自然的就會想到使用梯度下降來解決。

2.梯度消失据沈、爆炸會帶來哪些影響

舉個例子哟沫,對于一個含有三層隱藏層的簡單神經(jīng)網(wǎng)絡(luò)來說,當(dāng)梯度消失發(fā)生時锌介,接近于輸出層的隱藏層由于其梯度相對正常嗜诀,所以權(quán)值更新時也就相對正常,但是當(dāng)越靠近輸入層時孔祸,由于梯度消失現(xiàn)象隆敢,會導(dǎo)致靠近輸入層的隱藏層權(quán)值更新緩慢或者更新停滯。這就導(dǎo)致在訓(xùn)練時崔慧,只等價于后面幾層的淺層網(wǎng)絡(luò)的學(xué)習(xí)拂蝎。

image

3.產(chǎn)生的原因

以最簡單的網(wǎng)絡(luò)結(jié)構(gòu)為例,加入有三個隱藏層惶室,每層的神經(jīng)元個數(shù)都是1匣屡,且對應(yīng)的非線性函數(shù)為y_i = \sigma(z_i)=\sigma(w_i x_i + b_i)(其中 \sigma 為某個激活函數(shù))如下圖:

image

現(xiàn)在假設(shè)我們需要更新參數(shù) b_1 ,那么我們就要求出損失函數(shù)對參數(shù) b_1 的導(dǎo)數(shù)拇涤,根據(jù)鏈?zhǔn)椒▌t,可以寫成下面這樣:

而對于激活函數(shù)誉结,之前一直使用Sigmoid函數(shù)鹅士,其函數(shù)圖像成一個S型,如下所示惩坑,它會將正無窮到負(fù)無窮的數(shù)映射到0~1之間:

S(x) = \frac{1}{1+e^{-x}} = \frac{e^x}{e^x+1}

image

當(dāng)我們對Sigmoid函數(shù)求導(dǎo)時掉盅,得到其結(jié)果如下:
S(x) = S(x)(1-S(x))

由此可以得到它Sigmoid函數(shù)圖像也拜,呈現(xiàn)一個駝峰狀(很像高斯函數(shù)),從求導(dǎo)結(jié)果可以看出趾痘,Sigmoid導(dǎo)數(shù)的取值范圍在0~0.25之間慢哈,而我們初始化的網(wǎng)絡(luò)權(quán)值|w|通常都小于1,因此永票,當(dāng)層數(shù)增多時卵贱,小于0的值不斷相乘,最后就導(dǎo)致梯度消失的情況出現(xiàn)侣集。同理键俱,梯度爆炸的問題也就很明顯了,就是當(dāng)權(quán)值|w|過大時世分,導(dǎo)致 |\sigma'(z)w| > 1编振,最后大于1的值不斷相乘,就會產(chǎn)生梯度爆炸臭埋。

Sigmoid函數(shù)求導(dǎo)圖像


image

4.解決辦法

梯度消失和梯度爆炸本質(zhì)上是一樣的踪央,都是因為網(wǎng)絡(luò)層數(shù)太深而引發(fā)的梯度反向傳播中的連乘效應(yīng)。

解決梯度消失瓢阴、爆炸主要有以下幾種方案:

4.1 換用Relu畅蹂、LeakyRelu、Elu等激活函數(shù)

ReLu:讓激活函數(shù)的導(dǎo)數(shù)為1

LeakyReLu:包含了ReLu的幾乎所有有點(diǎn)炫掐,同時解決了ReLu中0區(qū)間帶來的影響

ELU:和LeakyReLu一樣魁莉,都是為了解決0區(qū)間問題,相對于來募胃,elu計算更耗時一些(為什么)

具體可以看關(guān)于各種激活函數(shù)的解析與討論

4.2 BatchNormalization

BN本質(zhì)上是解決傳播過程中的梯度問題旗唁,具體待補(bǔ)充完善,查看BN

4.3 ResNet殘差結(jié)構(gòu)

具體待補(bǔ)充完善痹束,查看ResNet

4.4 LSTM結(jié)構(gòu)

LSTM不太容易發(fā)生梯度消失检疫,主要原因在于LSTM內(nèi)部復(fù)雜的“門(gates)”,具體看LSTM基本原理解析

4.4 預(yù)訓(xùn)練加finetunning

此方法來自Hinton在06年發(fā)表的論文上祷嘶,其基本思想是每次訓(xùn)練一層隱藏層節(jié)點(diǎn)屎媳,將上一層隱藏層的輸出作為輸入,而本層的輸出作為下一層的輸入论巍,這就是逐層預(yù)訓(xùn)練烛谊。

訓(xùn)練完成后,再對整個網(wǎng)絡(luò)進(jìn)行“微調(diào)(fine-tunning)”嘉汰。

此方法相當(dāng)于是找全局最優(yōu)丹禀,然后整合起來尋找全局最優(yōu),但是現(xiàn)在基本都是直接拿imagenet的預(yù)訓(xùn)練模型直接進(jìn)行finetunning。

4.5 梯度剪切双泪、正則

這個方案主要是針對梯度爆炸提出的持搜,其思想是設(shè)值一個剪切閾值,如果更新梯度時焙矛,梯度超過了這個閾值葫盼,那么就將其強(qiáng)制限制在這個范圍之內(nèi)。這樣可以防止梯度爆炸村斟。

另一種防止梯度爆炸的手段是采用權(quán)重正則化贫导,正則化主要是通過對網(wǎng)絡(luò)權(quán)重做正則來限制過擬合,但是根據(jù)正則項在損失函數(shù)中的形式:

可以看出邓梅,如果發(fā)生梯度爆炸脱盲,那么權(quán)值的范數(shù)就會變的非常大,反過來日缨,通過限制正則化項的大小钱反,也可以在一定程度上限制梯度爆炸的發(fā)生。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匣距,一起剝皮案震驚了整個濱河市面哥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌毅待,老刑警劉巖尚卫,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異尸红,居然都是意外死亡吱涉,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進(jìn)店門外里,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怎爵,“玉大人,你說我怎么就攤上這事盅蝗”盍矗” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵墩莫,是天一觀的道長芙委。 經(jīng)常有香客問我,道長狂秦,這世上最難降的妖魔是什么灌侣? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮裂问,結(jié)果婚禮上侧啼,老公的妹妹穿的比我還像新娘玖姑。我一直安慰自己,他們只是感情好慨菱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著戴甩,像睡著了一般符喝。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上甜孤,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天协饲,我揣著相機(jī)與錄音,去河邊找鬼缴川。 笑死茉稠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的把夸。 我是一名探鬼主播而线,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼恋日!你這毒婦竟也來了膀篮?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤岂膳,失蹤者是張志新(化名)和其女友劉穎誓竿,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谈截,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡筷屡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了簸喂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毙死。...
    茶點(diǎn)故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖娘赴,靈堂內(nèi)的尸體忽然破棺而出规哲,到底是詐尸還是另有隱情,我是刑警寧澤诽表,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布唉锌,位于F島的核電站,受9級特大地震影響竿奏,放射性物質(zhì)發(fā)生泄漏袄简。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一泛啸、第九天 我趴在偏房一處隱蔽的房頂上張望绿语。 院中可真熱鬧,春花似錦、人聲如沸吕粹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽匹耕。三九已至聚请,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間稳其,已是汗流浹背驶赏。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留既鞠,地道東北人煤傍。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像嘱蛋,于是被迫代替她去往敵國和親蚯姆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 我在這片周圍滿是莊稼的土地上已經(jīng)生活了二十年了浑槽。雖然大多數(shù)時間是在上學(xué)蒋失,但我終究是個農(nóng)民的兒子,我的根在這里桐玻,像家...
    漢田閱讀 520評論 4 2
  • 在不到一個月的時間看完了七季傲骨賢妻篙挽,crazy哈! 艾麗西亞是全劇的主線,她和丈夫镊靴,她和情人上司铣卡,她...
    榴蓮派閱讀 345評論 0 0
  • 2018-05-07 【今日三只】 生活學(xué)習(xí):心理fm&樊登讀書&筆記&熊貓小課&葉老師進(jìn)階課&和孩子認(rèn)識三個字 ...
    張張happy閱讀 164評論 0 0
  • 尚未配妥劍 出門已是江湖 下一次 世界精彩處見
    今今1023閱讀 277評論 0 0
  • 來椿沅閱讀 616評論 0 10