Xavier——Understanding the difficulty of training deep feedforward neural networks

1. 摘要

本文嘗試解釋為什么在深度的神經(jīng)網(wǎng)絡(luò)中隨機(jī)初始化會(huì)讓梯度下降表現(xiàn)很差贝室,并且在此基礎(chǔ)上來幫助設(shè)計(jì)更好的算法。

作者發(fā)現(xiàn) sigmoid 函數(shù)不適合深度網(wǎng)絡(luò)仿吞,在這種情況下公壤,隨機(jī)初始化參數(shù)會(huì)讓較深的隱藏層陷入到飽和區(qū)域隙咸。

作者提出了一個(gè)新的參數(shù)初始化方法,稱之為 Xavier 初始化,來幫助深度網(wǎng)絡(luò)更快地收斂昨登。

2. 激活函數(shù)的作用以及訓(xùn)練過程中的飽和現(xiàn)象

2.1. 三種激活函數(shù)

Tanh(x)=\frac{1-e^{-x}}{1+e^{-x}}
Sigmoid(x)=\frac{1}{1+e^{-x}}
Softsign(x)=\frac{x}{1+|x|}

2.2. Sigmoid 函數(shù)

通過觀察訓(xùn)練過程中每一個(gè)隱藏層激活值的均值和方差,我們可以發(fā)現(xiàn)第 4 層的激活值很快就進(jìn)入到了飽和區(qū)域抛杨,非常接近于 0遣钳。由于 Sigmoid 函數(shù)在接近于 0 的時(shí)候梯度很小,這樣的話反向傳播過程就會(huì)學(xué)習(xí)得很慢傅物,雖然最終網(wǎng)絡(luò)會(huì)慢慢離開飽和區(qū)域夯辖,但往往學(xué)到的解也不是最優(yōu)的。

2.3. Tanh 函數(shù)和 Softsign 函數(shù)

由于 Tanh 函數(shù)和 Softsign 函數(shù)接近于 0 的時(shí)候梯度近似線性董饰,所以它們不會(huì)遇到像 Sigmoid 上面的情況蒿褂。但是啄栓,采用 Tanh 作為激活函數(shù)時(shí)昙楚,從第一層到第四層的激活值卻也會(huì)在訓(xùn)練過程中依次進(jìn)入飽和區(qū)域诈嘿。而采用 Softsign 的話永淌,所有層都逐漸進(jìn)入飽和區(qū)域遂蛀,但這個(gè)過程會(huì)更慢一點(diǎn)李滴。

在訓(xùn)練完成后谆扎,我們可以發(fā)現(xiàn)以 Tanh 作為激活函數(shù)堂湖,最終每層的激活值大多落在飽和區(qū)域和 0 附近;以 Softsign 作為激活函數(shù)伺糠,最終每層的激活值大多落在 (-0.6, -0.8) 和 (0.6, 0.8) 區(qū)間训桶。

3. 梯度以及它們的傳播

3.1. 損失函數(shù)

作者發(fā)現(xiàn)采用似然損失比用二次的均方誤差要好舵揭,因?yàn)椴捎盟迫粨p失不容易陷入到平緩區(qū)域午绳,不會(huì)讓訓(xùn)練過程變得很慢箱叁。如下圖所示,可以看到采用二次損失的損失函數(shù)有很多平緩區(qū)域抬伺。

3.2. Xavier 初始化

針對(duì)一個(gè)對(duì)稱的激活函數(shù)灾梦,并且其在原點(diǎn)處的導(dǎo)數(shù)為 1若河,那么我們有:

根據(jù)以上定義拉鹃,可以得到:

假設(shè)初始時(shí)我們位于線性區(qū)域膏燕,權(quán)重之間互相獨(dú)立坝辫,并且輸入的特征具有一樣的方差 Var[x]近忙,第 i 層具有 n_i 個(gè)神經(jīng)元,那么有:

可參考 Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 對(duì)比進(jìn)行分析。

在前向過程中击纬,為了保持信息更振,讓每一層都具有一樣的方差,即:

那么我們可以得到:

同樣,考慮梯度的反向傳播姊途,我們可以得到:

為了保證每一層梯度的方差一致捷兰,也即:

我們有:

若同時(shí)考慮到前向傳播的反向傳播的約束贡茅,我們想要:

對(duì)此,我們用下面的方法來初始化參數(shù)

其中妖泄,U 代表均勻分布蹈胡,其方差為

\frac{(b-a)^2}{12} = \frac{2}{n_j+n_{j+1}}

正好符合我們的預(yù)期审残。

可以看到搅轿,在前向傳播過程中璧坟,舊的初始化方法,越靠后的層激活值越容易陷入到 0 區(qū)域幻工,而采用新的初始化方法后,每一層的激活值分布基本相同当悔。

在反向傳播過程中,舊的初始化方法胳挎,越靠前的層梯度值越容易陷入到 0 區(qū)域慕爬,而采用新的初始化方法后,每一層的梯度分布基本相同磅甩。

5. 實(shí)驗(yàn)結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市隔显,隨后出現(xiàn)的幾起案子括眠,更是在濱河造成了極大的恐慌掷豺,老刑警劉巖薄声,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件德频,死亡現(xiàn)場(chǎng)離奇詭異缩幸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)盖喷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門课梳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來暮刃,“玉大人沾歪,你說我怎么就攤上這事雾消×⑷螅” “怎么了桑腮?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵破讨,是天一觀的道長提陶。 經(jīng)常有香客問我隙笆,道長,這世上最難降的妖魔是什么瘸爽? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任剪决,我火速辦了婚禮识虚,結(jié)果婚禮上妒茬,老公的妹妹穿的比我還像新娘乍钻。我一直安慰自己银择,他們只是感情好浩考,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布搭伤。 她就那樣靜靜地躺著怜俐,像睡著了一般邓尤。 火紅的嫁衣襯著肌膚如雪汞扎。 梳的紋絲不亂的頭發(fā)上澈魄,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音帘营,去河邊找鬼芬迄。 笑死禀梳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的塞耕。 我是一名探鬼主播扫外,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼筛谚,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了停忿?” 一聲冷哼從身側(cè)響起驾讲,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎席赂,沒想到半個(gè)月后吮铭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡氧枣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年沐兵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片便监。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡扎谎,死狀恐怖毁靶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響测僵,放射性物質(zhì)發(fā)生泄漏剂公。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一这吻、第九天 我趴在偏房一處隱蔽的房頂上張望移怯。 院中可真熱鬧,春花似錦、人聲如沸炸站。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽士修。三九已至矩桂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工鸦概, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咨察,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓交惯,卻偏偏與公主長得像啊片,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容