不同損失函數(shù)與激活函數(shù)所帶來(lái)的訓(xùn)練的不同
, | , | 谬晕, | |
---|---|---|---|
導(dǎo)數(shù) | |||
對(duì)比前兩列,最大的不同在,使用交叉熵的模型少乘了一個(gè),而往往是很小的(只在0附近比較大),所以第二列會(huì)比第一列收斂快括尸。
但關(guān)鍵是在,大家都一樣病毡,但是隨著l的不斷減小濒翻,累乘的越來(lái)越多,最后導(dǎo)致有的越來(lái)越小趨近于0造成梯度消失(因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=0%3Csigmoid'%5Cle0.25" alt="0<sigmoid'\le0.25" mathimg="1">)啦膜。這樣導(dǎo)致底層網(wǎng)絡(luò)權(quán)重得不到有效訓(xùn)練有送。同樣,有的激活函數(shù)導(dǎo)數(shù)可能會(huì)很容易>1僧家,這樣就會(huì)造成梯度爆炸雀摘。總結(jié)起來(lái)就是八拱,由于反向傳播算法的固有缺陷阵赠,在網(wǎng)絡(luò)層數(shù)過(guò)多時(shí),會(huì)出現(xiàn)梯度學(xué)習(xí)問(wèn)題肌稻,為了解決有如下常用方法清蚀,具體見(jiàn)上鏈接。
- 針對(duì)梯度爆炸爹谭,可以人為設(shè)定最大的梯度值枷邪,超過(guò)了就等于最大梯度值。這種做法叫梯度剪切诺凡。另外也可以對(duì)權(quán)重做正則化东揣,來(lái)確保每次權(quán)重都不會(huì)太大。
- 針對(duì)梯度消失腹泌,如果激活函數(shù)的導(dǎo)數(shù)=1救斑,那么就不會(huì)出現(xiàn)消失或爆炸,于是提出了ReLu激活函數(shù)
另外還有殘差網(wǎng)絡(luò)真屯,batchnorm等技術(shù)
根本上就是針對(duì)BP的的組成脸候,要么從激活函數(shù)導(dǎo)數(shù)入手,要么從權(quán)重W入手绑蔫,要么從連乘的傳遞結(jié)構(gòu)入手等等运沦。