1. 梯度問題
由上圖我們可以發(fā)現(xiàn),第一層的學(xué)習(xí)速率和第四層的學(xué)習(xí)速率差了兩個(gè)數(shù)量級(jí)魁巩,也就是第一層比第四層慢了100倍。現(xiàn)在我們有一項(xiàng)重要的觀察結(jié)果:至少在某些深度神經(jīng)網(wǎng)絡(luò)中姐浮,在我們?cè)陔[藏層反向傳播的時(shí)候梯度傾向于變小歪赢。這意味著在前面的隱藏層中的神經(jīng)元學(xué)習(xí)速度要慢于后面的隱藏層。這個(gè)現(xiàn)象叫做梯度消失单料。除了梯度消失埋凯,還有可能有梯度爆炸。更一般的說扫尖,在深度神經(jīng)網(wǎng)絡(luò)中的梯度是不穩(wěn)定的白对,在前面的層中或會(huì)消失,或會(huì)激增换怖。這種不穩(wěn)定性才是深度神經(jīng)網(wǎng)絡(luò)中基于梯度學(xué)習(xí)的根本問題甩恼。
2. 梯度消失的原因
注意!這里不是反向傳播沉颂,給的僅僅是一個(gè)b的改變對(duì)于輸出的影響条摸。
3. 梯度爆炸的原因
采用ReLU能夠避免梯度消失的問題。
梯度下降是一種優(yōu)化算法铸屉,使得代價(jià)函數(shù)的誤差最小钉蒲。梯度下降的式子有兩個(gè),分別對(duì)w和b進(jìn)行更新彻坛。比如
w' = w - n * (Cost/W)'顷啼。 (Cost/W)'是代價(jià)函數(shù)對(duì)于權(quán)重的導(dǎo)數(shù)踏枣。可以看出來钙蒙,梯度下降是對(duì)權(quán)重進(jìn)行更新茵瀑,但是如果要對(duì)每一個(gè)權(quán)重進(jìn)行更新的話,那個(gè)導(dǎo)數(shù)是很難求的躬厌。因此马昨,就要用反向傳播,對(duì)前面隱藏層的權(quán)重進(jìn)行求導(dǎo)扛施。所以這就是梯度下降和反向傳播的關(guān)系偏陪。