為了弄清楚為何會出現(xiàn)消失的梯度旁趟,來看看一個極簡單的深度神經(jīng)網(wǎng)絡(luò):每一層都只有一個單一的神經(jīng)元。下圖就是有三層隱藏層的神經(jīng)網(wǎng)絡(luò):
也就是說具體是梯度消失還是梯度爆炸袱箱,實質(zhì)上就是w參數(shù)來決定的(在選定sigmod的情況下)福稳。
還有就是我們求梯度的時候是用代價函數(shù)來對參數(shù)求導(dǎo)的向图,由于神經(jīng)元一級一級地傳下來的時候荡短,本質(zhì)上就是一個復(fù)合函數(shù)了,因此求導(dǎo)的話必須采用復(fù)合函數(shù)求導(dǎo)法則娜睛,也就是每個神經(jīng)元里面的sigmod都會被求導(dǎo)一次髓霞,而且連續(xù)相乘,由于我們知道sigmod函數(shù)的最大值是1/4畦戒,因此w參數(shù)乘以sigmod導(dǎo)數(shù)大于1還是小于1就一個判斷梯度消失還是爆炸的標(biāo)準(zhǔn)了方库。
總結(jié):就是處于某種場景模式下,出現(xiàn)了多元變量的連乘情況障斋,這個情況一化簡(連乘的每項(w*σ`)均是否大于1)纵潦,就是一個中學(xué)數(shù)學(xué)題了徐鹤!所以啊邀层!很多復(fù)雜的概念其實都是表面復(fù)雜返敬,本質(zhì)上的脊梁骨還是很簡單初級的!