《深度學(xué)習(xí)》看到第六章了榆苞,覺得有些內(nèi)容需要記錄,前面數(shù)學(xué)的比較簡單霞捡,但是也有不會的地方坐漏,好記性不如爛筆頭吧~~~
使用最大似然學(xué)習(xí)條件分布
貫穿神經(jīng)網(wǎng)絡(luò)設(shè)計的一個反復(fù)出現(xiàn)的主題是代價函數(shù)的梯度必須足夠的大和具有足夠的預(yù)測性,來為學(xué)習(xí)算法提供一個好的指引碧信。飽和(變得非常平)的函數(shù)破壞了這一目標(biāo)赊琳。因為它們把梯度變得非常小。這在很多情況下都會發(fā)生砰碴,因為用于產(chǎn)生隱藏單元或者輸出單元的輸出激活函數(shù)會飽和躏筏。負(fù)的對數(shù)似然幫助我們在很多模型中避免這個問題。很多輸出單元都會包含一個指數(shù)函數(shù)呈枉,這在它的變量取絕對值非常大的負(fù)值時會造成飽和趁尼。負(fù)對數(shù)似然代價函數(shù)中的對數(shù)函數(shù)消除了某些輸出單元中的指數(shù)效果。
我的理解:包含應(yīng)該就是梯度變小猖辫,例如sigmoid函數(shù)酥泞,例如:轉(zhuǎn)載http://blog.csdn.net/u012162613/article/details/44239919