預(yù)告
1.兩層神經(jīng)網(wǎng)絡(luò)的計(jì)算表示和矩陣化表示
2.激活函數(shù)和它的導(dǎo)數(shù),神經(jīng)網(wǎng)絡(luò)的梯度下降以及反向傳播
3.隨機(jī)的初始化
1.兩層神經(jīng)網(wǎng)絡(luò)的計(jì)算表示和矩陣化表示
Screen Shot 2017-12-03 at 6.33.50 PM.png
Screen Shot 2017-12-03 at 6.36.30 PM.png
Screen Shot 2017-12-03 at 6.36.57 PM.png
Screen Shot 2017-12-03 at 6.37.47 PM.png
Screen Shot 2017-12-03 at 6.39.39 PM.png
Screen Shot 2017-12-03 at 6.40.51 PM.png
Screen Shot 2017-12-03 at 6.42.24 PM.png
Screen Shot 2017-12-03 at 7.17.12 PM.png
Screen Shot 2017-12-03 at 7.34.04 PM.png
Screen Shot 2017-12-03 at 7.34.32 PM.png
2.激活函數(shù)和它的導(dǎo)數(shù)栏尚,神經(jīng)網(wǎng)絡(luò)的梯度下降以及反向傳播
我們常用的激活函數(shù):
sigmoid(不是二分類問(wèn)題不要使用它)
tanh
relu
leakyRelu
為什么要使用非線性的激活函數(shù)?因?yàn)槿绻挥镁€性的函數(shù)喷户,也就是說(shuō)identity函數(shù)來(lái)輸出的話隙轻,不管訓(xùn)練多少層的神經(jīng)網(wǎng)絡(luò)到最后仍然只是一個(gè)線性的模型。很多問(wèn)題用它絕對(duì)不足以描述的瞳购。
sigmoid和tanh的缺點(diǎn)是在數(shù)據(jù)十分小或者十分大的時(shí)候话侄,導(dǎo)數(shù)太小,太接近于0学赛,所以更新w的學(xué)習(xí)速率太慢年堆,梯度下降太慢。
所以目前Relu是很多時(shí)候的最佳選擇盏浇。當(dāng)然一個(gè)問(wèn)題在實(shí)驗(yàn)以前是很難確定哪個(gè)方案更好的(什么激活函數(shù)变丧,多少個(gè)Hiddenlayer,多少個(gè)節(jié)點(diǎn))绢掰。
Screen Shot 2017-12-03 at 8.02.52 PM.png
Screen Shot 2017-12-03 at 8.03.15 PM.png
Screen Shot 2017-12-03 at 8.03.33 PM.png
Screen Shot 2017-12-03 at 7.57.59 PM.png
反向傳播:
Screen Shot 2017-12-04 at 9.04.29 AM.png
Screen Shot 2017-12-04 at 9.08.43 AM.png
Screen Shot 2017-12-04 at 9.10.19 AM.png
Screen Shot 2017-12-04 at 9.06.44 AM.png
Screen Shot 2017-12-04 at 9.11.29 AM.png
3.隨機(jī)初始化
Screen Shot 2017-12-04 at 9.27.59 AM.png
Screen Shot 2017-12-04 at 9.31.20 AM.png
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者