1、非線性激活函數(shù)
sigmoid神年、tanh
問題:1已维、計(jì)算量大;2已日、容易有梯度消失問題
梯度消失問題:在反向傳播中垛耳,當(dāng)梯度小于1時(shí)(如sigmoid和tanh),往回傳的層數(shù)愈多飘千,梯度越小堂鲜,將導(dǎo)致模型難以訓(xùn)練。
假設(shè)一個(gè)三層網(wǎng)絡(luò) f,g,h:, 可以看到如果梯度都是小于1护奈,每一層的回傳梯度都會(huì)發(fā)生衰減缔莲。
2、修正線性單元霉旗,rectifier linear unit痴奏,ReLu
優(yōu)點(diǎn):1、計(jì)算量小厌秒,同時(shí)能實(shí)現(xiàn)非線性映射读拆;2、不存在梯度消失問題鸵闪;3檐晕、忽略小于0的輸入,使得網(wǎng)絡(luò)具有稀疏性蚌讼,即對(duì)于一個(gè)輸入辟灰,網(wǎng)絡(luò)中只有部分結(jié)構(gòu)會(huì)被激活;
缺點(diǎn):神經(jīng)元死亡問題篡石,即當(dāng)一個(gè)很大的梯度經(jīng)過某個(gè)神經(jīng)元芥喇,經(jīng)過更新后,這個(gè)神經(jīng)元可能對(duì)所有的輸入輸出都是負(fù)值夏志,那么這個(gè)神經(jīng)元就死亡了。這個(gè)問題當(dāng)學(xué)習(xí)率設(shè)的過大時(shí),更容易發(fā)生沟蔑。
3湿诊、learky ReLu
為大于0的一個(gè)小數(shù),一般為0.01瘦材。
解決了relu的神經(jīng)元死亡問題