簡述
在多層神經(jīng)網(wǎng)絡(luò)中,上一層節(jié)點的輸出和下一層節(jié)點的輸入之間具有一個函數(shù)關(guān)系勺拣,這個函數(shù)就是激活函數(shù)奶赠。
意義
如果沒有激活函數(shù),再多層數(shù)的神經(jīng)網(wǎng)絡(luò)也是線性的药有,這就和原始的感知機一樣了毅戈。所以激活函數(shù)為神經(jīng)網(wǎng)絡(luò)引入的非線性,神經(jīng)網(wǎng)絡(luò)強大的擬合能力,激活函數(shù)起到了舉足輕重的作用苇经。這也說明激活函數(shù)都是非線性的赘理。
常見激活函數(shù)
1. sigmoid函數(shù)
數(shù)學(xué)表達式:
幾何圖像:
sigmoid
上圖中藍線是sigmoid函數(shù),紅線是其導(dǎo)數(shù)塑陵。
缺點:
- 導(dǎo)致梯度消失的問題感憾。從上面的sigmoid導(dǎo)數(shù)可以看出,導(dǎo)數(shù)的最大值為0.25令花,當(dāng)梯度進行反向傳播時阻桅,每傳遞一層梯度值減少到原來的1/4,如果神經(jīng)網(wǎng)絡(luò)層數(shù)較多時兼都,梯度會變得非常接近0嫂沉,出現(xiàn)梯度消失的現(xiàn)象。
- sigmoid不是0均值(zero-centered)扮碧。非0均值的激活函數(shù)趟章,模型為了收斂,不得不Z字形逼近最優(yōu)解(參考)慎王,導(dǎo)致收斂速度慢蚓土。
- 解析式中含有冪運算,計算時相對來說更加耗時赖淤。
2. tanh函數(shù)
數(shù)學(xué)表達式:
幾何圖像:
tanh
上圖中紅線是tanh函數(shù)蜀漆,藍線是其導(dǎo)數(shù)。
特點:
相比sigmoid函數(shù)咱旱,解決了非 zero-centered 問題确丢。但是梯度消失和和冪運算的問題依然存在。
3. Relu函數(shù)
數(shù)學(xué)表達式:
幾何圖像:
relu.png
優(yōu)點:
- 解決了梯度消失的問題
- 收斂速度快
- 計算速度快
缺點:
- 非zero-centered
- Dead Relu Problem吐限。由于負半軸始終為0鲜侥,導(dǎo)致一些神經(jīng)元永遠不會被激活,相應(yīng)的參數(shù)永遠不會更新诸典。
盡管存在兩個問題描函,但是Relu仍是目前最常用的激活函數(shù)。
4. Leaky Relu函數(shù)
數(shù)學(xué)表達式:
Leaky Relu激活函數(shù)就是針對Relu的Dead Relu Problem提出的狐粱。負半軸是而不是0赘阀,
通常是一個很小的數(shù)。