激活函數(shù)
一個神經(jīng)元就是計算輸入的權(quán)重之和团滥,增加bias,決定神經(jīng)元是否被激活(這個就是激活函數(shù)干的)
考慮神經(jīng)元有如下的表達(dá)式:
Y的值可以從負(fù)無窮到正無窮枫虏,那么如何決定這個神經(jīng)元是否被激活呢妇穴?這就需要我們用到激活函數(shù)。
step function
考慮到神經(jīng)元的激活隶债,最簡單的方式就是設(shè)置一個閾值腾它。當(dāng)Y的值大于這個閾值的時候,這個神經(jīng)元被激活死讹;當(dāng)Y的值小于這個閾值的時候瞒滴,這個神經(jīng)元就不被激活。
Linear function
A=cx
這個激活函數(shù)的輸出是與輸出成比例的。但是如果神經(jīng)網(wǎng)絡(luò)都是線性激活函數(shù)妓忍,那個整個網(wǎng)絡(luò)都是線性虏两,也就說無論多少層的神經(jīng)網(wǎng)絡(luò)都可以被一層的神經(jīng)網(wǎng)絡(luò)取代。這也不是我們希望看到的世剖。
sigmoid函數(shù)
從函數(shù)的圖像看出來定罢,在區(qū)間[-2,2]之間,函數(shù)變化非撑蕴保快祖凫,這也就意味著一點(diǎn)細(xì)微的變化都會引起函數(shù)值發(fā)生很大的變化。這個實(shí)際上對于分類問題是一個非常好的性質(zhì)酬凳。在函數(shù)末端的梯度變化是非常緩慢的惠况,也就意味著會有“梯度消失”的問題出現(xiàn)。當(dāng)梯度消失的時候粱年,整個網(wǎng)絡(luò)訓(xùn)練速度非常慢
Tanh function
從函數(shù)圖像看來售滤,這個函數(shù)和Sigmoid函數(shù)非常相似罚拟。它能夠保證非線性台诗,tanh梯度下降速度高于sigmoid函數(shù),同樣tanh存在梯度下降的問題赐俗。對于循環(huán)神經(jīng)網(wǎng)絡(luò)來說拉队,不存在梯度下降的問題,所以LSTM一般默認(rèn)tanh為激活函數(shù)
ReLU
A(x)=max(0阻逮,x)
ReLU函數(shù)有點(diǎn)類似于線性粱快,實(shí)際上它是非線性的,以及ReLU函數(shù)組合也是非線性的(實(shí)際上這個函數(shù)是一個比較好的近似函數(shù)叔扼,任何函數(shù)都可以組合ReLU函數(shù)來近似)事哭。
softmax
歸一化指數(shù)函數(shù),對向量進(jìn)行歸一化,凸顯其中最大的值并抑制遠(yuǎn)低于最大值的其他分量瓜富,很好應(yīng)用于基于概率的分類問題