Sigmoid函數(shù)
Sigmoid函數(shù)的表達(dá)式為函數(shù)曲線如下圖所示:
Sigmoid函數(shù)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)嘉冒,一度被視為神經(jīng)網(wǎng)絡(luò)的核心所在聊替。
從數(shù)學(xué)上來看娜睛,Sigmoid函數(shù)對中央?yún)^(qū)的信號增益較大鼓拧,對兩側(cè)區(qū)的信號增益小谍倦,在信號的特征空間映射上,有很好的效果涛救。
從神經(jīng)科學(xué)上來看畏邢,中央?yún)^(qū)酷似神經(jīng)元的興奮態(tài),兩側(cè)區(qū)酷似神經(jīng)元的抑制態(tài)检吆,因而在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方面舒萎,可以將重點(diǎn)特征推向中央?yún)^(qū),將非重點(diǎn)特征推向兩側(cè)區(qū)蹭沛。
TanHyperbolic(tanh)函數(shù)
TanHyperbolic(tanh)函數(shù)又稱作雙曲正切函數(shù)臂寝,數(shù)學(xué)表達(dá)式為
其函數(shù)曲線與Sigmoid函數(shù)相似,tanh函數(shù)與Sigmoid函數(shù)的函數(shù)曲線如下所示:
在具體應(yīng)用中摊灭,tanh函數(shù)相比于Sigmoid函數(shù)往往更具有優(yōu)越性咆贬,這主要是因為Sigmoid函數(shù)在輸入處于[-1,1]之間時,函數(shù)值變化敏感帚呼,一旦接近或者超出區(qū)間就失去敏感性掏缎,處于飽和狀態(tài),影響神經(jīng)網(wǎng)絡(luò)預(yù)測的精度值煤杀。而tanh的輸出和輸入能夠保持非線性單調(diào)上升和下降關(guān)系眷蜈,符合BP網(wǎng)絡(luò)的梯度求解,容錯性好沈自,有界酌儒,漸進(jìn)于0、1枯途,符合人腦神經(jīng)飽和的規(guī)律忌怎,但比sigmoid函數(shù)延遲了飽和期。
ReLu函數(shù)和softplus函數(shù)
ReLu函數(shù)的全稱為Rectified Linear Units酪夷,函數(shù)表達(dá)式為
softplus函數(shù)的數(shù)學(xué)表達(dá)式為
它們的函數(shù)表達(dá)式如下:
可以看到榴啸,softplus可以看作是ReLu的平滑。根據(jù)神經(jīng)科學(xué)家的相關(guān)研究晚岭,softplus和ReLu與腦神經(jīng)元激活頻率函數(shù)有神似的地方插掂。也就是說,相比于早期的激活函數(shù),softplus和ReLu更加接近腦神經(jīng)元的激活模型辅甥,而神經(jīng)網(wǎng)絡(luò)正是基于腦神經(jīng)科學(xué)發(fā)展而來,這兩個激活函數(shù)的應(yīng)用促成了神經(jīng)網(wǎng)絡(luò)研究的新浪潮燎竖。
那么softplus和ReLu相比于Sigmoid的優(yōu)點(diǎn)在哪里呢璃弄?引用https://www.zhihu.com/question/29021768的解釋就是:
第一,采用sigmoid等函數(shù)构回,算激活函數(shù)時(指數(shù)運(yùn)算)夏块,計算量大,反向傳播求誤差梯度時纤掸,求導(dǎo)涉及除法脐供,計算量相對大,而采用Relu激活函數(shù)借跪,整個過程的計算量節(jié)省很多政己。
第二,對于深層網(wǎng)絡(luò)掏愁,sigmoid函數(shù)反向傳播時歇由,很容易就會出現(xiàn)梯度消失的情況(在sigmoid接近飽和區(qū)時,變換太緩慢果港,導(dǎo)數(shù)趨于0沦泌,這種情況會造成信息丟失),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練辛掠。
第三谢谦,Relu會使一部分神經(jīng)元的輸出為0,這樣就造成了網(wǎng)絡(luò)的稀疏性萝衩,并且減少了參數(shù)的相互依存關(guān)系回挽,緩解了過擬合問題的發(fā)生(以及一些人的生物解釋balabala)。
softmax函數(shù)
我們可以看到欠气,Sigmoid函數(shù)實際上就是把數(shù)據(jù)映射到一個(0,1) (0,1)(0,1)的空間上厅各,也就是說,Sigmoid函數(shù)如果用來分類的話预柒,只能進(jìn)行二分類队塘,而這里的softmax函數(shù)可以看做是Sigmoid函數(shù)的一般化,可以進(jìn)行多分類宜鸯。softmax函數(shù)的函數(shù)表達(dá)式為:
從公式中可以看出憔古,就是如果某一個zj大過其他z,那這個映射的分量就逼近于1,其他就逼近于0,即用于多分類淋袖。也可以理解為將K維向量映射為另外一種K維向量鸿市。用通信的術(shù)語來講,如果Sigmoid函數(shù)是MISO,Softmax就是MIMO的Sigmoid函數(shù)焰情。