激活函數(shù)的選擇

“激活函數(shù)”,又稱“非線性映射函數(shù)”厌衙,是深度卷積神經(jīng)網(wǎng)絡(luò)中不可或缺的關(guān)鍵模塊距淫。可以說婶希,深度網(wǎng)絡(luò)模型其強(qiáng)大的表示能力大部分便是由激活函數(shù)的非線性帶來的榕暇。

1.Sigmoid型函數(shù)

Sigmoid型函數(shù)也稱Logistic函數(shù):

其函數(shù)形狀如下圖(a)所示。很明顯可以看出喻杈,經(jīng)過Sigmoid型函數(shù)作用后彤枢,輸出響應(yīng)的值域被壓縮到[0, 1] 之間,而0對應(yīng)了生物神經(jīng)元的“抑制狀態(tài)”筒饰,1則恰好對應(yīng)了“興奮狀態(tài)”缴啡。但對于Sigmoid函數(shù)兩端大于5(或小于?5)的區(qū)域,這部分輸出會被壓縮到1(或0)瓷们。這樣的處理會帶來梯度的“飽和效應(yīng)”(saturation effect)业栅。不妨對照Sigmoid型函數(shù)的梯度圖(圖(b)),大于5(或小于?5)部分的梯度接近0换棚,這會導(dǎo)致在誤差反向傳播過程中導(dǎo)數(shù)處于該區(qū)域的誤差很難甚至無法傳遞至前層式镐,進(jìn)而導(dǎo)致整個網(wǎng)絡(luò)無法正常訓(xùn)練。

從上圖(a)中可觀察到Sigmoid型激活函數(shù)值域的均值并非為0固蚤,而是全為正娘汞,這樣的結(jié)果實(shí)際上并不符合我們對神經(jīng)網(wǎng)絡(luò)內(nèi)數(shù)值的期望(均值)應(yīng)為0的設(shè)想。

2.tanh(x) 型函數(shù)

tanh(x) 型函數(shù)是在Sigmoid型函數(shù)基礎(chǔ)上為解決均值問題提出的激活函數(shù):

tang(x) = 2S(2x)-1夕玩。tanh(x) 型函數(shù)又稱作雙曲正切函數(shù)(hyperbolic?tangent function)你弦,其函數(shù)范圍是(?1,+1),輸出響應(yīng)的均值為0燎孟。但由于tanh(x) 型函數(shù)仍基于Sigmoid型函數(shù)禽作,使用tanh(x) 型函數(shù)依然會發(fā)生“梯度飽和”現(xiàn)象。

3.修正線性單元(ReLU)

為了避免梯度飽和現(xiàn)象的發(fā)生揩页,將修正線性單元(Rectified Linear Unit旷偿,簡稱ReLU)引入神經(jīng)網(wǎng)。ReLU函數(shù)是目前深度卷積神經(jīng)網(wǎng)絡(luò)中最為常用的激活函數(shù)之一。ReLU函數(shù)實(shí)際上是一個分段函數(shù)萍程,其定義為:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?ReLU(x) = MAX{0, x}.

與前兩個激活函數(shù)相比:ReLU函數(shù)的梯度在x ≥ 0 時為1浦妄,反之為0(如上圖所示)伤塌;對x ≥ 0 部分完全消除了Sigmoid型函數(shù)的梯度飽和效應(yīng)瑰妄。計算復(fù)雜度上翅楼,ReLU函數(shù)也相對前兩者的指數(shù)函數(shù)計算更為簡單。同時忍法,實(shí)驗(yàn)中還發(fā)現(xiàn)ReLU函數(shù)有助于隨機(jī)梯度下降方法收斂潮尝,收斂速度約快6倍左右。不過饿序,ReLU函數(shù)也有自身缺陷勉失,即在x < 0 時,梯度便為0嗤堰。換句話說戴质,對于小于0的這部分卷積結(jié)果響應(yīng),它們一旦變?yōu)樨?fù)值將再無法影響網(wǎng)絡(luò)訓(xùn)練——這種現(xiàn)象被稱作“死區(qū)”踢匣。

4.Leaky ReLU

為了緩解“死區(qū)”現(xiàn)象,研究者將ReLU函數(shù)中x < 0 的部分調(diào)整為f(x) = α·x戈抄,其中α 為0.01或0.001數(shù)量級的較小正數(shù)离唬。這種新型的激活函數(shù)被稱作“Leaky ReLU”:

可以發(fā)現(xiàn),原始ReLU函數(shù)實(shí)際上是Leaky ReLU函數(shù)的一個特例划鸽,即α = 0输莺。不過由Leaky ReLU中α 為超參數(shù),合適的值較難設(shè)定且較為敏感裸诽,因此Leaky ReLU函數(shù)在實(shí)際使用中的性能并不十分穩(wěn)定嫂用。

5.參數(shù)化ReLU

參數(shù)化ReLU的提出很好的解決了Leaky ReLU中超參數(shù)α 不易設(shè)定的問題:參數(shù)化ReLU直接將α 也作為一個網(wǎng)絡(luò)中可學(xué)習(xí)的變量融入模型的整體訓(xùn)練過程。在求解參數(shù)化ReLU時丈冬,文獻(xiàn)中仍使用傳統(tǒng)的誤差反向傳播和隨機(jī)梯度下降嘱函,對于參數(shù)α 的更新遵循鏈?zhǔn)椒▌t,具體推導(dǎo)細(xì)節(jié)在此不過多贅述埂蕊,感興趣的讀者可參考文獻(xiàn)Surpassing human-level performance on ImageNet classification往弓。實(shí)驗(yàn)結(jié)果驗(yàn)證方面,曾在一個14層卷積網(wǎng)絡(luò)上對比了ReLU和參數(shù)化ReLU在ImageNet 2012數(shù)據(jù)集上的分類誤差(top-1和top-5)蓄氧。

表1? 不同設(shè)定下學(xué)到的參數(shù)化ReLU中超參數(shù)α 取值

網(wǎng)絡(luò)結(jié)構(gòu)如表1函似,每層卷積操作后均有參數(shù)化ReLU操作。表中第二列和第三列數(shù)值分別表示各層不同通道(channel)共享參數(shù)α 和獨(dú)享參數(shù)α1時網(wǎng)絡(luò)自動學(xué)習(xí)的α 取值喉童。

表2? ReLU與參數(shù)化ReLU在 ImageNet 2012 數(shù)據(jù)集上分類錯誤率對比

實(shí)驗(yàn)結(jié)果如表2中所示撇寞。可以發(fā)現(xiàn),在分類精度上蔑担,使用參數(shù)化ReLU作為激活函數(shù)的網(wǎng)絡(luò)要優(yōu)于使用原始ReLU的網(wǎng)絡(luò)牌废,同時自由度較大的各通道獨(dú)享參數(shù)的參數(shù)化ReLU性能更優(yōu)。另外钟沛,需指出表1中幾個有趣的觀察:

????????1)與第一層卷積層搭配的參數(shù)化ReLU的α 取值(表1中第一行0.681和0.596)遠(yuǎn)大于ReLU中的0畔规。這表明網(wǎng)絡(luò)較淺層所需非線性較弱。同時恨统,我們知道淺層網(wǎng)絡(luò)特征一般多為表示“邊緣”叁扫、“紋理”等特性的泛化特征。這一觀察說明對于此類特征正負(fù)響應(yīng)(activation)均很重要畜埋;這也解釋了固定α 取值的ReLU(α = 0)和Leaky ReLU相比參數(shù)化ReLU性能較差的原因莫绣。

????????2)請注意獨(dú)享參數(shù)設(shè)定下學(xué)到的α 取值(表1中的最后一列)呈現(xiàn)由淺層到深層依次遞減的趨勢,說明實(shí)際上網(wǎng)絡(luò)所需的非線性能力隨網(wǎng)絡(luò)深度增加而遞增悠鞍。

不過萬事皆具兩面性对室,參數(shù)化ReLU在帶來更大自由度的同時,也增加了網(wǎng)絡(luò)模型過擬合的風(fēng)險咖祭,在實(shí)際使用中需格外注意掩宜。

6.隨機(jī)化ReLU

另一種解決α 超參設(shè)定的方式是將其隨機(jī)化,這便是隨機(jī)化ReLU么翰。對于隨機(jī)化ReLu中α 的設(shè)定牺汤,其取值在訓(xùn)練階段服從均勻分布,在測試階段則將其指定為該均勻分布對應(yīng)的分布期望(l+u)/2:

其中浩嫌, α′ ~ U(l, u), l < u, and l, u ∈ [0, 1)

7.指數(shù)化線性單元(ELU)

顯然檐迟,ELU具備ReLU函數(shù)的優(yōu)點(diǎn),同時ELU也解決了ReLU函數(shù)自身的“死區(qū)”問題码耐。不過追迟,ELU函數(shù)中的指數(shù)操作稍稍增大了計算量。實(shí)際使用中骚腥,ELU中的超參數(shù)λ 一般設(shè)置為1敦间。

指數(shù)化線性單元ELU及其導(dǎo)數(shù)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市桦沉,隨后出現(xiàn)的幾起案子每瞒,更是在濱河造成了極大的恐慌,老刑警劉巖纯露,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件剿骨,死亡現(xiàn)場離奇詭異,居然都是意外死亡埠褪,警方通過查閱死者的電腦和手機(jī)浓利,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門挤庇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人贷掖,你說我怎么就攤上這事嫡秕。” “怎么了苹威?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵昆咽,是天一觀的道長。 經(jīng)常有香客問我牙甫,道長掷酗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任窟哺,我火速辦了婚禮泻轰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘且轨。我一直安慰自己浮声,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布旋奢。 她就那樣靜靜地躺著泳挥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪至朗。 梳的紋絲不亂的頭發(fā)上羡洁,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機(jī)與錄音爽丹,去河邊找鬼。 笑死辛蚊,一個胖子當(dāng)著我的面吹牛粤蝎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播袋马,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼初澎,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了虑凛?” 一聲冷哼從身側(cè)響起碑宴,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎桑谍,沒想到半個月后延柠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锣披,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年贞间,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片增热。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡整以,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出峻仇,到底是詐尸還是另有隱情公黑,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布摄咆,位于F島的核電站凡蚜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏豆同。R本人自食惡果不足惜番刊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望影锈。 院中可真熱鬧芹务,春花似錦、人聲如沸鸭廷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辆床。三九已至佳晶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間讼载,已是汗流浹背轿秧。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咨堤,地道東北人菇篡。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像一喘,于是被迫代替她去往敵國和親驱还。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容