選用Relu 替代tanh 與sigmoid 的原因

為什么要引入激活函數(shù)？

如果不用激活函數(shù)（其實(shí)相當(dāng)于激勵(lì)函數(shù)是f(x)=x）威蕉，在這種情況下你每一層輸出都是上層輸入的線性函數(shù)刁俭，很容易驗(yàn)證，無論你神經(jīng)網(wǎng)絡(luò)有多少層韧涨，輸出都是輸入的線性組合牍戚，與沒有隱藏層效果相當(dāng)，這種情況就是最原始的感知機(jī)了虑粥。

正因?yàn)樯厦娴脑蛉缧ⅲ覀儧Q定引入非線性函數(shù)作為激勵(lì)函數(shù)，這樣深層神經(jīng)網(wǎng)絡(luò)就有意義了（不再是是輸入的線性組合娩贷，可以逼近任意函數(shù)）第晰。最早的想法是sigmoid函數(shù)或者tanh函數(shù)，輸出有界彬祖，很容易充當(dāng)下一層輸入茁瘦。激活函數(shù)的作用是為了增加神經(jīng)網(wǎng)絡(luò)模型的非線性。否則你想想储笑，沒有激活函數(shù)的每層都相當(dāng)于矩陣相乘甜熔，就算你疊加了若干曾之后，無非還是個(gè)矩陣相乘罷了南蓬。所以你沒有非線性結(jié)構(gòu)的話纺非，根本就算不上什么神經(jīng)網(wǎng)絡(luò)哑了。

函數(shù)分析

image

它能夠把輸入的連續(xù)實(shí)值“壓縮”到0和1之間，特別的烧颖，如果是非常大的負(fù)數(shù)弱左，那么輸出就是0；如果是非常大的正數(shù)炕淮，輸出就是1.

signoid函數(shù)曾經(jīng)被使用的很多拆火，不過近年來，用它的人越來越少了涂圆。主要是因?yàn)樗囊恍┤秉c(diǎn)：

當(dāng)輸入非常大或者非常小的時(shí)候们镜，這些神經(jīng)元的梯度是接近于0的，從圖中可以看出梯度的趨勢润歉；

sigmoid的輸出不是0均值模狭，這回導(dǎo)致后一層的神經(jīng)元將得到上一層輸出的非0均值信號(hào)將作為輸入（為什么不能是非0均值的？踩衩？嚼鹉？）

Tanh是Sigmoid的變形，與sigmoid不同的是驱富，tanh是0均值的锚赤，因此，實(shí)際應(yīng)用中褐鸥，tanh會(huì)比sigmoid更好线脚。

ReLU函數(shù)

image

從圖中可以看出，輸入負(fù)信號(hào)時(shí)叫榕，輸出都是0浑侥，非負(fù)的情況下，輸出就等于輸入翠霍。

解決了gradient vanishing問題（在正區(qū)間）

計(jì)算速度非扯Ф郑快，只需要判斷輸入是否大于0

收斂速度遠(yuǎn)快于sigmoid和tanh

ReLU需要特別注意的問題：

1寒匙、ReLU的輸出不是0均值的

2零如、Dead ReLU Problem，指的是某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活锄弱，導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新考蕾。有兩個(gè)主要原因可能導(dǎo)致這種情況產(chǎn)生：（1）非常不幸的參數(shù)初始化，這種情況比較少見（2）learning rate太高導(dǎo)致在訓(xùn)練過程中參數(shù)更新太大会宪，不幸使網(wǎng)絡(luò)進(jìn)入這種狀態(tài)肖卧。解決方法是可以采用Xavier初始化方法，以及避免learning rate設(shè)置他打或者使用adagrad等自動(dòng)調(diào)節(jié)learning rate的算法

為什么會(huì)引入Relu呢掸鹅？

第一塞帐，采用Sigmoid等函數(shù)拦赠，算激活函數(shù)時(shí)（指數(shù)運(yùn)算），計(jì)算量大葵姥，反向傳播求誤差梯度時(shí)荷鼠，求導(dǎo)涉及除法，計(jì)算量相對大榔幸，而采用Relu激活函數(shù)允乐，整個(gè)過程的計(jì)算量節(jié)省很多。

第二：對于深層網(wǎng)絡(luò)削咆，sigmoid函數(shù)反向傳播時(shí)牍疏，很容易就會(huì)出現(xiàn)梯度消失的情況（在sigmoid接近飽和區(qū)時(shí)，變換太緩慢拨齐，導(dǎo)致趨于0鳞陨，這種情況會(huì)造成信息丟失，從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練）

第三：ReLU會(huì)使一部分神經(jīng)元的輸出為0瞻惋，這樣就造成了網(wǎng)絡(luò)的稀疏性炊邦，并且減少了參數(shù)的相互依存關(guān)系，緩解了過擬合問題的發(fā)生熟史。

對Relu 改進(jìn)

當(dāng)然現(xiàn)在也有一些對ReLU的改進(jìn)，比如prelu窄俏。random relu等蹂匹，在不同的數(shù)據(jù)集上會(huì)有一些訓(xùn)練速度上或者準(zhǔn)確率上的改進(jìn)

現(xiàn)在主流的做法，會(huì)多做一些batch normalization凹蜈，盡可能保證每一層網(wǎng)絡(luò)的輸入具有相同的分布限寞。而最新的論文中，有加入bypass connection之后仰坦，發(fā)現(xiàn)改變batch normalization的位置會(huì)有更好的效果履植。

深度學(xué)習(xí)的基本原理是基于人工神經(jīng)網(wǎng)絡(luò)，信號(hào)從一個(gè)神經(jīng)元進(jìn)入悄晃，經(jīng)過非線性的activation function玫霎，傳入到下一層神經(jīng)元；再經(jīng)過該層神經(jīng)元的activate妈橄，繼續(xù)往下傳遞庶近，如此循環(huán)往復(fù)，直到輸出層眷蚓。正是由于這些非線性函數(shù)的反復(fù)疊加鼻种，才使得神經(jīng)網(wǎng)絡(luò)有足夠的capacity來抓取復(fù)雜的pattern，在各個(gè)領(lǐng)域取得state-of-the-art的結(jié)果沙热。顯而易見叉钥，activation function在深度學(xué)習(xí)中非常重要罢缸，也是很活躍的研究領(lǐng)域之一。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末投队，一起剝皮案震驚了整個(gè)濱河市枫疆，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌蛾洛，老刑警劉巖养铸，帶你破解...
沈念sama閱讀 221,820評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異轧膘，居然都是意外死亡钞螟，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門谎碍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來鳞滨，“玉大人，你說我怎么就攤上這事蟆淀≌玻” “怎么了？”我有些...
開封第一講書人閱讀 168,324評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵熔任，是天一觀的道長褒链。經(jīng)常有香客問我，道長疑苔，這世上最難降的妖魔是什么甫匹？我笑而不...
開封第一講書人閱讀 59,714評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮惦费，結(jié)果婚禮上兵迅，老公的妹妹穿的比我還像新娘。我一直安慰自己薪贫，他們只是感情好恍箭，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著瞧省，像睡著了一般扯夭。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上鞍匾，一...
開封第一講書人閱讀 52,328評論 1贊 310
城市分裂傳說
那天勉抓，我揣著相機(jī)與錄音，去河邊找鬼候学。笑死藕筋，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播隐圾，決...
沈念sama閱讀 40,897評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼伍掀，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了暇藏？” 一聲冷哼從身側(cè)響起蜜笤，我...
開封第一講書人閱讀 39,804評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎盐碱，沒想到半個(gè)月后把兔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,345評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡瓮顽，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年县好，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暖混。...
茶點(diǎn)故事閱讀 40,561評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡缕贡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出拣播，到底是詐尸還是另有隱情晾咪，我是刑警寧澤，帶...
沈念sama閱讀 36,238評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贮配，位于F島的核電站谍倦，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏泪勒。R本人自食惡果不足惜剂跟，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望酣藻。院中可真熱鬧酬屉，春花似錦坞靶、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,417評論 0贊 24
一樁弒父案税产，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽怕轿。三九已至，卻和暖如春辟拷，著一層夾襖步出監(jiān)牢的瞬間撞羽，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,528評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工衫冻，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留诀紊，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,983評論 3贊 376
代替公主和親
正文我出身青樓隅俘，卻偏偏與公主長得像邻奠，于是被迫代替她去往敵國和親笤喳。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評論 2贊 359

選用Relu 替代tanh 與sigmoid 的原因

為什么要引入激活函數(shù)？

函數(shù)分析

ReLU需要特別注意的問題：

對Relu 改進(jìn)

推薦閱讀更多精彩內(nèi)容