基于梯度下降的優(yōu)化算法

在上一篇文章 “梯度下降法辩块、隨機(jī)梯度下降法與小批量梯度下降法” 中瞄勾，筆者較為詳細(xì)地介紹了優(yōu)化算法中的基礎(chǔ) —— 梯度下降塘揣。本文將站在更為宏觀的角度僻造，先簡單介紹下什么是優(yōu)化憋他，再概覽幾種在梯度下降的基礎(chǔ)上，進(jìn)一步得到發(fā)展的優(yōu)化算法髓削。

1.什么是優(yōu)化

簡單來說竹挡，優(yōu)化就是尋找使得目標(biāo)函數(shù)最小的最優(yōu)解。

在深度學(xué)習(xí)中立膛，優(yōu)化問題特指：尋找神經(jīng)網(wǎng)絡(luò)上的一組參數(shù)（或者說揪罕，權(quán)重） ??梯码，能夠顯著降低目標(biāo)函數(shù) ??(??)。其中好啰，目標(biāo)函數(shù)可以由兩部分構(gòu)成：一是整個(gè)訓(xùn)練集上的性能評估轩娶，二是額外的正則化項(xiàng)。

如果目標(biāo)函數(shù)僅考慮第一部分框往，那么鳄抒，可進(jìn)一步簡化為：平均訓(xùn)練誤差的最小化（或者說，訓(xùn)練集上期望損失的最小化）椰弊。其中许溅，用于度量訓(xùn)練誤差的計(jì)算公式，稱作損失函數(shù) (loss function) 男应，或代價(jià)函數(shù) (cost function)闹司。這種僅基于最小化平均訓(xùn)練誤差的訓(xùn)練過程，稱作經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (empirical risk minimization)沐飘。

經(jīng)驗(yàn)風(fēng)險(xiǎn)的計(jì)算公式游桩，如下：

其中，??為在訓(xùn)練集經(jīng)驗(yàn)分布下的期望耐朴，??為損失函數(shù)借卧，??為權(quán)重，??(??;??)為預(yù)測值筛峭，??為真實(shí)值铐刘。

然而，過度追求平均訓(xùn)練誤差的最小化影晓，容易導(dǎo)致過擬合镰吵，使得模型的泛化能力下降。

此時(shí)挂签，在平均訓(xùn)練誤差的基礎(chǔ)上疤祭，加上正則化項(xiàng) (regularizer) ，也稱懲罰項(xiàng) (penalty term)饵婆，表示模型的復(fù)雜度勺馆，然后再對兩部分之和進(jìn)行最小化的訓(xùn)練過程，稱作結(jié)構(gòu)風(fēng)險(xiǎn)最小化 (structural risk minimization)侨核。

2.常見的優(yōu)化算法

2.1 隨機(jī)梯度下降

詳見文章：梯度下降法草穆、隨機(jī)梯度下降法與小批量梯度下降法

隨機(jī)梯度下降 (SGD)，現(xiàn)廣泛采用min-batch的方式實(shí)現(xiàn)搓译。即悲柱，抽取m個(gè)小批量（獨(dú)立同分布）樣本，通過計(jì)算它們梯度均值些己，得到梯度的無偏估計(jì)∈觯現(xiàn)今跑芳，常見的優(yōu)化算法基本都是在此基礎(chǔ)上實(shí)現(xiàn)的。

在深度學(xué)習(xí)中直颅，小批量樣本的抽取過程是，先shuffle訓(xùn)練集怀樟，再按照指定的batch_size遍歷樣本功偿。其中，每遍歷訓(xùn)練集中的所有樣本一次往堡，稱訓(xùn)練經(jīng)過了“一輪” (epoch)械荷。

算法：

其中虑灰，?? 為梯度符號吨瞎，??為迭代次數(shù)，?? 為學(xué)習(xí)率穆咐，可隨迭代次數(shù)調(diào)整颤诀。

效果：

梯度下降優(yōu)化的等高線圖

局限性：
為了提高收斂速度（訓(xùn)練速度）而增加步長（學(xué)習(xí)率），優(yōu)化卻發(fā)生困難对湃。
體現(xiàn)在崖叫，優(yōu)化軌跡的震蕩較為明顯。

增加步長拍柒，梯度下降優(yōu)化的等高線圖心傀。

進(jìn)一步增加步長，步長過大拆讯，優(yōu)化反而更加艱難脂男。體現(xiàn)在，優(yōu)化軌跡的震蕩更為明顯种呐。

步長過大宰翅，梯度下降優(yōu)化的等高線圖。

2.2 動量

出發(fā)點(diǎn)：
加速學(xué)習(xí)陕贮。

原理：
引入了速度向量 ?? 堕油，以指數(shù)衰減的形式累計(jì)歷史梯度。

也就是肮之，之前的優(yōu)化掉缺，其作用不會立刻消失，而是對后續(xù)的優(yōu)化繼續(xù)產(chǎn)生影響戈擒，但其梯度的貢獻(xiàn)程度會發(fā)生衰減眶明。

結(jié)果是，若當(dāng)前時(shí)刻的梯度與歷史時(shí)刻的梯度方向相似筐高，那么搜囱，在當(dāng)前時(shí)刻會加強(qiáng)這種趨勢丑瞧；若不同，則減弱這種趨勢蜀肘。

其中绊汹，速度 ?? 為新引入的變量，表示參數(shù)移動的方向和速率扮宠。
因?yàn)閯恿?(momentum) 等于質(zhì)量乘以速度西乖，假設(shè)為單位質(zhì)量，則向量 ?? 可看作動量坛增。

有動量超參數(shù) ?? ∈ [0, 1) 获雕，表示之前梯度的貢獻(xiàn)衰減得有多快。
?? 越大收捣，之前的梯度對現(xiàn)在方向的影響越大届案。
一般將該值設(shè)為0.5、0.9罢艾、0.99楣颠，分別表示最大速度2倍、10倍昆婿、100倍于SGD算法球碉。

算法：

其中，?? 為動量參數(shù)仓蛆，?? 為速度睁冬。

效果：
對比梯度下降優(yōu)化的等高線圖，增加了-x方向的訓(xùn)練速度看疙。

動量優(yōu)化的等高線圖

2.3 Nesterov動量

出發(fā)點(diǎn)：
受 Nesterov 加速梯度算法 (Nesterov, 1983, 2004) 啟發(fā)豆拨，Sutskever et al. (2013)
提出了動量算法的一個(gè)變種。

原理：
對比標(biāo)準(zhǔn)動量算法能庆，相同點(diǎn)：
動量參數(shù) ?? 和學(xué)習(xí)率 ?? 施禾，發(fā)揮類似的作用。

不同點(diǎn)：
梯度計(jì)算的方法搁胆。
Nesterov動量弥搞，先用當(dāng)前速度 ?? 更新參數(shù)，再用更新的臨時(shí)參數(shù)計(jì)算梯度渠旁。

結(jié)果攀例，在SGD下，Nesterov動量并沒有改進(jìn)收斂率顾腊，即粤铭，沒有影響收斂的快慢。

算法：

2.4 自適應(yīng)學(xué)習(xí)率

出發(fā)點(diǎn)：
神經(jīng)網(wǎng)絡(luò)優(yōu)化的兩大問題：
a. 學(xué)習(xí)率是難以設(shè)置的超參之一杂靶，對模型的性能有顯著影響梆惯。
b. 損失通常高度敏感于參數(shù)空間的某些方向酱鸭。

動量算法的局限性：
雖在一定程度上緩解了上述問題，但代價(jià)是引入了新的超參數(shù)垛吗。

思想：
對每個(gè)參數(shù)設(shè)置不同的學(xué)習(xí)率凹髓，在整個(gè)學(xué)習(xí)的過程中，自動適應(yīng)這些學(xué)習(xí)率怯屉。

2.4.1 AdaGrad

原理：
先設(shè)置一個(gè)全局學(xué)習(xí)率 ??扁誓。那么，
單個(gè)參數(shù)的學(xué)習(xí)率為蚀之，全局學(xué)習(xí)率除以梯度的累積。

結(jié)果是捷泞，具有損失最大偏導(dǎo)的參數(shù)足删，其學(xué)習(xí)率下降的快，反之亦然锁右。

在參數(shù)空間中更為平緩的傾斜方向會取得更大的進(jìn)步失受。
即，因?yàn)槠骄徲缴荻鹊睦鄯e較小拂到，所以參數(shù)的學(xué)習(xí)率大，步長大码泞。

算法：

其中兄旬，??為梯度的累積，⊙為元素對應(yīng)相乘余寥，??為小常數(shù) (如10^-7)领铐。

局限性：
使學(xué)習(xí)率過早、過量的減少宋舷，僅適用于凸優(yōu)化绪撵。
當(dāng)應(yīng)用于非凸函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，學(xué)習(xí)率會在到達(dá)一個(gè)局部為凸的區(qū)域前就變得太小祝蝠，從而影響收斂速度音诈。

2.4.2 RMSProp

出發(fā)點(diǎn)：
AdaGrad算法的改進(jìn)，解決非凸設(shè)定下的不適用問題绎狭。

原理：
在 AdaGrad 的基礎(chǔ)上细溅，將梯度的累積，改為指數(shù)加權(quán)的移動平均坟岔。
即谒兄，先前的梯度累積結(jié)果取小部分，當(dāng)下的梯度取大部分社付，兩者求和承疲，得到新的累積結(jié)果邻耕。

其中，加權(quán)系數(shù) ?? 相當(dāng)于一個(gè)衰減系數(shù)燕鸽，用來控制歷史信息獲取的多少兄世。從而使得過為久遠(yuǎn)的歷史結(jié)果，在不斷的加權(quán)迭代中被逐漸摒棄啊研。

結(jié)果是御滩，在非凸設(shè)定下有不錯的效果。

算法：

其中党远，?? 為加權(quán)系數(shù)削解。

適用范圍：
鑒于神經(jīng)網(wǎng)絡(luò)是非凸設(shè)定下的，RMSProp 已被證明是一種有效且實(shí)用的深度神經(jīng)網(wǎng)絡(luò)優(yōu)化算法沟娱。目前氛驮，是深度學(xué)習(xí)從業(yè)者經(jīng)常采用的優(yōu)化方法之一。

2.4.3 Adam

原理：
可以看作帶有偏差修正的 Momentum + RMSProp济似。

即矫废，在 RMSProp 的基礎(chǔ)上，參數(shù)更新的運(yùn)算砰蠢，由參數(shù)學(xué)習(xí)率乘以梯度蓖扑，更改為參數(shù)學(xué)習(xí)率乘以梯度指數(shù)加權(quán)的移動平均，且增加了偏差的修正台舱。

算法：

參考

【Book】Deep Learning (by Yoshua Bengio, Ian Goodfellow and Aaron Courville)
【CSDN】Deep Learning 之最優(yōu)化方法
 【知乎】路遙知馬力——Momentum
【知乎專欄】機(jī)器學(xué)習(xí)算法與自然語言處理：通俗理解指數(shù)加權(quán)平均

最后編輯于：2019.04.08 11:00:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末律杠，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子柿赊，更是在濱河造成了極大的恐慌俩功，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碰声，死亡現(xiàn)場離奇詭異诡蜓，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)胰挑，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蔓罚，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人瞻颂，你說我怎么就攤上這事豺谈。” “怎么了贡这？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵茬末，是天一觀的道長。經(jīng)常有香客問我，道長丽惭，這世上最難降的妖魔是什么击奶？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮责掏，結(jié)果婚禮上柜砾，老公的妹妹穿的比我還像新娘。我一直安慰自己换衬，他們只是感情好痰驱，可當(dāng)我...
茶點(diǎn)故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著瞳浦，像睡著了一般担映。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上叫潦，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天另萤，我揣著相機(jī)與錄音，去河邊找鬼诅挑。笑死，一個(gè)胖子當(dāng)著我的面吹牛泛源，可吹牛的內(nèi)容都是我干的拔妥。我是一名探鬼主播，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼达箍，長吁一口氣：“原來是場噩夢啊……” “哼没龙！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起缎玫，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤硬纤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后赃磨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筝家，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年邻辉，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了溪王。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,965評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡值骇，死狀恐怖莹菱，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情吱瘩，我是刑警寧澤道伟，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站使碾，受9級特大地震影響蜜徽，放射性物質(zhì)發(fā)生泄漏祝懂。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一娜汁、第九天我趴在偏房一處隱蔽的房頂上張望嫂易。院中可真熱鬧，春花似錦掐禁、人聲如沸怜械。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案傅事，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽缕允。三九已至，卻和暖如春蹭越，著一層夾襖步出監(jiān)牢的瞬間障本，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工响鹃，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驾霜，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓买置，卻偏偏與公主長得像粪糙，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子忿项，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,914評論 2贊 355

基于梯度下降的優(yōu)化算法

1.什么是優(yōu)化

2.常見的優(yōu)化算法

2.1 隨機(jī)梯度下降

2.2 動量

2.3 Nesterov動量

2.4 自適應(yīng)學(xué)習(xí)率

2.4.1 AdaGrad

2.4.2 RMSProp

2.4.3 Adam

參考

推薦閱讀更多精彩內(nèi)容