RMSprop

吳恩達(dá)：RMSprop

簡(jiǎn)介

RMSprop谅年，全稱Root Mean Square prop辩恼，是一種用于深度學(xué)習(xí)梯度計(jì)算的方法扒寄。要想理解RMSprop算法或杠，我們先從梯度下降開始說起哪怔。

梯度下降

我們來看一下張經(jīng)典的三維圖片

convex_function.png

可以看到我們?cè)谏厦嫒魏我粋€(gè)點(diǎn)采用梯度下降以達(dá)到最低點(diǎn)，得到水平方向的梯度將會(huì)是零。而垂直方向梯度則隨著接近最低點(diǎn)逐漸減小认境，最終達(dá)到最優(yōu)結(jié)果胚委。但是這是理想情況下的凸函數(shù)，如果我們面對(duì)的是非凸函數(shù)叉信，如下圖所示：

non-convex_function.jpg

在這種情況下亩冬，梯度方向和大小計(jì)算都將受到嚴(yán)重的干擾。此時(shí)硼身，隨機(jī)初始化的起始點(diǎn)所計(jì)算的梯度大小往往含有特別大的噪聲硅急，若直接采用計(jì)算出的梯度大小，就會(huì)出現(xiàn)以下問題：

鞍點(diǎn)(Saddle point)

Saddle_point.png

從高處落入鞍點(diǎn)時(shí)佳遂，可能遇到的問題就是一個(gè)方向的梯度大营袜，另一個(gè)方向的梯度接近于0，導(dǎo)致在鞍點(diǎn)停留此擺動(dòng)而無法繼續(xù)靠近最優(yōu)點(diǎn)丑罪。實(shí)際上此時(shí)為0的梯度不該嚴(yán)格遵守连茧，因?yàn)閺某跏蓟降玫阶顑?yōu)解的過程中，大部分情況的梯度大小都并沒有直接為靠近最優(yōu)點(diǎn)服務(wù)巍糯。

高原(plateau)
而另一種情況就是在高損失區(qū)域出現(xiàn)平地啸驯，就好像在內(nèi)蒙古高原丟一個(gè)鐵球，它不會(huì)因?yàn)楦吆０味恢被渌盥停炊鴷?huì)因?yàn)槌霈F(xiàn)平原地區(qū)而保持靜止罚斗。平地導(dǎo)致各方向梯度均趨近于0，這種情況也將造成收斂困難宅楞。同樣针姿，我們可以認(rèn)為此時(shí)的梯度大小都并沒有直接為靠近最優(yōu)點(diǎn)服務(wù)，需要作出優(yōu)化厌衙。

總的來說距淫，梯度太高或者太低，很可能就是局部造成的婶希，是對(duì)接近最優(yōu)點(diǎn)沒有意義的暫時(shí)結(jié)果榕暇。沒有大局觀需要宏觀調(diào)控。

優(yōu)化方法

Rprop算法

為了解決上面說到的梯度大小問題喻杈。為梯度增加上下限是有必要的彤枢。

假設(shè) $S$ 為實(shí)際采用梯度大小, $\beta$ 為學(xué)習(xí)率， $dw$ 為反向傳播計(jì)算得梯度大小筒饰。
若
$dw[t] * dw[t - 1] > 0:$
$S = min(S * \beta, S_{max})$
若
$dw[t] * dw[t - 1] < 0:$
$S = max(S * \beta, S_{min})$
直觀來說缴啡，梯度一直朝著某個(gè)方向前進(jìn)時(shí)，會(huì)加一個(gè)上限瓷们，不讓梯度因?yàn)榫植慷盖投斐纱罅科钜嫡ぁ６霈F(xiàn)前面說到的兩種情況秒咐，某些方向梯度降到接近于0而無法收斂時(shí)。梯度將采用一個(gè)最小值碘裕，防止無法擺脫局部反镇。

從Rporp到RMSprop

Rporp常常運(yùn)用于全數(shù)據(jù)集的運(yùn)算，簡(jiǎn)單地說娘汞，為梯度添加最小限制的同時(shí)也減小了梯度的容錯(cuò)率歹茶。詳細(xì)地說，假設(shè)采用Mini Batch進(jìn)行10步梯度運(yùn)算你弦，得出前9步梯度為 $-0.1$ 而最后1步梯度為 $0.9$ 惊豺，當(dāng)這種情況發(fā)生時(shí)最好的做法時(shí)正負(fù)梯度抵消,總梯度值盡量保持不變，而Rprop則會(huì)進(jìn)行9次梯度減少和一次梯度增加禽作，造成梯度的嚴(yán)重失衡(當(dāng)然這里取決于梯度上下限的設(shè)置尸昧，但是總能找到極端情況)。

為此旷偿，引入RMSprop：
$S_{dw} = \beta S_{dw} + (1 - \beta)dw^2$
$w = w - \alpha \frac{dw}{\sqrt{S_{dw}}}$
其中 $dw$ 是梯度, $S_{dw}$ 作為一個(gè)值容器承載著梯度平方加權(quán)平均的結(jié)果烹俗，并且作為梯度縮放的因子。 $\alpha$ 是學(xué)習(xí)率萍程， $\beta$ 則類似于動(dòng)量梯度下降法中的衰減因子幢妄，代表過去梯度對(duì)當(dāng)前梯度的影響，一般取值 $0.9$ 茫负。

這樣子蕉鸳，用梯度自身的大小約束自身避免過大或者過小，減少了人為干預(yù)和極端情況發(fā)生的可能忍法。在引入Mini Batch的同時(shí)不割裂各個(gè)Mini Batch之間的梯度關(guān)系潮尝，就從Rprop算法進(jìn)化到了RMSprop。

以上就是RMSprop的關(guān)鍵內(nèi)容饿序，下面是一些細(xì)節(jié)性的不重要內(nèi)容勉失，可以忽略

不重要的附錄：

$S_{dw} = \beta S_{dw} + (1 - \beta)dw^2$ 中對(duì)梯度平方個(gè)人認(rèn)為是為了保證非負(fù)
$w = w - \alpha \frac{dw}{\sqrt{S_{dw}}}$ 的根號(hào)中，為了避免出現(xiàn)0原探，往往會(huì)加上極小值 $1e^{-8}$ 乱凿。
相關(guān)代碼塊：

Rprop關(guān)鍵代碼

for t in range(num_interations):
    dw[t] = compute_gradient(x, y)
    
    if dw[t] * dw[t - 1] > 0:
        step_size = min(step_size * incFactor, step_size_max)
    elif dw[t] * dw[t - 1] < 0:
        step_size = max(step_size * decFactor, step_size_min)
    
    w[t] = w[t - 1] - sign(dw[t]) * step_size

RMSprop關(guān)鍵代碼

drad_squared = 0
for _ in num_iterations:
    dw = compute_gradients(x, y)
    grad_squared = 0.9 * grads_squared + 0.1 * dx * dx
    w = w - (lr / np.sqrt(grad_squared)) * dw

文章部分參考自外文博客

最后編輯于：2019.08.05 11:22:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市踢匣，隨后出現(xiàn)的幾起案子告匠，更是在濱河造成了極大的恐慌，老刑警劉巖离唬，帶你破解...
沈念sama閱讀 216,496評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異划鸽，居然都是意外死亡输莺，警方通過查閱死者的電腦和手機(jī)戚哎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來嫂用，“玉大人型凳，你說我怎么就攤上這事≈龊” “怎么了甘畅？”我有些...
開封第一講書人閱讀 162,632評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)往弓。經(jīng)常有香客問我疏唾，道長(zhǎng)，這世上最難降的妖魔是什么函似？我笑而不...
開封第一講書人閱讀 58,180評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任槐脏，我火速辦了婚禮，結(jié)果婚禮上撇寞，老公的妹妹穿的比我還像新娘顿天。我一直安慰自己，他們只是感情好蔑担，可當(dāng)我...
茶點(diǎn)故事閱讀 67,198評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布牌废。她就那樣靜靜地躺著，像睡著了一般啤握。火紅的嫁衣襯著肌膚如雪畔规。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,165評(píng)論 1贊 299
城市分裂傳說
那天恨统，我揣著相機(jī)與錄音叁扫，去河邊找鬼。笑死畜埋，一個(gè)胖子當(dāng)著我的面吹牛莫绣，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播悠鞍，決...
沈念sama閱讀 40,052評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼对室，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了咖祭？” 一聲冷哼從身側(cè)響起掩宜，我...
開封第一講書人閱讀 38,910評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎么翰，沒想到半個(gè)月后牺汤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,324評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡浩嫌，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,542評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年檐迟，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了补胚。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,711評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡追迟，死狀恐怖溶其，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情敦间，我是刑警寧澤瓶逃，帶...
沈念sama閱讀 35,424評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站廓块，受9級(jí)特大地震影響厢绝，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜剿骨，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,017評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一代芜、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧浓利，春花似錦挤庇、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,668評(píng)論 0贊 22
一樁弒父案嫡秕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至苹威，卻和暖如春昆咽，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背牙甫。一陣腳步聲響...
開封第一講書人閱讀 32,823評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工掷酗，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人窟哺。一個(gè)月前我還...
沈念sama閱讀 47,722評(píng)論 2贊 368
代替公主和親
正文我出身青樓泻轰，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親且轨。傳聞我的和親對(duì)象是個(gè)殘疾皇子浮声，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,611評(píng)論 2贊 353