RMSprop

吳恩達(dá):RMSprop

簡(jiǎn)介

RMSprop谅年,全稱Root Mean Square prop辩恼,是一種用于深度學(xué)習(xí)梯度計(jì)算的方法扒寄。要想理解RMSprop算法或杠,我們先從梯度下降開始說起哪怔。


梯度下降

我們來看一下張經(jīng)典的三維圖片


convex_function.png

可以看到我們?cè)谏厦嫒魏我粋€(gè)點(diǎn)采用梯度下降以達(dá)到最低點(diǎn),得到水平方向的梯度將會(huì)是零。而垂直方向梯度則隨著接近最低點(diǎn)逐漸減小认境,最終達(dá)到最優(yōu)結(jié)果胚委。但是這是理想情況下的凸函數(shù),如果我們面對(duì)的是非凸函數(shù)叉信,如下圖所示:

non-convex_function.jpg

在這種情況下亩冬,梯度方向和大小計(jì)算都將受到嚴(yán)重的干擾。此時(shí)硼身,隨機(jī)初始化的起始點(diǎn)所計(jì)算的梯度大小往往含有特別大的噪聲硅急,若直接采用計(jì)算出的梯度大小,就會(huì)出現(xiàn)以下問題:

  • 鞍點(diǎn)(Saddle point)


    Saddle_point.png

從高處落入鞍點(diǎn)時(shí)佳遂,可能遇到的問題就是一個(gè)方向的梯度大营袜,另一個(gè)方向的梯度接近于0,導(dǎo)致在鞍點(diǎn)停留此擺動(dòng)而無法繼續(xù)靠近最優(yōu)點(diǎn)丑罪。實(shí)際上此時(shí)為0的梯度不該嚴(yán)格遵守连茧,因?yàn)閺某跏蓟降玫阶顑?yōu)解的過程中,大部分情況的梯度大小都并沒有直接為靠近最優(yōu)點(diǎn)服務(wù)巍糯。

  • 高原(plateau)
    而另一種情況就是在高損失區(qū)域出現(xiàn)平地啸驯,就好像在內(nèi)蒙古高原丟一個(gè)鐵球,它不會(huì)因?yàn)楦吆0味恢被渌盥停炊鴷?huì)因?yàn)槌霈F(xiàn)平原地區(qū)而保持靜止罚斗。平地導(dǎo)致各方向梯度均趨近于0,這種情況也將造成收斂困難宅楞。同樣针姿,我們可以認(rèn)為此時(shí)的梯度大小都并沒有直接為靠近最優(yōu)點(diǎn)服務(wù),需要作出優(yōu)化厌衙。

總的來說距淫,梯度太高或者太低,很可能就是局部造成的婶希,是對(duì)接近最優(yōu)點(diǎn)沒有意義的暫時(shí)結(jié)果榕暇。沒有大局觀需要宏觀調(diào)控。


優(yōu)化方法

Rprop算法

為了解決上面說到的梯度大小問題喻杈。為梯度增加上下限是有必要的彤枢。

假設(shè)S為實(shí)際采用梯度大小,\beta為學(xué)習(xí)率,dw為反向傳播計(jì)算得梯度大小筒饰。

dw[t] * dw[t - 1] > 0:
S = min(S * \beta, S_{max})

dw[t] * dw[t - 1] < 0:
S = max(S * \beta, S_{min})
直觀來說缴啡,梯度一直朝著某個(gè)方向前進(jìn)時(shí),會(huì)加一個(gè)上限瓷们,不讓梯度因?yàn)榫植慷盖投斐纱罅科钜嫡ぁ6霈F(xiàn)前面說到的兩種情況秒咐,某些方向梯度降到接近于0而無法收斂時(shí)。梯度將采用一個(gè)最小值碘裕,防止無法擺脫局部反镇。


從Rporp到RMSprop

Rporp常常運(yùn)用于全數(shù)據(jù)集的運(yùn)算,簡(jiǎn)單地說娘汞,為梯度添加最小限制的同時(shí)也減小了梯度的容錯(cuò)率歹茶。詳細(xì)地說,假設(shè)采用Mini Batch進(jìn)行10步梯度運(yùn)算你弦,得出前9步梯度為-0.1而最后1步梯度為0.9惊豺,當(dāng)這種情況發(fā)生時(shí)最好的做法時(shí)正負(fù)梯度抵消,總梯度值盡量保持不變,而Rprop則會(huì)進(jìn)行9次梯度減少和一次梯度增加禽作,造成梯度的嚴(yán)重失衡(當(dāng)然這里取決于梯度上下限的設(shè)置尸昧,但是總能找到極端情況)。

為此旷偿,引入RMSprop:
S_{dw} = \beta S_{dw} + (1 - \beta)dw^2
w = w - \alpha \frac{dw}{\sqrt{S_{dw}}}
其中dw是梯度, S_{dw}作為一個(gè)值容器承載著梯度平方加權(quán)平均的結(jié)果烹俗,并且作為梯度縮放的因子。\alpha是學(xué)習(xí)率萍程,\beta 則類似于動(dòng)量梯度下降法中的衰減因子幢妄,代表過去梯度對(duì)當(dāng)前梯度的影響,一般取值0.9茫负。

這樣子蕉鸳,用梯度自身的大小約束自身避免過大或者過小,減少了人為干預(yù)和極端情況發(fā)生的可能忍法。在引入Mini Batch的同時(shí)不割裂各個(gè)Mini Batch之間的梯度關(guān)系潮尝,就從Rprop算法進(jìn)化到了RMSprop。


以上就是RMSprop的關(guān)鍵內(nèi)容饿序,下面是一些細(xì)節(jié)性的不重要內(nèi)容勉失,可以忽略


不重要的附錄:

  1. S_{dw} = \beta S_{dw} + (1 - \beta)dw^2中對(duì)梯度平方個(gè)人認(rèn)為是為了保證非負(fù)
  2. w = w - \alpha \frac{dw}{\sqrt{S_{dw}}}的根號(hào)中,為了避免出現(xiàn)0原探,往往會(huì)加上極小值1e^{-8}乱凿。
  3. 相關(guān)代碼塊:
Rprop關(guān)鍵代碼
for t in range(num_interations):
    dw[t] = compute_gradient(x, y)
    
    if dw[t] * dw[t - 1] > 0:
        step_size = min(step_size * incFactor, step_size_max)
    elif dw[t] * dw[t - 1] < 0:
        step_size = max(step_size * decFactor, step_size_min)
    
    w[t] = w[t - 1] - sign(dw[t]) * step_size
RMSprop關(guān)鍵代碼
drad_squared = 0
for _ in num_iterations:
    dw = compute_gradients(x, y)
    grad_squared = 0.9 * grads_squared + 0.1 * dx * dx
    w = w - (lr / np.sqrt(grad_squared)) * dw
  1. 文章部分參考自外文博客
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市踢匣,隨后出現(xiàn)的幾起案子告匠,更是在濱河造成了極大的恐慌,老刑警劉巖离唬,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異划鸽,居然都是意外死亡输莺,警方通過查閱死者的電腦和手機(jī)戚哎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嫂用,“玉大人型凳,你說我怎么就攤上這事≈龊” “怎么了甘畅?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)往弓。 經(jīng)常有香客問我疏唾,道長(zhǎng),這世上最難降的妖魔是什么函似? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任槐脏,我火速辦了婚禮,結(jié)果婚禮上撇寞,老公的妹妹穿的比我還像新娘顿天。我一直安慰自己,他們只是感情好蔑担,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布牌废。 她就那樣靜靜地躺著,像睡著了一般啤握。 火紅的嫁衣襯著肌膚如雪畔规。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天恨统,我揣著相機(jī)與錄音叁扫,去河邊找鬼。 笑死畜埋,一個(gè)胖子當(dāng)著我的面吹牛莫绣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播悠鞍,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼对室,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了咖祭?” 一聲冷哼從身側(cè)響起掩宜,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎么翰,沒想到半個(gè)月后牺汤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡浩嫌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年檐迟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了补胚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡追迟,死狀恐怖溶其,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情敦间,我是刑警寧澤瓶逃,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站廓块,受9級(jí)特大地震影響厢绝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜剿骨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一代芜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧浓利,春花似錦挤庇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至苹威,卻和暖如春昆咽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背牙甫。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國打工掷酗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人窟哺。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓泻轰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親且轨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浮声,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 有前面的知識(shí),我們知道如何構(gòu)建目標(biāo)函數(shù)了旋奢,當(dāng)目標(biāo)函數(shù)構(gòu)建出來后泳挥,如何求其參數(shù)使的目標(biāo)函數(shù)最小化呢?這就是這一小節(jié)的...
    李濤AT北京閱讀 909評(píng)論 0 0
  • 大寶:浩軒 6十11 小寶:浩正 4歲 小組:2組 丫丫老師的錦囊2聽后感:放下期待收獲的都是驚喜至朗!90天不是...
    H葉燕子閱讀 248評(píng)論 0 0
  • 操作系統(tǒng)磁盤管理章節(jié)(二) 課程介紹部分 1.磁盤體系結(jié)構(gòu)應(yīng)用 磁盤格式化操作 磁盤掛載操作 如何自動(dòng)掛載 掛...
    亦雨蕭蕭閱讀 455評(píng)論 0 0
  • 基于病葉圖像處理技術(shù)的植物病害識(shí)別是一個(gè)具有挑戰(zhàn)性的研究課題屉符。 病態(tài)葉片圖像的復(fù)雜性。深入學(xué)習(xí)模式在植物病害鑒定方...
    菜田的守望者w閱讀 432評(píng)論 0 0
  • 仙老師一生就知道兩個(gè)天才真仲,一個(gè)是復(fù)有詩書的小程序——美圖配詩的制作者小毛老師,另一個(gè)初澎,就是王勃了秸应。 王勃,用陳子昂...
    大仙故事會(huì)閱讀 1,385評(píng)論 0 4