ADADELTA: AN ADAPTIVE LEARNING RATE METHOD(2012)

文末給出算法的具體實現(xiàn)独令,心急的話可以直接跳到最后看
寫完了才發(fā)現(xiàn)有大神寫過了,理論也更完備一些

優(yōu)勢

  • 該方法不需要手動調(diào)整學(xué)習(xí)速率
  • 對超參數(shù)不敏感
  • 將對每個維度的學(xué)習(xí)率單獨分離出來
  • 最小化梯度下降時的計算量
  • 對大梯度,噪聲易茬,不同架構(gòu)具有很好的健壯性
  • 對本地或分布式環(huán)境都可很好的應(yīng)用

以下介紹一下該算法的一些背景知識

學(xué)習(xí)率退火

  • 在驗證準(zhǔn)確率趨于平穩(wěn)的時候降低學(xué)習(xí)率
  • 或者依據(jù)迭代了多少周期來控制學(xué)習(xí)率
  • 然而依然需要添加額外的參數(shù)控制學(xué)習(xí)率衰減的速度

Per-Dimension First Order Methods(將對每個維度的學(xué)習(xí)率單獨分離出來?)

由于參數(shù)矢量的每個維度都可以以完全不同的方式與全局cost相關(guān)而叼,所以可以補償這些差異的每維度學(xué)習(xí)速率通常是很有用的。

動量法

  • 當(dāng)梯度指向同一個方向時糖声,加速
  • 當(dāng)梯度的符號一直在改變時(震蕩)斤彼,減速


    迭代公式
  • ρ用于減速之前的學(xué)習(xí)率
  • 對于長峽谷狀的cost表面而言有了不錯的改進(相對于SGD)
  • 動量法可以將全局學(xué)習(xí)率依據(jù)維度區(qū)分出來

ADAGRAD

  • 2012年之前的一個新的方法

  • 僅僅使用一階信息但是有一些二階的性質(zhì)和思路在里面(?蘸泻?)


    ADAGRAD
  • η:所有維度共享的學(xué)習(xí)率
    分母是對之前學(xué)習(xí)率在每個維度的平方的累和(每個維度的梯度是最前所有的梯度在這個維度上的累和琉苇,所以是一直增加的)

  • 由于這種動態(tài)速率隨著梯度幅度的倒數(shù)而增長,所以較大的梯度具有較小的學(xué)習(xí)率悦施,而小梯度具有較大的學(xué)習(xí)率并扇。

  • 因為神經(jīng)網(wǎng)絡(luò)中不同層之間的梯度的差距通常達到幾個數(shù)量級,所以這種方法可以被考慮在內(nèi)

  • 分母中梯度的積累與退火有這類似的效果抡诞,降低了學(xué)習(xí)的速率穷蛹。由于梯度在分母中的積累,學(xué)習(xí)率將逐漸下降最終至0(這個不好)

  • 因為無視了梯度的大小昼汗,這種方法對于參數(shù)的初始條件和對應(yīng)的梯度大小可能是敏感的肴熏,初始梯度大的話,之后的學(xué)習(xí)速率會下降乔遮。但是可以通過增加全局學(xué)習(xí)率來緩解這種情況扮超。

使用Second Order Information

  • 上述方法僅利用梯度和函數(shù)評估來優(yōu)化目標(biāo),二階方法(如牛頓法或準(zhǔn)牛頓法)可以使用黑塞矩陣或近似值。當(dāng)然計算可能會因此變得更加昂貴出刷。
  • 計算黑塞矩陣(多元函數(shù)二階導(dǎo)數(shù)打那個矩陣)的逆矩陣開銷太大璧疗,可以通過對它做對角矩陣的倒數(shù)近似(?diagonal approximation)黑塞矩陣的逆矩陣來減少計算量(僅需再多一次額外的forward and back-propagation)


    update
  • μ是改善小曲率區(qū)域的黑塞矩陣調(diào)節(jié)的小常數(shù)馁龟。
  • 引入黑塞矩陣和類ADAGRAD項可以減輕對指定學(xué)習(xí)率的需要( Schaul發(fā)現(xiàn))


ADADELTA METHOD

對ADAGRAD以下缺點的改進:

  • 學(xué)習(xí)率的持續(xù)退火(或shrink)
  • 需要人工選擇學(xué)習(xí)率

改進方法1:Accumulate Over Window

  • 在一個window w 內(nèi)對梯度累和崩侠,而不是所有的梯度。
  • 因為存放 w 之前的梯度是低效的坷檩,所以可以用對先前所有梯度均值(使用RMS即均方根值實現(xiàn))的一個指數(shù)衰減作為代替的實現(xiàn)方法却音。


改進方法2:Correct Units with Hessian Approximation

  • 改進希望?xx之間的units一致(?量綱一致矢炼,不是很清楚)系瓢,而SGD,Momentum句灌,ADAGRAD中的units并不一致夷陋,所以他們的參數(shù)更新都是unitsless的
    SGD/Momentum/ADAGRAD:unitsless
  • 但是使用黑塞矩陣的話可以保證units一致(因為二階)


    Hessian Approximation: correct units
  • 基于[Becker&LeCun 1988]的近似方法


  • 進而


  • 最后得出近似黑塞矩陣的逆矩陣的表達式


  • 其中假設(shè)x附近的曲率是平滑的,而Xt-1可以近似xt
  • 最后的x更新表達式


  • 由于RMS始終大于0胰锌,確保了X更新的方向始終與負梯度同向骗绕。
  • 分子作為一個加速項,作為動量在時間窗口w上積累先前的梯度资昧。
  • 分母與ADAGRAD相關(guān)酬土,因為每維度的平方梯度信息有助于平衡每個維度的進度,而是在一個窗口w上計算格带,以確保后期的訓(xùn)練撤缴。

最終算法的具體實現(xiàn)

具體實現(xiàn)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市叽唱,隨后出現(xiàn)的幾起案子腹泌,更是在濱河造成了極大的恐慌,老刑警劉巖尔觉,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異芥吟,居然都是意外死亡侦铜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門钟鸵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钉稍,“玉大人,你說我怎么就攤上這事棺耍」蔽矗” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長俊卤。 經(jīng)常有香客問我嫩挤,道長,這世上最難降的妖魔是什么消恍? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任岂昭,我火速辦了婚禮,結(jié)果婚禮上狠怨,老公的妹妹穿的比我還像新娘约啊。我一直安慰自己,他們只是感情好佣赖,可當(dāng)我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布恰矩。 她就那樣靜靜地躺著,像睡著了一般憎蛤。 火紅的嫁衣襯著肌膚如雪外傅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天蹂午,我揣著相機與錄音栏豺,去河邊找鬼。 笑死豆胸,一個胖子當(dāng)著我的面吹牛奥洼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播晚胡,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼灵奖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了估盘?” 一聲冷哼從身側(cè)響起瓷患,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎遣妥,沒想到半個月后擅编,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡箫踩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年爱态,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片境钟。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡锦担,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慨削,到底是詐尸還是另有隱情洞渔,我是刑警寧澤套媚,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站磁椒,受9級特大地震影響堤瘤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜衷快,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一宙橱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蘸拔,春花似錦师郑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赏胚。三九已至岁经,卻和暖如春锨天,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缔恳。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工宝剖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人歉甚。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓万细,卻偏偏與公主長得像,于是被迫代替她去往敵國和親纸泄。 傳聞我的和親對象是個殘疾皇子赖钞,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容