知識點

優(yōu)化方法

  1. 梯度下降
  • 梯度下降是一種優(yōu)化算法邢享,通過迭代的方式尋找模型的最優(yōu)參數(shù)
  • 所謂最優(yōu)參數(shù)指的是使目標函數(shù)達到最小值時的參數(shù);
  • 當目標函數(shù)是凸函數(shù)時,梯度下降的解是全局最優(yōu)解扛禽;但在一般情況下,梯度下降無法保證全局最優(yōu)
    • 梯度僅僅指示了對于每個參數(shù)各自增長最快的方向皱坛;因此编曼,梯度無法保證全局方向就是函數(shù)為了達到最小值應該前進的方向
  • 正負號在告訴輸入向量應該調大還是調小(正調大,負調惺1佟)
  • 每一項的相對大小表明每個參數(shù)對函數(shù)值達到最值的影響程度掐场;
  1. 隨機梯度下降
  • 上一個梯度下降的問題在于每次使用全部的數(shù)據(jù)進行計算往扔,當數(shù)據(jù)量很大的時候,需要很大的計算資源熊户。
  • 隨機梯度下降每次取一個數(shù)據(jù)進行計算萍膛,計算速度快。
  1. 小批量SGD的更新過程
    每次選擇一批數(shù)據(jù)放到網絡中嚷堡。
  • 使用批訓練的另一個主要目的蝗罗,是為了利用高度優(yōu)化的矩陣運算以及并行計算框架
    批的大小對于批量SGD的影響
  • 大的批量:得到更加精確的梯度估計

  • 小的批量:能得到更好的泛化誤差,原因是添加了干擾蝌戒,但是意味著更長的訓練時間串塑。

  • 批的大小為2的n次方時候,充分利用矩陣運算北苟。
    批運算計算公式


    image.png
  • 存在的問題:
    * 放棄了梯度的準確性拟赊,僅采用一部分樣本來估計當前的梯度;因此 SGD 對梯度的估計常常出現(xiàn)偏差粹淋,造成目標函數(shù)收斂不穩(wěn)定吸祟,甚至不收斂的情況。

    • 容易陷入局部最小值桃移,例如峽谷和鞍點

梯度下降的改進:

  • 慣性保持(動量)
  • 環(huán)境感知(自適應的調整學習率)
帶動量的SGD算法

動量的概念:例如紙團在峽谷中會很慢屋匕,來回反彈,但是如果換成鐵球會很快借杰,
公式


image.png

動量的迭代更新公式如下


image.png

添加了一個以往的更新方向过吻,假設其上一次的方向和本次方向相同,則會在相同的方向上不斷加速蔗衡。

NAG算法

NAG算法把梯度計算放在對參數(shù)附加當前速度之后纤虽。


image.png

自適應的梯度更新方法:

AdaGrad

基本思想:

  • 較大的偏導具有較大的學習率,較小的偏導有較小的學習率
    問題:
  • 學習率是單調遞減的绞惦,訓練后期學習率過小會導致訓練困難逼纸,甚至提前結束

RMSProp

基本思想:解決AdaGrad后期的學習率較小,導致難以訓練的問題济蝉。

  • 使用指數(shù)衰減平均(遞歸定義)以丟棄遙遠的歷史杰刽,也就是代替r,使其能夠在找到某個“凸”結構后快速收斂王滤;此外贺嫂,RMSProp 還加入了一個超參數(shù) ρ 用于控制衰減速。
    問題:
  • 仍然需要設置一個全局衰減率雁乡,還有一個全局學習率第喳。

AdaDelta

  • AdaDelta 進一步解決了 AdaGrad 需要設置一個全局學習率的問題

Adam

  • 除了加入歷史梯度平方的指數(shù)衰減平均(r)外,還保留了歷史梯度的指數(shù)衰減平均(s)踱稍,相當于動量曲饱。

基于二階梯度的牛頓法

  • 梯度下降算法本質上是使用一階梯度去擬合吩跋,而牛頓法使用的是二階梯度,二階梯度是一個曲面渔工,反應的是梯度的變化率锌钮,一階梯度是平面。
  • 通常情況下引矩,二次曲面的擬合會比平面更好梁丘,所以牛頓法選擇的下降路徑會更符合真實的最優(yōu)下降路徑。
  • 通俗理解
    比如你想找一條最短的路徑走到一個盆地的最底部旺韭,
    梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步氛谜;
    牛頓法在選擇方向時,不僅會考慮坡度是否夠大区端,還會考慮你走了一步之后值漫,坡度是否會變得更大。
    所以织盼,牛頓法比梯度下降法看得更遠杨何,能更快地走到最底部。
  • 牛頓法優(yōu)點
    更新速度更快
    -牛頓法缺點:
    每一次都需要計算二階導數(shù)沥邻,速度過慢危虱。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市唐全,隨后出現(xiàn)的幾起案子埃跷,更是在濱河造成了極大的恐慌,老刑警劉巖邮利,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弥雹,死亡現(xiàn)場離奇詭異,居然都是意外死亡延届,警方通過查閱死者的電腦和手機剪勿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祷愉,“玉大人窗宦,你說我怎么就攤上這事赦颇《” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵媒怯,是天一觀的道長订讼。 經常有香客問我,道長扇苞,這世上最難降的妖魔是什么欺殿? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任寄纵,我火速辦了婚禮,結果婚禮上脖苏,老公的妹妹穿的比我還像新娘程拭。我一直安慰自己,他們只是感情好棍潘,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布恃鞋。 她就那樣靜靜地躺著,像睡著了一般亦歉。 火紅的嫁衣襯著肌膚如雪恤浪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天肴楷,我揣著相機與錄音水由,去河邊找鬼。 笑死赛蔫,一個胖子當著我的面吹牛砂客,可吹牛的內容都是我干的。 我是一名探鬼主播呵恢,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鞭盟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了瑰剃?” 一聲冷哼從身側響起齿诉,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晌姚,沒想到半個月后粤剧,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡挥唠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年抵恋,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宝磨。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡弧关,死狀恐怖,靈堂內的尸體忽然破棺而出唤锉,到底是詐尸還是另有隱情世囊,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布窿祥,位于F島的核電站株憾,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜嗤瞎,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一墙歪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贝奇,春花似錦虹菲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至菠赚,卻和暖如春脑豹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衡查。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工瘩欺, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拌牲。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓俱饿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親塌忽。 傳聞我的和親對象是個殘疾皇子拍埠,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內容

  • 筆記參考:https://zhuanlan.zhihu.com/p/21407711?refer=intellig...
    spectre_hola閱讀 929評論 0 1
  • 前言 梯度下降算法現(xiàn)在變的越來越流行,但是對于使用者來說土居,它的優(yōu)化過程變的越來越黑盒枣购。本文我們介紹下不通梯度下降算...
    wendaJ閱讀 1,535評論 0 1
  • 查看文件的詳細信息: drwxr-xr-x@ 代表文件的操作權限(第1位表示是目錄還是文件,d表示目錄擦耀,-表示文件...
    ChenME閱讀 390評論 0 0
  • 轟轟棉圈,早晨叫醒我的不是清晨的陽光,不是手機中清脆的鈴聲眷蜓,而是學校內機器轟鳴的聲音分瘾。睜開眼又是忙碌的一天。
    想找回家的路閱讀 117評論 0 0