吳恩達(dá):Adam 優(yōu)化算法茂翔,學(xué)習(xí)率策略以及局部最優(yōu)點(diǎn)
簡(jiǎn)介
Adaptive moment estimation(Adam)是目前被實(shí)際證明最有效,應(yīng)用最廣泛的算法履腋,它的實(shí)現(xiàn)是建立在另外兩個(gè)非常成熟的優(yōu)化算法上珊燎,momentum算法和RMSprop算法
算法公式
對(duì)于任意權(quán)重參數(shù)(包括
)
name | explanation |
---|---|
來自RMSprop算法惭嚣,為非負(fù)數(shù) | |
推薦取值0.999的超參數(shù) | |
權(quán)重梯度 | |
權(quán)重參數(shù) | |
動(dòng)量,取自動(dòng)量梯度下降法 | |
推薦取值0.9的超參數(shù) | |
學(xué)習(xí)率,需要重點(diǎn)調(diào)的參數(shù) |
參數(shù)的具體意義則可以在前面兩種算法的筆記中找到詳細(xì)的說明悔政。
優(yōu)化:學(xué)習(xí)率衰減
Adam已經(jīng)基本上可以用于所有類型的網(wǎng)絡(luò)并且取得很好的結(jié)果晚吞,但是由于采用Mini Batch方法,在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)前期谋国,使用相對(duì)大的學(xué)習(xí)率進(jìn)行快速逼近最優(yōu)點(diǎn)槽地,在學(xué)習(xí)后期則需要采用學(xué)習(xí)率衰減防止結(jié)果在最優(yōu)點(diǎn)附近不斷震蕩無法收斂。
分母下降法(自己起的名字)
指數(shù)下降法
如
根號(hào)分母下降法(自己起的名字)
離散樓梯法(discrete staircase)
如果沒有精力手動(dòng)調(diào)節(jié)學(xué)習(xí)率芦瘾,采用合適的學(xué)習(xí)率衰減策略是有效的捌蚊。
局部最優(yōu)點(diǎn)
compare_local_minimum.png
在以前,研究者們常常以為局部最優(yōu)點(diǎn)像上圖左邊那樣近弟,是凹陷狀缅糟,現(xiàn)在研究者發(fā)現(xiàn)實(shí)際上梯度零點(diǎn)往往是右邊那樣的鞍點(diǎn)。
為了直觀這樣的現(xiàn)象祷愉,假設(shè)存在一個(gè)兩萬維的空間溺拱,要出現(xiàn)上圖左邊這樣的局部最優(yōu)點(diǎn),需要兩萬緯度同時(shí)為凸函數(shù)或者凹函數(shù)谣辞,則概率為,相基本當(dāng)于不可能!這也是三維圖形直觀推廣到高緯空間的錯(cuò)誤示范沐扳。
由于不太可能出現(xiàn)完全凹陷的局部最優(yōu)點(diǎn)泥从,則在鞍點(diǎn)和高原點(diǎn),正是體現(xiàn)RMSprop和Momemtum(當(dāng)然也包括Adam)算法優(yōu)勢(shì)的時(shí)候沪摄,這非常好理解躯嫉。
附錄:
- Adam算法實(shí)際上會(huì)加上Bias Correction
對(duì)于參數(shù)同理