作者:hooly
微信公號(hào):一口袋星光
在看到李宏毅老師講gradient decent的時(shí)候,講到Adagrad方法,這里記錄一下。
Adagrad是解決不同參數(shù)應(yīng)該使用不同的更新速率的問(wèn)題。Adagrad自適應(yīng)地為各個(gè)參數(shù)分配不同學(xué)習(xí)率的算法不见。其公式如下:
但是我們發(fā)現(xiàn)一個(gè)現(xiàn)象,本來(lái)應(yīng)該是隨著gradient的增大崔步,我們的學(xué)習(xí)率是希望增大的稳吮,也就是圖中的gt;但是與此同時(shí)隨著gradient的增大井濒,我們的分母是在逐漸增大灶似,也就對(duì)整體學(xué)習(xí)率是減少的,這是為什么呢瑞你?
這是因?yàn)殡S著我們更新次數(shù)的增大酪惭,我們是希望我們的學(xué)習(xí)率越來(lái)越慢。因?yàn)槲覀冋J(rèn)為在學(xué)習(xí)率的最初階段者甲,我們是距離損失函數(shù)最優(yōu)解很遠(yuǎn)的春感,隨著更新的次數(shù)的增多,我們認(rèn)為越來(lái)越接近最優(yōu)解过牙,于是學(xué)習(xí)速率也隨之變慢。
作者:hooly
微信公號(hào):一口袋星光
我會(huì)在微信公號(hào)上持續(xù)更新我的文章纺铭,你來(lái)討論我很歡迎寇钉。