16.1 RMSProp
-
RMSProp算法對(duì)AdaGrad算法做了修改在刺,僅累積最近迭代的梯度
-
使用指數(shù)衰減來(lái)實(shí)現(xiàn)
-
-
和AdaGrad算法一樣檬寂,RMSProp算法將目標(biāo)函數(shù)自變量中每個(gè)元素的學(xué)習(xí)率通過(guò)按元素運(yùn)算重新調(diào)整内狸,然后更新自變量
16.2 AdaDelta算法
16.3 Adam算法
- Adam算法結(jié)合了動(dòng)量?jī)?yōu)化和 RMSProp 的思想
- 算法
- 動(dòng)量變量
- 將小批量隨機(jī)梯度按元素平方后的項(xiàng)做指數(shù)加權(quán)移動(dòng)平均得到
- 由于將
- 中的元素都初始化為0焰枢, 在時(shí)間步t得到
- 將過(guò)去各時(shí)間步小批量隨機(jī)梯度的權(quán)值相加拱雏,得到
需要注意的是滴劲,當(dāng)t較小時(shí),過(guò)去各時(shí)間步小批量隨機(jī)梯度權(quán)值之和會(huì)較小寂嘉。
-
例如奏瞬,當(dāng)
-
在Adam算法中,對(duì)變量
-
均作偏差修正:
-
接下來(lái)泉孩,Adam算法使用以上偏差修正后的變量
-
將模型參數(shù)中每個(gè)元素的學(xué)習(xí)率通過(guò)按元素運(yùn)算重新調(diào)整:
-
最后硼端,使用
-
迭代自變量:
16.4 深度學(xué)習(xí)為什么不用二階優(yōu)化
- 目前深度學(xué)習(xí)中,反向傳播主要是依靠一階梯度寓搬。
- 二階梯度在理論和實(shí)際上都是可以應(yīng)用都網(wǎng)絡(luò)中的珍昨,但相比于一階梯度,二階優(yōu)化會(huì)存在以下一些主要問(wèn)題:
- 計(jì)算量大句喷,訓(xùn)練非常慢镣典。
- 二階方法能夠更快地求得更高精度的解
- 穩(wěn)定性
16.5 超參數(shù)的重要性順序
- 學(xué)習(xí)率
- 在網(wǎng)絡(luò)參數(shù)、優(yōu)化參數(shù)唾琼、正則化參數(shù)中最重要的超參數(shù)可能就是學(xué)習(xí)率了兄春。
- 損失函數(shù)上的可調(diào)參數(shù),這些損失一般可分成三類:
- 第一類輔助損失結(jié)合常見的損失函數(shù)锡溯,起到輔助優(yōu)化特征表達(dá)的作用神郊。
- 例如度量學(xué)習(xí)中的Center loss肴裙,通常結(jié)合交叉熵?fù)p失伴隨一個(gè)權(quán)重完成一些特定的任務(wù)。
- 這種情況下一般建議輔助損失值不高于或者不低于交叉熵?fù)p失值的兩個(gè)數(shù)量級(jí)涌乳;
- 第二類蜻懦,多任務(wù)模型的多個(gè)損失函數(shù),每個(gè)損失函數(shù)之間或獨(dú)立或相關(guān)夕晓,用于各自任務(wù)宛乃,這種情況取決于任務(wù)之間本身的相關(guān)性
- 第三類,獨(dú)立損失函數(shù)
- 第一類輔助損失結(jié)合常見的損失函數(shù)锡溯,起到輔助優(yōu)化特征表達(dá)的作用神郊。
- 批樣本數(shù)量
- 過(guò)小的批數(shù)量蒸辆,極端情況下征炼,例如batch size為1,即每個(gè)樣本都去修正一次梯度方向躬贡,樣本之間的差異越大越難以收斂谆奥。
- 而過(guò)大的batch size,會(huì)使得梯度方向基本穩(wěn)定拂玻,容易陷入局部最優(yōu)解酸些,降低精度。
- 一般參考范圍會(huì)取在[1:1024]之間
- 動(dòng)量?jī)?yōu)化器(Gradient Descent with Momentum)的動(dòng)量參數(shù)β檐蚜。
- 動(dòng)量衰減參數(shù)β是計(jì)算梯度的指數(shù)加權(quán)平均數(shù)魄懂,并利用該值來(lái)更新參數(shù),設(shè)置為 0.9 是一個(gè)常見且效果不錯(cuò)的選擇闯第;
- Adam優(yōu)化器的超參數(shù)市栗、權(quán)重衰減系數(shù)、丟棄法比率(dropout)
- Adam優(yōu)化器中的β1咳短,β2填帽,?,常設(shè)為 0.9咙好、0.999篡腌、10?8就會(huì)有不錯(cuò)的表現(xiàn)
- 權(quán)重衰減系數(shù)通常會(huì)有個(gè)建議值,例如0.0005
- dropout通常會(huì)在全連接層之間使用防止過(guò)擬合敷扫,建議比率控制在[0.2,0.5]之間
- dropout的位置
- 一、在RNN中诚卸,一般會(huì)建議放在輸入和輸出層葵第;
- 二、不建議dropout后直接跟上batchnorm合溺;
- 網(wǎng)絡(luò)參數(shù)通常也屬于超參數(shù)的范圍內(nèi)卒密,通常情況下增加網(wǎng)絡(luò)層數(shù)能增加模型的容限能力,但模型真正有效的容限能力還和樣本數(shù)量和質(zhì)量棠赛、層之間的關(guān)系等有關(guān)
- 模型深度
- 卷積核尺寸
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語(yǔ)音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通