直接優(yōu)化
直接對參數(shù)theta求導(dǎo)即可得最優(yōu)解的形式
什么是凸函數(shù)鸥昏?
如何根據(jù)表達(dá)式判斷一個函數(shù)是凸函數(shù)吏垮?
求二階偏導(dǎo)數(shù)罐旗,如果這個二階偏導(dǎo)數(shù)矩陣是半正定的唯蝶,那么這個函數(shù)就是一個凸函數(shù)
迭代法
一階優(yōu)化方法:梯度下降
梯度下降法
二階優(yōu)化方法:牛頓法
牛頓法
牛頓法求解零點(diǎn)
一些其他方法
image.png
梯度下降法與隨機(jī)梯度下降
image.png
引入隨機(jī)梯度下降
因為我們的目的是使得訓(xùn)練數(shù)據(jù)在目標(biāo)函數(shù)上的平均損失最小,但是訓(xùn)練數(shù)據(jù)一般都很大友酱,每次都計算所有數(shù)據(jù)的損失函數(shù)求平均代價太多柔纵,所以我們改變了目標(biāo)函數(shù)锤躁,在單次訓(xùn)練的時候目標(biāo)為讓這個batch內(nèi)的所有數(shù)據(jù)平均損失最小系羞。
隨機(jī)梯度下降
mini-batch 梯度下降
加入動量
image.png
AdaGrad
image.png
image.png
Adam
據(jù)說ε參數(shù)很重要昭伸,許多任務(wù)上從默認(rèn)的1e-8改成1的效果很好