損失函數(shù)
對(duì)于回歸問(wèn)題, 抽碌,我們希望 ,最常用的損失函數(shù)是平方損失函數(shù)
顧名思義弄企,均方誤差(MSE)度量的是預(yù)測(cè)值和實(shí)際觀測(cè)值間差的平方的均值。它只考慮誤差的平均大小区拳,不考慮其方向拘领。但由于經(jīng)過(guò)平方,與真實(shí)值偏離較多的預(yù)測(cè)值會(huì)比偏離較少的預(yù)測(cè)值受到更為嚴(yán)重的懲罰樱调。再加上 MSE 的數(shù)學(xué)特性很好约素,這使得計(jì)算梯度變得更容易。
Hinge Loss/多分類 SVM 損失
在一定的安全間隔內(nèi)(通常是 1)笆凌,正確類別的分?jǐn)?shù)應(yīng)高于所有錯(cuò)誤類別的分?jǐn)?shù)之和圣猎。因此 hinge loss 常用于最大間隔分類(maximum-margin classification),最常用的是支持向量機(jī)乞而。盡管不可微送悔,但它是一個(gè)凸函數(shù),因此可以輕而易舉地使用機(jī)器學(xué)習(xí)領(lǐng)域中常用的凸優(yōu)化器爪模。
交叉熵?fù)p失/負(fù)對(duì)數(shù)似然:
這是分類問(wèn)題中最常見(jiàn)的設(shè)置欠啤。隨著預(yù)測(cè)概率偏離實(shí)際標(biāo)簽,交叉熵?fù)p失會(huì)逐漸增加屋灌。
數(shù)學(xué)公式
注意洁段,當(dāng)實(shí)際標(biāo)簽為 1(y(i)=1) 時(shí),函數(shù)的后半部分消失声滥,而當(dāng)實(shí)際標(biāo)簽是為 0(y(i=0)) 時(shí),函數(shù)的前半部分消失。簡(jiǎn)言之落塑,我們只是把對(duì)真實(shí)值類別的實(shí)際預(yù)測(cè)概率的對(duì)數(shù)相乘纽疟。還有重要的一點(diǎn)是,交叉熵?fù)p失會(huì)重重懲罰那些置信度高但是錯(cuò)誤的預(yù)測(cè)值憾赁。
有監(jiān)督學(xué)習(xí)和無(wú)約束優(yōu)化問(wèn)題的優(yōu)化方法分別有哪些
梯度下降
隨機(jī)梯度下降
牛頓法
擬牛頓法
隨機(jī)梯度下降為什么會(huì)失效
SGD:不能保證每次的方向是損失函數(shù)減小的方向污朽,更不能保證是減小速度最快的方向,隨機(jī)路徑龙考,不可預(yù)知蟆肆。梯度改變方向是隨機(jī)的,不能保證損失函數(shù)始終是減小的晦款,損失函數(shù)的值是跳躍的炎功。
(BGD:每次所有參數(shù)更新,得到最小值缓溅。)
Adam方法將慣性保持和環(huán)境感知這兩個(gè)優(yōu)點(diǎn)集于一身蛇损。一方面,Adam記錄梯度的一階矩(first moment)坛怪,即過(guò)往梯度與當(dāng)前梯度的平均淤齐,這體現(xiàn)了慣性保持;另一方面袜匿,Adam還記錄梯度的二階矩(second moment)更啄,即過(guò)往梯度平方與當(dāng)前梯度平方的平均,這類似AdaGrad方法居灯,體現(xiàn)了環(huán)境感知能力祭务,為不同參數(shù)產(chǎn)生自適應(yīng)的學(xué)習(xí)速率。一階矩和二階矩采用類似于滑動(dòng)窗口內(nèi)求平均的思想進(jìn)融合穆壕,即當(dāng)前梯度和近一段時(shí)間內(nèi)梯度的平均值待牵,時(shí)間久遠(yuǎn)的梯度對(duì)當(dāng)前平均值的貢獻(xiàn)呈指數(shù)衰減。具體來(lái)說(shuō)喇勋,一階矩和二階矩采用指數(shù)衰退平均(exponential
decay average)技術(shù)缨该,計(jì)算公式為