來源:深度學(xué)習(xí)——損失函數(shù)與梯度推導(dǎo)_ftmax 損失函數(shù)以及梯度推導(dǎo)計算_隔壁的NLP小哥的博客-CSDN博客
1. 均方誤差的梯度
均方誤差是一種常見的損失函數(shù)溃卡,一般在回歸問題中比較常見赏表,其基本公式為:
其中氮墨,C是一個超參數(shù),為了便于求導(dǎo)算利,一般情況下取C=2。是真實的標(biāo)簽值的第i個屬性值泳姐,
表示預(yù)測值的第i個屬性值效拭。
則有:
整理成向量的形式有:
2. sotfmax + 交叉熵
sotfmax和交叉熵通常被用于分類任務(wù)中,其中,softmax的定義為:
其中缎患,softmax的定義為:
其中借笙,表示輸出單元輸出的第i個屬性值,一般情況下较锡,
表示屬于第i類的概率业稼。
交叉熵的損失函數(shù)定義為:
其中表示真實的第i類的概率值。
一般情況下蚂蕴,softmax產(chǎn)生的是一個L維的概率分布Y低散。
而真實向量是一個0,1向量,1表示對應(yīng)的分類骡楼。0表示不是該分類熔号。
3. 梯度計算
現(xiàn)在,我們假設(shè)在真實的分類向量中鸟整,對應(yīng)的是第s個分類引镊。
, 則有
我們分成兩種情況:
1)? 當(dāng)i=s的時候,有:
則有:
根據(jù)?和?
?和進一步化簡有:
有:
將上式帶入到原始的式子中篮条,有:
2) 當(dāng)i≠s的時候弟头,有:
其中:
帶入到原式子之后:
3) 最后,根據(jù)
涉茧,
我們能夠發(fā)現(xiàn),上面兩種情況的計算結(jié)果可以化簡為:
當(dāng)i=s的時候赴恨,導(dǎo)數(shù)為
當(dāng)i≠s的時候,導(dǎo)數(shù)為
由此可以總結(jié)出: