通常機(jī)器學(xué)習(xí)每一個算法中都會有一個目標(biāo)函數(shù),算法的求解過程是通過對這個目標(biāo)函數(shù)優(yōu)化的過程究珊。在分類或者回歸問題中婴氮,常使用損失函數(shù)(代價函數(shù))作為其目標(biāo)函數(shù)。損失函數(shù)用來評價模型的預(yù)測值和真實值不一樣的程度许帐,損失函數(shù)越小劳坑,通常模型的性能越好。不同的算法使用的損失函數(shù)不一樣成畦。
損失函數(shù)分為經(jīng)驗風(fēng)險損失函數(shù)和結(jié)構(gòu)風(fēng)險損失函數(shù)泡垃。經(jīng)驗風(fēng)險損失函數(shù)指預(yù)測結(jié)果和實際結(jié)果的差別,結(jié)構(gòu)風(fēng)險損失函數(shù)是指經(jīng)驗風(fēng)險損失函數(shù)加上正則項羡鸥。通常表示為如下:
上式中的第二項就是正則項蔑穴,它可以是L1,也可以是L2惧浴,或者其他的正則函數(shù)存和。
參數(shù)越多,模型越復(fù)雜衷旅,而越復(fù)雜的模型越容易過擬合捐腿。過擬合就是說模型在訓(xùn)練數(shù)據(jù)上的效果遠(yuǎn)遠(yuǎn)好于在測試集上的性能。此時可以考慮正則化柿顶,通過設(shè)置正則項前面的hyper parameter茄袖,來權(quán)衡損失函數(shù)和正則項,減小參數(shù)規(guī)模嘁锯,達(dá)到模型簡化的目的宪祥,從而使模型具有更好的泛化能力。
0-1損失函數(shù)
0-1損失是指家乘,預(yù)測值和目標(biāo)值不相等為1蝗羊,否則為0:
感知機(jī)就是用的這種損失函數(shù)。但是由于相等這個條件太過嚴(yán)格仁锯,因此我們可以放寬條件耀找,即滿足 |Y?f(X)|<T 時認(rèn)為相等。
該損失函數(shù)不考慮預(yù)測值和真實值的誤差程度业崖,也就是只要預(yù)測錯誤野芒,預(yù)測錯誤差一點(diǎn)和差很多是一樣的蓄愁。
絕對值損失函數(shù)
log對數(shù)損失函數(shù)(邏輯回歸)
邏輯斯蒂回歸的損失函數(shù)就是對數(shù)損失函數(shù),在邏輯斯特回歸的推導(dǎo)中狞悲,它假設(shè)樣本服從伯努利分布(0-1)分布涝登,然后求得滿足該分布的似然函數(shù),接著用對數(shù)求極值效诅。邏輯斯蒂回歸并沒有求對數(shù)似然函數(shù)的最大值胀滚,而是把極大化當(dāng)做一個思想,進(jìn)而推導(dǎo)它的風(fēng)險函數(shù)為最小化的負(fù)的似然函數(shù)乱投。從損失函數(shù)的角度上咽笼,它就成為了log損失函數(shù)。
P(Y|X)通俗的解釋就是:在當(dāng)前模型的基礎(chǔ)上戚炫,對于樣本X剑刑,其預(yù)測值為Y,也就是預(yù)測正確的概率双肤。由于概率之間的同時滿足需要使用乘法施掏,為了將其轉(zhuǎn)化為加法,我們將其取對數(shù)茅糜。最后由于是損失函數(shù)七芭,所以預(yù)測正確的概率越高,其損失值應(yīng)該是越小蔑赘,因此再加個負(fù)號取個反狸驳。
在極大似然估計中,通常都是先取對數(shù)再求導(dǎo)缩赛,再找極值點(diǎn)耙箍,這樣做是方便計算極大似然估計。損失函數(shù)L(Y,P(Y|X))是指樣本X在分類Y的情況下酥馍,使概率P(Y|X)達(dá)到最大值(利用已知的樣本分布辩昆,找到最大概率導(dǎo)致這種分布的參數(shù)值)
由于邏輯回歸是服從伯努利分布(0-1分布)的,并且邏輯回歸返回的sigmoid值是處于(0,1)區(qū)間旨袒,不會取到0,1兩個端點(diǎn)汁针。因此我們能夠?qū)⑵鋼p失函數(shù)寫成以下形式:
邏輯回歸最后得到的目標(biāo)式子(所有樣本的損失函數(shù))如下:
如果是二分類的話,則m值等于2峦失,如果是多分類扇丛,m就是相應(yīng)的類別總個數(shù)术吗。這里需要解釋一下:之所以有人認(rèn)為邏輯回歸是平方損失尉辑,是因為在使用梯度下降來求最優(yōu)解的時候,它的迭代式子與平方損失求導(dǎo)后的式子非常相似较屿,從而給人一種直觀上的錯覺隧魄。
平方損失函數(shù)(最小二乘法)
最小二乘法是線性回歸的一種方法卓练,它將回歸的問題轉(zhuǎn)化為了凸優(yōu)化的問題。在線性回歸中购啄,它假設(shè)樣本和噪聲都服從高斯分布(為什么假設(shè)成高斯分布呢襟企?其實這里隱藏了一個小知識點(diǎn),就是中心極限定理)狮含,最后通過極大似然估計(MLE)可以推導(dǎo)出最小二乘式子顽悼。
最小二乘法的基本原則是:最優(yōu)擬合曲線應(yīng)該使得所有點(diǎn)到回歸直線的距離和最小。通常用歐幾里得距離進(jìn)行距離的度量几迄。平方損失的損失函數(shù)為:
為什么它會選擇使用歐式距離作為誤差度量呢(即Mean squared error蔚龙, MSE),主要有以下幾個原因:
簡單映胁,計算方便木羹;
歐氏距離是一種很好的相似性度量標(biāo)準(zhǔn);
在不同的表示域變換后特征性質(zhì)不變解孙。
指數(shù)損失函數(shù)(Adaboost)
Hinge損失函數(shù)(SVM)
Hinge損失函數(shù)和SVM是息息相關(guān)的坑填。在線性支持向量機(jī)中,最優(yōu)化問題可以等價于 :
這個式子和如下的式子非常像:
其中l(wèi)(wxi+byi)就是hinge損失函數(shù)弛姜,后面相當(dāng)于L2正則項脐瑰。
Hinge函數(shù)的標(biāo)準(zhǔn)形式:
全局損失函數(shù)
上面的損失函數(shù)僅僅是對于一個樣本來說的。而我們的優(yōu)化目標(biāo)函數(shù)應(yīng)當(dāng)是使全局損失函數(shù)最小廷臼。因此蚪黑,全局損失函數(shù)往往是每個樣本的損失函數(shù)之和,即:
對于平方損失函數(shù)中剩,為了求導(dǎo)方便忌穿,我們可以在前面乘上一個1/2,和平方項求導(dǎo)后的2抵消结啼,即:
參考資料
https://blog.csdn.net/weixin_37933986/article/details/68488339
https://www.cnblogs.com/luxiao/p/5783017.html
https://blog.csdn.net/qq547276542/article/details/77980042