損失函數(shù)
什么是損失函數(shù)
? 損失函數(shù)(Loss Function)又叫做誤差函數(shù)杭煎,用來衡量算法的運行情況委可,估量模型的預測值與真實值的不一致程度源织,是一個非負實值函數(shù)饿幅,通常使用來表示。損失函數(shù)越小侨舆,模型的魯棒性就越好秒紧。損失函數(shù)是經(jīng)驗風險函數(shù)的核心部分,也是結構風險函數(shù)重要組成部分挨下。
常見的損失函數(shù)
? 機器學習通過對算法中的目標函數(shù)進行不斷求解優(yōu)化熔恢,得到最終想要的結果。分類和回歸問題中臭笆,通常使用損失函數(shù)或代價函數(shù)作為目標函數(shù)叙淌。
? 損失函數(shù)用來評價預測值和真實值不一樣的程度秤掌。通常損失函數(shù)越好,模型的性能也越好鹰霍。
? 損失函數(shù)可分為經(jīng)驗風險損失函數(shù)和結構風險損失函數(shù)闻鉴。經(jīng)驗風險損失函數(shù)指預測結果和實際結果的差別,結構風險損失函數(shù)是在經(jīng)驗風險損失函數(shù)上加上正則項茂洒。
? 下面介紹常用的損失函數(shù):
(1)0-1損失函數(shù)
如果預測值和目標值相等孟岛,值為0,如果不相等获黔,值為1蚀苛。
一般的在實際使用中在验,相等的條件過于嚴格玷氏,可適當放寬條件:
(2)絕對值損失函數(shù)
和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:
(3)平方損失函數(shù)
這點可從最小二乘法和歐幾里得距離角度理解腋舌。最小二乘法的原理是盏触,最優(yōu)擬合曲線應該使所有點到回歸直線的距離和最小。
(4)對數(shù)損失函數(shù)
? 常見的邏輯回歸使用的就是對數(shù)損失函數(shù)块饺,有很多人認為邏輯回歸的損失函數(shù)是平方損失赞辩,其實不然。邏輯回歸它假設樣本服從伯努利分布(0-1分布)授艰,進而求得滿足該分布的似然函數(shù)辨嗽,接著取對數(shù)求極值等。邏輯回歸推導出的經(jīng)驗風險函數(shù)是最小化負的似然函數(shù)淮腾,從損失函數(shù)的角度看糟需,就是對數(shù)損失函數(shù)。
(6)指數(shù)損失函數(shù)
指數(shù)損失函數(shù)的標準形式為:
例如AdaBoost就是以指數(shù)損失函數(shù)為損失函數(shù)谷朝。
(7)Hinge損失函數(shù)
Hinge損失函數(shù)的標準形式如下:
統(tǒng)一的形式:
其中y是預測值洲押,范圍為(-1,1),t為目標值圆凰,其為-1或1杈帐。
在線性支持向量機中,最優(yōu)化問題可等價于
上式相似于下式
其中是Hinge損失函數(shù)专钉,
可看做為正則化項挑童。
邏輯回歸為什么使用對數(shù)損失函數(shù)
假設邏輯回歸模型
假設邏輯回歸模型的概率分布是伯努利分布,其概率質量函數(shù)為:
其似然函數(shù)為:
對數(shù)似然函數(shù)為:
對數(shù)函數(shù)在單個數(shù)據(jù)點上的定義為:
則全局樣本損失函數(shù)為:
由此可看出跃须,對數(shù)損失函數(shù)與極大似然估計的對數(shù)似然函數(shù)本質上是相同的站叼。所以邏輯回歸直接采用對數(shù)損失函數(shù)。
對數(shù)損失函數(shù)是如何度量損失的
? 例如回怜,在高斯分布中大年,我們需要確定均值和標準差换薄。
? 如何確定這兩個參數(shù)?最大似然估計是比較常用的方法翔试。最大似然的目標是找到一些參數(shù)值轻要,這些參數(shù)值對應的分布可以最大化觀測到數(shù)據(jù)的概率。
? 因為需要計算觀測到所有數(shù)據(jù)的全概率垦缅,即所有觀測到的數(shù)據(jù)點的聯(lián)合概率〕迥啵現(xiàn)考慮如下簡化情況:
(1)假設觀測到每個數(shù)據(jù)點的概率和其他數(shù)據(jù)點的概率是獨立的。
(2)取自然對數(shù)壁涎。
假設觀測到單個數(shù)據(jù)點的概率為:
(3)其聯(lián)合概率為:
? 對上式取自然對數(shù)凡恍,可得:
根據(jù)對數(shù)定律,上式可以化簡為:
然后求導為:
? 上式左半部分為對數(shù)損失函數(shù)怔球。損失函數(shù)越小越好嚼酝,因此我們令等式左半的對數(shù)損失函數(shù)為0,可得:
同理竟坛,可計算闽巩。