一速缆、基礎(chǔ)定義
==損失函數(shù)是用于刻畫 預(yù)期模型 和 實(shí)際模型的誤差懂扼,用于指導(dǎo)模型優(yōu)化的方向==,是一種將模型誤差量化的方式嘹锁。
loss = f(x) - Y;
在機(jī)器學(xué)習(xí)中葫录,訓(xùn)練的目的,就是尋找loss極小值领猾。
二米同、回歸問題的損失函數(shù)
1. 平均絕對誤差(L1)
也是線性問題中用到的骇扇,衡量的也是和真實(shí)值的誤差。 ==但是它會忽略異常數(shù)據(jù)帶來的問題==面粮。
2 均方誤差(L2)
在線性問題中最常用的損失函數(shù)少孝。 計(jì)算方法是預(yù)測值和真實(shí)值
之間的距離平方和,==如果存在異常數(shù)值熬苍,會將它放大==韭山, 次放越大,越會放大異常數(shù)值冷溃。
在線性中選用這種是最好的钱磅,獲得的loss是放大的,可以很快的調(diào)整模型似枕,但是要注意的是盖淡,需要處理掉異常數(shù)值。
3.smooth損失函數(shù)
在神經(jīng)網(wǎng)絡(luò)中凿歼,更新梯度始終相同褪迟,也就是說,即使很小的損失也會在成模型大幅度調(diào)整答憔,這樣不利于模型的學(xué)習(xí)味赃,所以在損失接近最小值時(shí), 可以降低學(xué)習(xí)率虐拓。
首先我們先分析一下心俗,上面兩種損失函數(shù)各自的優(yōu)缺點(diǎn)
L1: 不容易被異常數(shù)據(jù)影響,但是學(xué)習(xí)速率是固定的蓉驹。
L2: 容易被異常數(shù)據(jù)影響城榛,但是學(xué)習(xí)速率在趨于0是會減速。
綜合上述的兩個(gè)優(yōu)缺點(diǎn)态兴,smooth L1 就此誕生
三狠持、分類問題的損失函數(shù)
1.交叉熵
M: 類別數(shù)量
yc: 期望輸出
pc: 真實(shí)輸出
在二分類中, 可以得到如下公式:
y:正的期望輸出
p:當(dāng)前模型輸出
假設(shè) y 的輸出恒等于1 的模型是我們訓(xùn)練的目標(biāo),得到損失函數(shù)如下
根據(jù)凸顯我們可以得到結(jié)論瞻润,模型輸出 y 越接近 1 時(shí)喘垂,損失函數(shù)越小, 符合實(shí)際情況绍撞。
假設(shè) y 的輸出恒等于0 的模型是我們訓(xùn)練的目標(biāo)正勒,得到損失函數(shù)如下
根據(jù)凸顯我們可以得到結(jié)論,模型輸出 y 越接近 0 時(shí)楚午,損失函數(shù)越小昭齐, 符合實(shí)際情況。
看一下曲線圖矾柜,當(dāng) 輸出大的時(shí)候阱驾,損失L是以指數(shù)上升的就谜,說明對當(dāng)前模型的“懲罰”越大(w調(diào)整越大),有利于模型學(xué)習(xí)里覆。