參考:https://www.zhihu.com/question/26485586
范數(shù)定義:
因此L1范數(shù):
L2范數(shù):
應(yīng)用一:作為損失函數(shù)掏秩。
L1-norm 損失函數(shù)孽锥,又被稱為 least absolute deviation (LAD,最小絕對(duì)偏差)鼠次,最小化損失函數(shù),其實(shí)就是在最小化預(yù)測(cè)值 和目標(biāo)值 的絕對(duì)值。
L2-norm 損失函數(shù),又有大名最小二乘誤差 (least squares error, LSE):
由于L1-norm損失函數(shù)有絕對(duì)值她肯,通過(guò)求導(dǎo)、置零鹰贵、解方程獲取函數(shù)極值不方便晴氨,所有通常不用L1-norm作為損失函數(shù)。
應(yīng)用二:作為正則項(xiàng)碉输,防止過(guò)擬合籽前。
因?yàn)闄C(jī)器學(xué)習(xí)中眾所周知的過(guò)擬合問(wèn)題,所以用正則化防止過(guò)擬合敷钾,成了機(jī)器學(xué)習(xí)中一個(gè)非常重要的技巧枝哄。但數(shù)學(xué)上來(lái)講,其實(shí)就是在損失函數(shù)中加個(gè)正則項(xiàng)(Regularization Term)阻荒,來(lái)防止參數(shù)擬合得過(guò)好挠锥。L1-regularization 和 L2-regularization 便都是我們常用的正則項(xiàng),兩者公式的例子分別如下
這兩個(gè)正則項(xiàng)最主要的不同侨赡,包括兩點(diǎn):
- 如上面提到的蓖租,L2 計(jì)算起來(lái)更方便,而 L1 在特別是非稀疏向量上的計(jì)算效率就很低羊壹;
- 還有就是 L1 最重要的一個(gè)特點(diǎn)菜秦,輸出稀疏,會(huì)把不重要的特征直接置零舶掖,而 L2 則不會(huì);
- 最后尔店,如之前多次提過(guò)眨攘,L2 有唯一解,而 L1 不是嚣州。
因?yàn)?L1 天然的輸出稀疏性鲫售,把不重要的特征都置為 0,所以它也是一個(gè)天然的特征選擇器该肴。
可是為什么 L1 會(huì)有這樣的性質(zhì)呢情竹,而 L2 沒(méi)有呢?這里用個(gè)直觀的例子來(lái)講解匀哄。
來(lái)一步一步看吧秦效,首先獲知用梯度下降法來(lái)優(yōu)化時(shí)雏蛮,需要求導(dǎo)獲得梯度,然后用以更新參數(shù)阱州。
于是分別先對(duì) L1 正則項(xiàng)和 L2 正則項(xiàng)來(lái)進(jìn)行求導(dǎo)挑秉,可得。
之后將 L1 和 L2 和它們的導(dǎo)數(shù)畫在圖上
于是會(huì)發(fā)現(xiàn)苔货,在梯度更新時(shí)犀概,不管 L1 的大小是多少(只要不是0)梯度都是1或者-1,所以每次更新時(shí)夜惭,它都是穩(wěn)步向0前進(jìn)姻灶。
而看 L2 的話,就會(huì)發(fā)現(xiàn)它的梯度會(huì)越靠近0诈茧,就變得越小产喉。
也就是說(shuō)加了 L1 正則的話基本上經(jīng)過(guò)一定步數(shù)后很可能變?yōu)?,而 L2 幾乎不可能若皱,因?yàn)樵谥敌〉臅r(shí)候其梯度也會(huì)變小镊叁。于是也就造成了 L1 輸出稀疏的特性。