在線性代數(shù)以及一些數(shù)學(xué)領(lǐng)域中到忽,范數(shù)(norm) 的定義是:
a function that assigns a strictly positive length or size to each vector in a vector space, except for the zero vector. ——Wikipedia
簡(jiǎn)單點(diǎn)說橄维,一個(gè)向量的 norm 就是將該向量投影到 [0, ) 范圍內(nèi)的值忌堂,其中 0 值只有零向量的 norm 取到盒至。看到這樣的一個(gè)范圍,相信大家就能想到其與現(xiàn)實(shí)中距離的類比枷遂,于是在機(jī)器學(xué)習(xí)中 norm 也就總被拿來表示距離關(guān)系:根據(jù)怎樣怎樣的范數(shù)樱衷,這兩個(gè)向量有多遠(yuǎn)。
上面這個(gè)怎樣怎樣也就是范數(shù)種類酒唉,通常我們稱為p-norm矩桂,嚴(yán)格定義是:
其中當(dāng)p 取 1 時(shí)被稱為 1-norm,也就是提到的 L1-norm黔州,同理 L2-norm 可得耍鬓。
L1 和 L2 范數(shù)的定義
根據(jù)上述公式 L1-norm 和 L2-norm 的定義也就自然而然得到了。
先將 p=1 代入公式流妻,就有了 L1-norm 的定義:
然后代入 p=2,L2-norm 也有了:
L2 展開就是熟悉的歐幾里得范數(shù):
題外話笆制,其中 L1-norm 又叫做 taxicab-norm 或者 Manhattan-norm绅这,可能最早提出的大神直接用在曼哈頓區(qū)坐出租車來做比喻吧。下圖中綠線是兩個(gè)黑點(diǎn)的 L2 距離在辆,而其他幾根就是 taxicab 也就是 L1 距離证薇,確實(shí)很像我們平時(shí)用地圖時(shí)走的路線了。
L1 和 L2 范數(shù)在機(jī)器學(xué)習(xí)上最主要的應(yīng)用大概分下面兩類:
- 作為損失函數(shù)使用
-
作為正則項(xiàng)使用也即所謂 L1-regularization 和 L2-regularization
我們需要做的是匆篓,獲得一條線浑度,讓數(shù)據(jù)點(diǎn)到線上的總距離(也就是error)最小。還記得之前在范數(shù)介紹中提到的用來表示距離嗎鸦概,于是也可以用能表示距離的 L1-norm 和 L2-norm 來作為損失函數(shù)了箩张。首先是 L1-norm 損失函數(shù),又被稱為 least absolute deviation (LAD窗市,最小絕對(duì)偏差)
如果我們最小化上面的損失函數(shù)先慷,其實(shí)就是在最小化預(yù)測(cè)值 和目標(biāo)值 的絕對(duì)值。
之后是大家最熟悉的 L2-norm 損失函數(shù)咨察,又有大名最小二乘誤差 (least squares error, LSE):