介紹L1和L2
??L1和L2正則常被用來解決過擬合問題磨取。而L1正則也常被用來進(jìn)行特征選擇人柿,主要原因在于L1正則化會(huì)使得較多的參數(shù)為0,從而產(chǎn)生稀疏解忙厌。我們可以將0對(duì)應(yīng)的特征遺棄凫岖,進(jìn)而用來選擇特征。
角度一(從L1和L2的來源看)
當(dāng)你想從一個(gè)手頭的數(shù)據(jù)集中學(xué)習(xí)出一套規(guī)則時(shí)逢净,貝葉斯學(xué)派認(rèn)為僅僅使用這些數(shù)據(jù)是不夠的哥放,還需要加入先驗(yàn)知識(shí)。如果你在損失函數(shù)中使用了L1正則項(xiàng)汹胃,那么其實(shí)質(zhì)就是加入了拉普拉斯先驗(yàn)分布婶芭,即認(rèn)為數(shù)據(jù)是符合拉普拉斯分布的;如果你使用了L2正則項(xiàng)着饥,那么就是加入了高斯先驗(yàn)分布犀农,即認(rèn)為數(shù)據(jù)是符合高斯分布的。一般由于推導(dǎo)和計(jì)算方便宰掉,會(huì)對(duì)分布函數(shù)取對(duì)數(shù)呵哨,然后再去優(yōu)化赁濒。最終的結(jié)果是,由于你的模型參數(shù)考慮了數(shù)據(jù)先驗(yàn)孟害,學(xué)習(xí)出來的規(guī)則就更加接近實(shí)際拒炎。
我們對(duì)高斯分布很熟悉,但是對(duì)拉普拉斯分布可能比較陌生挨务,拉普拉斯密度函數(shù)的圖形和表達(dá)式分別如下所示:
我們?nèi)绻麑?duì)拉普拉斯密度函數(shù)取對(duì)數(shù),剩下的是一個(gè)一次項(xiàng)|x-u|击你,這就是L1范式;我們?nèi)绻麑?duì)高斯密度函數(shù)取對(duì)數(shù)剩下的就是一個(gè)二次項(xiàng)(x-u)^2谎柄,這就是L2范式丁侄。比較高斯分布的密度函數(shù)圖像和拉普拉斯分布的密度函數(shù)圖像,我們很容易看到朝巫,當(dāng)x趨于正無窮和負(fù)無窮時(shí)鸿摇,前者是逼近于0的,后者是等于0的劈猿。
角度二(從代價(jià)函數(shù)上看)
但為什么L1正則會(huì)產(chǎn)生稀疏解呢拙吉?這里利用公式進(jìn)行解釋。
假設(shè)只有一個(gè)參數(shù)為w揪荣,損失函數(shù)為L(zhǎng)(w)筷黔,分別加上L1正則項(xiàng)和L2正則項(xiàng)后有:
假設(shè)L(w)在0處的倒數(shù)為d0,即
則可以推導(dǎo)使用L1正則和L2正則時(shí)的導(dǎo)數(shù)变逃。
引入L2正則項(xiàng)必逆,在0處的導(dǎo)數(shù)
引入L1正則項(xiàng),在0處的導(dǎo)數(shù)
可見揽乱,引入L2正則時(shí)名眉,代價(jià)函數(shù)在0處的導(dǎo)數(shù)仍是d0,無變化凰棉。而引入L1正則后损拢,代價(jià)函數(shù)在0處的導(dǎo)數(shù)有一個(gè)突變。從d0+λ到d0?λ撒犀,若d0+λ和d0?λ異號(hào)福压,則在0處會(huì)是一個(gè)極小值點(diǎn)。因此或舞,優(yōu)化時(shí)荆姆,很可能優(yōu)化到該極小值點(diǎn)上,即w=0處映凳。
這里只解釋了有一個(gè)參數(shù)的情況胆筒,如果有更多的參數(shù),也是類似的。因此仆救,用L1正則更容易產(chǎn)生稀疏解抒和。
角度三(L1正則化本身的導(dǎo)數(shù)性質(zhì))
這個(gè)角度從權(quán)值的更新公式來看權(quán)值的收斂結(jié)果。
首先來看看L1和L2的梯度(導(dǎo)數(shù)的反方向):
所以(不失一般性彤蔽,我們假定:wi等于不為0的某個(gè)正的浮點(diǎn)數(shù)摧莽,學(xué)習(xí)速率η 為0.5):
L1的權(quán)值更新公式為wi = wi - η * 1 = wi - 0.5 * 1,也就是說權(quán)值每次更新都固定減少一個(gè)特定的值(比如0.5)顿痪,那么經(jīng)過若干次迭代之后镊辕,權(quán)值就有可能減少到0。
L2的權(quán)值更新公式為wi = wi - η * wi = wi - 0.5 * wi员魏,也就是說權(quán)值每次都等于上一次的1/2丑蛤,那么,雖然權(quán)值不斷變小撕阎,但是因?yàn)槊看味嫉扔谏弦淮蔚囊话耄院芸鞎?huì)收斂到較小的值但不為0碌补。
下面的圖很直觀的說明了這個(gè)變化趨勢(shì):
L1能產(chǎn)生等于0的權(quán)值虏束,即能夠剔除某些特征在模型中的作用(特征選擇),即產(chǎn)生稀疏的效果厦章。
L2可以得迅速得到比較小的權(quán)值镇匀,但是難以收斂到0,所以產(chǎn)生的不是稀疏而是平滑的效果袜啃。
角度四(幾何空間)
這個(gè)角度從幾何位置關(guān)系來看權(quán)值的取值情況汗侵。
直接來看下面這張圖
高維我們無法想象,簡(jiǎn)化到2維的情形群发,如上圖所示晰韵。其中,左邊是L1圖示熟妓,右邊是L2圖示雪猪,左邊的方形線上是L1中w1/w2取值區(qū)間,右邊得圓形線上是L2中w1/w2的取值區(qū)間起愈,綠色的圓圈表示w1/w2取不同值時(shí)整個(gè)正則化項(xiàng)的值的等高線(凸函數(shù))只恨,從等高線和w1/w2取值區(qū)間的交點(diǎn)可以看到,L1中兩個(gè)權(quán)值傾向于一個(gè)較大另一個(gè)為0抬虽,L2中兩個(gè)權(quán)值傾向于均為非零的較小數(shù)官觅。這也就是L1稀疏,L2平滑的效果阐污。