正則化(Regularization)是機(jī)器學(xué)習(xí)中一種常用的技術(shù)呼巴,其主要目的是控制模型復(fù)雜度,減小過(guò)擬合御蒲。最基本的正則化方法是在原目標(biāo)(代價(jià))函數(shù) 中添加懲罰項(xiàng)衣赶,對(duì)復(fù)雜度高的模型進(jìn)行“懲罰”。其數(shù)學(xué)表達(dá)形式為:
其中厚满,為訓(xùn)練樣本以及標(biāo)簽屑埋,為目標(biāo)函數(shù),為權(quán)重系數(shù)向量痰滋,為懲罰項(xiàng)摘能,為懲罰因子。不同的對(duì)權(quán)重的最優(yōu)解有不同的偏好敲街,因而會(huì)產(chǎn)生不同的正則化效果团搞。最常用的是范數(shù)和范數(shù),相應(yīng)稱之為正則和正則多艇。
1. 為什么L1逻恐、L2正則化可以防止過(guò)擬合?
深入理解L1峻黍、L2正則化從帶約束條件的優(yōu)化求解和最大后驗(yàn)概率兩種思路對(duì)L1复隆、L2正則化給出了分析。本文從只說(shuō)下帶約束條件的優(yōu)化求解(因?yàn)槟壳拔抑荒芾斫膺@種思路姆涩。挽拂。。)
我們知道骨饿,模型的復(fù)雜度可用VC維來(lái)衡量亏栈。通常情況下,模型VC維與系數(shù)的個(gè)數(shù)成線性關(guān)系:即數(shù)量越多宏赘,VC維越大绒北,模型越復(fù)雜。因此察署,為了限制模型的復(fù)雜度闷游,很自然的思路是減少系數(shù)的個(gè)數(shù),即讓向量中一些元素為0或者說(shuō)限制中非零元素的個(gè)數(shù)。為此脐往,我們可在原優(yōu)化問(wèn)題中加入一個(gè)約束條件:
范數(shù)表示向量中非零元素的個(gè)數(shù)俱济。但由于該問(wèn)題是一個(gè)NP問(wèn)題,不易求解钙勃,為此我們需要稍微“放松”一下約束條件蛛碌。為了達(dá)到近似效果,我們不嚴(yán)格要求某些權(quán)重為0辖源,而是要求權(quán)重應(yīng)接近于0蔚携,即盡量小。從而可用范數(shù)和范數(shù)來(lái)近似克饶,即:
利用拉格朗日算子法酝蜒,我們可將上述帶約束條件的最優(yōu)化問(wèn)題轉(zhuǎn)換為不帶約束項(xiàng)的優(yōu)化問(wèn)題,構(gòu)造拉格朗日函數(shù):
綜上所述矾湃,正則和正則是通過(guò)將某些為0或者接近于0亡脑,降低模型復(fù)雜度,防止過(guò)擬合邀跃。
《深度學(xué)習(xí)》第7章
2. L1霉咨、L2正則化為什么可以將某些為0或者接近于0?
當(dāng)為1維的時(shí)候拍屑,和的函數(shù)圖像如下:
和途戒,會(huì)向0的方向優(yōu)化;區(qū)別在于僵驰,中將不會(huì)再變化喷斋,而是接近于0但不會(huì)等于0(個(gè)人想法)。
公式推導(dǎo)
《深度學(xué)習(xí)》第七章(7.1--7.2)有公式推導(dǎo)蒜茴,有時(shí)間可以再好好看看星爪,初看沒(méi)看懂。
L2推導(dǎo)
L1推導(dǎo)
參考資料
- 深入理解L1粉私、L2正則化
- L1正則化與L2正則化
- 《深度學(xué)習(xí)》第七章(7.1--7.2)
- 《機(jī)器學(xué)習(xí)》(周志華)第11章(11.4)