機器學(xué)習(xí)中,一般損失函數(shù)后邊會添加一個額外項橱赠,一般稱作L1正則化L2正則化或者L1范數(shù)L2范數(shù)。L1蕉世、L2正則化可以看做是損失函數(shù)的懲罰項蔼紧。對于線性回歸模型,使用L1正則化得模型稱作Lasso回歸狠轻,使用L2正則化的模型稱作Ridge回歸(嶺回歸)奸例。
L1正則化是指權(quán)值向量中各個元素的絕對值之和,例如|w1| + |w2|向楼。
L2正則化是指權(quán)值向量中各個元素的平方和然后再求平方根查吊。
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型湖蜕,用于特征選擇逻卖。
假設(shè)有如下帶有L1正則化的目標函數(shù)等高線圖:
圖中等值線是J0函數(shù)等值線,黑色菱形是L函數(shù)的圖形昭抒。我們現(xiàn)在的目標就是不僅要原函數(shù)更接近紫色的小圈评也,同時要使得菱形值越小越好。并且加入L1范數(shù)的解戈鲁,一定是某條等高線和菱形的切點仇参。這個切點位于頂點時就是最優(yōu)解。這個頂點的坐標為(0婆殿,w)诈乒。(二維情況有四個頂點,多維情況下有更多)
---------------------------------L1婆芦,L2分割線--------------------------------
L2正則化可以產(chǎn)生參數(shù)值較小的模型怕磨,能適應(yīng)不同的數(shù)據(jù)集,一定程度上防止過擬合消约,抗擾動能力強肠鲫。
L2正則的分析與L1類似,只不過L函數(shù)由菱形變成了圓形或粮,仍舊求原曲線和圓形的切點作為最優(yōu)解导饲。此時切點不容易在坐標軸上,而是位于靠近坐標軸的部分氯材,因此我們可以說L2范數(shù)能讓解比較性酢(靠近0),但是比較平滑(不等于0)氢哮。
最后袋毙,我們所說的希望模型結(jié)構(gòu)風(fēng)險(SRM)最小化,是要求擬合誤差足夠腥哂取(經(jīng)驗風(fēng)險ERM最小化)听盖,同時模型不要太復(fù)雜(正則化項極小化)胀溺,這樣得到的模型具有較強的泛化能力,即對未知的數(shù)據(jù)有更好的預(yù)測能力皆看。