【機(jī)器學(xué)習(xí)】正則化項(xiàng)L1和L2的直觀理解

http://blog.csdn.net/jinping_shi/article/details/52433975

正則化(Regularization)

機(jī)器學(xué)習(xí)中幾乎都可以看到損失函數(shù)后面會(huì)添加一個(gè)額外項(xiàng)展懈,常用的額外項(xiàng)一般有兩種厌杜,一般英文稱作?1-norm?2-norm箩言,中文稱作L1正則化L2正則化滓鸠,或者L1范數(shù)L2范數(shù)梭灿。
L1正則化和L2正則化可以看做是損失函數(shù)的懲罰項(xiàng)蟀架。所謂『懲罰』是指對損失函數(shù)中的某些參數(shù)做一些限制重挑。對于線性回歸模型讼呢,使用L1正則化的模型建叫做Lasso回歸姑躲,使用L2正則化的模型叫做Ridge回歸(嶺回歸)睡扬。下圖是Python中Lasso回歸的損失函數(shù),式中加號后面一項(xiàng)α||w||1即為L1正則化項(xiàng)黍析。
[圖片上傳中卖怜。。阐枣。(1)]
下圖是Python中Ridge回歸的損失函數(shù)马靠,式中加號后面一項(xiàng)α||w||22即為L2正則化項(xiàng)。
[圖片上傳中蔼两。甩鳄。。(2)]
一般回歸分析中回歸w表示特征的系數(shù)额划,從上式可以看到正則化項(xiàng)是對系數(shù)做了處理(限制)妙啃。L1正則化和L2正則化的說明如下:
L1正則化是指權(quán)值向量w中各個(gè)元素的絕對值之和,通常表示為||w||1
L2正則化是指權(quán)值向量w中各個(gè)元素的平方和然后再求平方根(可以看到Ridge回歸的L2正則化項(xiàng)有平方符號)俊戳,通常表示為||w||2

一般都會(huì)在正則化項(xiàng)之前添加一個(gè)系數(shù)揖赴,Python中用α表示,一些文章也用λ表示抑胎。這個(gè)系數(shù)需要用戶指定燥滑。
那添加L1和L2正則化有什么用?下面是L1正則化和L2正則化的作用圆恤,這些表述可以在很多文章中找到突倍。
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型盆昙,可以用于特征選擇
L2正則化可以防止模型過擬合(overfitting)羽历;一定程度上,L1也可以防止過擬合

稀疏模型與特征選擇

上面提到L1正則化有助于生成一個(gè)稀疏權(quán)值矩陣淡喜,進(jìn)而可以用于特征選擇秕磷。為什么要生成一個(gè)稀疏矩陣?
稀疏矩陣指的是很多元素為0炼团,只有少數(shù)元素是非零值的矩陣澎嚣,即得到的線性回歸模型的大部分系數(shù)都是0. 通常機(jī)器學(xué)習(xí)中特征數(shù)量很多,例如文本處理時(shí)瘟芝,如果將一個(gè)詞組(term)作為一個(gè)特征易桃,那么特征數(shù)量會(huì)達(dá)到上萬個(gè)(bigram)。在預(yù)測或分類時(shí)锌俱,那么多特征顯然難以選擇晤郑,但是如果代入這些特征得到的模型是一個(gè)稀疏模型,表示只有少數(shù)特征對這個(gè)模型有貢獻(xiàn)贸宏,絕大部分特征是沒有貢獻(xiàn)的造寝,或者貢獻(xiàn)微小(因?yàn)樗鼈兦懊娴南禂?shù)是0或者是很小的值吭练,即使去掉對模型也沒有什么影響)诫龙,此時(shí)我們就可以只關(guān)注系數(shù)是非零值的特征。這就是稀疏模型與特征選擇的關(guān)系鲫咽。

L1和L2正則化的直觀理解

這部分內(nèi)容將解釋為什么L1正則化可以產(chǎn)生稀疏模型(L1是怎么讓系數(shù)等于零的)签赃,以及為什么L2正則化可以防止過擬合
L1正則化和特征選擇
假設(shè)有如下帶L1正則化的損失函數(shù):
J=J0+α∑w|w|(1)
其中J0是原始的損失函數(shù)分尸,加號后面的一項(xiàng)是L1正則化項(xiàng)姊舵,α是正則化系數(shù)。注意到L1正則化是權(quán)值的絕對值之和寓落,J是帶有絕對值符號的函數(shù)括丁,因此J是不完全可微的。機(jī)器學(xué)習(xí)的任務(wù)就是要通過一些方法(比如梯度下降)求出損失函數(shù)的最小值伶选。當(dāng)我們在原始損失函數(shù)J0后添加L1正則化項(xiàng)時(shí)史飞,相當(dāng)于對J0做了一個(gè)約束。令L=α∑w|w|仰税,J=J0+L构资,此時(shí)我們的任務(wù)變成在L約束下求出J0取最小值的解≡纱兀考慮二維的情況吐绵,即只有兩個(gè)權(quán)值w1和w2,此時(shí)L=|w1|+|w2|對于梯度下降法,求解J0的過程可以畫出等值線己单,同時(shí)L1正則化的函數(shù)L也可以在w1w2的二維平面上畫出來唉窃。如下圖:

@圖1 L1正則化
圖1 L1正則化圖中等值線是J0的等值線,黑色方形是L函數(shù)的圖形纹笼。在圖中纹份,當(dāng)J0等值線與L圖形首次相交的地方就是最優(yōu)解。上圖中J0與L在L的一個(gè)頂點(diǎn)處相交廷痘,這個(gè)頂點(diǎn)就是最優(yōu)解蔓涧。注意到這個(gè)頂點(diǎn)的值是(w1,w2)=(0,w)∷穸睿可以直觀想象元暴,因?yàn)長函數(shù)有很多『突出的角』(二維情況下四個(gè),多維情況下更多)兄猩,J0與這些角接觸的機(jī)率會(huì)遠(yuǎn)大于與L其它部位接觸的機(jī)率昨寞,而在這些角上,會(huì)有很多權(quán)值等于0厦滤,這就是為什么L1正則化可以產(chǎn)生稀疏模型援岩,進(jìn)而可以用于特征選擇。而正則化前面的系數(shù)α掏导,可以控制L圖形的大小享怀。α越大,L的圖形越大(上圖中的黑色方框)趟咆;α越小添瓷,L的圖形就越小,可以小到黑色方框只超出原點(diǎn)范圍一點(diǎn)點(diǎn)值纱,這是最優(yōu)點(diǎn)的值(w1,w2)=(0,w)中的w可以取到很小的值鳞贷。類似,假設(shè)有如下帶L2正則化的損失函數(shù):
J=J0+α∑ww2(2)
同樣可以畫出他們在二維平面上的圖形虐唠,如下:
[圖片上傳中搀愧。。疆偿。(4)] 圖2 L2正則化
二維平面下L2正則化的函數(shù)圖形是個(gè)圓咱筛,與方形相比,被磨去了棱角杆故。因此J0與L
相交時(shí)使得w1或w2等于零的機(jī)率小了許多迅箩,這就是為什么L2正則化不具有稀疏性的原因。

L2正則化和過擬合

擬合過程中通常都傾向于讓權(quán)值盡可能小处铛,最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型饲趋。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡單拐揭,能適應(yīng)不同的數(shù)據(jù)集,也在一定程度上避免了過擬合現(xiàn)象奕塑√梦郏可以設(shè)想一下對于一個(gè)線性回歸方程,若參數(shù)很大爵川,那么只要數(shù)據(jù)偏移一點(diǎn)點(diǎn),就會(huì)對結(jié)果造成很大的影響息楔;但如果參數(shù)足夠小寝贡,數(shù)據(jù)偏移得多一點(diǎn)也不會(huì)對結(jié)果造成什么影響,專業(yè)一點(diǎn)的說法是『抗擾動(dòng)能力強(qiáng)』值依。
那為什么L2正則化可以獲得值很小的參數(shù)圃泡?
以線性回歸中的梯度下降法為例。假設(shè)要求的參數(shù)為θ愿险,hθ(x)是我們的假設(shè)函數(shù)颇蜡,那么線性回歸的代價(jià)函數(shù)如下:
J(θ)=12m∑i=1m(hθ(x(i))?y(i))(3)
那么在梯度下降法中,最終用于迭代計(jì)算參數(shù)θ的迭代式為: θj:=θj?α1m∑i=1m(hθ(x(i))?y(i))x(i)j(4)
其中α是learning rate. 上式是沒有添加L2正則化項(xiàng)的迭代公式辆亏,如果在原始代價(jià)函數(shù)之后添加L2正則化风秤,則迭代公式會(huì)變成下面的樣子: θj:=θj(1?αλm)?α1m∑i=1m(hθ(x(i))?y(i))x(i)j(5)
其中λ就是正則化參數(shù)。從上式可以看到扮叨,與未添加L2正則化的迭代公式相比缤弦,每一次迭代,θj都要先乘以一個(gè)小于1的因子彻磁,從而使得θj不斷減小碍沐,因此總得來看,θ是不斷減小的衷蜓。
最開始也提到L1正則化一定程度上也可以防止過擬合累提。之前做了解釋,當(dāng)L1的正則化系數(shù)很小時(shí)磁浇,得到的最優(yōu)解會(huì)很小斋陪,可以達(dá)到和L2正則化類似的效果。

正則化參數(shù)的選擇

L1正則化參數(shù)

通常越大的λ可以讓代價(jià)函數(shù)在參數(shù)為0時(shí)取到最小值置吓。下面是一個(gè)簡單的例子鳍贾,這個(gè)例子來自Quora上的問答。為了方便敘述交洗,一些符號跟這篇帖子的符號保持一致骑科。
假設(shè)有如下帶L1正則化項(xiàng)的代價(jià)函數(shù):
F(x)=f(x)+λ||x||1
其中x是要估計(jì)的參數(shù),相當(dāng)于上文中提到的w以及θ. 注意到L1正則化在某些位置是不可導(dǎo)的构拳,當(dāng)λ足夠大時(shí)可以使得F(x)在x=0時(shí)取到最小值咆爽。如下圖:

@圖3 L1正則化參數(shù)的選擇
圖3 L1正則化參數(shù)的選擇
分別取λ=0.5和λ=2梁棠,可以看到越大的λ越容易使F(x)在x=0時(shí)取到最小值。

L2正則化參數(shù)

從公式5可以看到斗埂,λ越大符糊,θj衰減得越快。另一個(gè)理解可以參考圖2呛凶,λ越大男娄,L2圓的半徑越小,最后求得代價(jià)函數(shù)最值時(shí)各參數(shù)也會(huì)變得很小漾稀。

Reference

過擬合的解釋: https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss2.html
正則化的解釋: https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss1.html
正則化的解釋: http://blog.csdn.net/u012162613/article/details/44261657
正則化的數(shù)學(xué)解釋(一些圖來源于這里): http://blog.csdn.net/zouxy09/article/details/24971995

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末模闲,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子崭捍,更是在濱河造成了極大的恐慌尸折,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件殷蛇,死亡現(xiàn)場離奇詭異实夹,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)粒梦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門亮航,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人匀们,你說我怎么就攤上這事塞赂。” “怎么了昼蛀?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵宴猾,是天一觀的道長。 經(jīng)常有香客問我叼旋,道長仇哆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任夫植,我火速辦了婚禮讹剔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘详民。我一直安慰自己延欠,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布沈跨。 她就那樣靜靜地躺著由捎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪饿凛。 梳的紋絲不亂的頭發(fā)上狞玛,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天软驰,我揣著相機(jī)與錄音,去河邊找鬼心肪。 笑死锭亏,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的硬鞍。 我是一名探鬼主播慧瘤,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼固该!你這毒婦竟也來了锅减?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤蹬音,失蹤者是張志新(化名)和其女友劉穎上煤,沒想到半個(gè)月后休玩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體著淆,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年拴疤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了永部。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡呐矾,死狀恐怖苔埋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蜒犯,我是刑警寧澤组橄,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站罚随,受9級特大地震影響玉工,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜淘菩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一遵班、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧潮改,春花似錦狭郑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至糕殉,卻和暖如春缨历,著一層夾襖步出監(jiān)牢的瞬間以蕴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工辛孵, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丛肮,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓魄缚,卻偏偏與公主長得像宝与,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子冶匹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容