L1、L2正則化知識(shí)詳解

正則化是一種回歸的形式裕寨,它將系數(shù)估計(jì)(coefficient estimate)朝零的方向進(jìn)行約束浩蓉、調(diào)整或縮小。也就是說(shuō)宾袜,正則化可以在學(xué)習(xí)過(guò)程中降低模型復(fù)雜度和不穩(wěn)定程度捻艳,從而避免過(guò)擬合的危險(xiǎn)。

一庆猫、數(shù)學(xué)基礎(chǔ)

1. 范數(shù)

范數(shù)是衡量某個(gè)向量空間(或矩陣)中的每個(gè)向量以長(zhǎng)度或大小认轨。范數(shù)的一般化定義:對(duì)實(shí)數(shù)p>=1, 范數(shù)定義如下:
  • L1范數(shù)
    當(dāng)p=1時(shí)月培,是L1范數(shù)嘁字,其表示某個(gè)向量中所有元素絕對(duì)值的和。
  • L2范數(shù)
    當(dāng)p=2時(shí)杉畜,是L2范數(shù)纪蜒, 表示某個(gè)向量中所有元素平方和再開根, 也就是歐幾里得距離公式此叠。

2. 拉普拉斯分布

如果隨機(jī)變量的概率密度函數(shù)分布為:

那么它就是拉普拉斯分布纯续。其中,μ 是數(shù)學(xué)期望,b > 0 是振幅猬错。如果 μ = 0窗看,那么,正半部分恰好是尺度為 1/2 的指數(shù)分布倦炒。
拉普拉斯分布的概率密度函數(shù)

3. 高斯分布

又叫正態(tài)分布显沈,若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、標(biāo)準(zhǔn)方差為σ2的高斯分布析校,記為:X~N(μ,σ2)构罗,其概率密度函數(shù)為:

其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度智玻。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布遂唧。
高斯分布的概率密度函數(shù)

還有涉及極大似然估計(jì)、概率論相關(guān)的先驗(yàn)和后驗(yàn)相關(guān)概率吊奢, 為了控制篇幅盖彭, 本文就不詳細(xì)介紹, wiki百科和百度百科都講得很清楚页滚。

二召边、正則化解決過(guò)擬合問(wèn)題

正則化通過(guò)降低模型的復(fù)雜性, 達(dá)到避免過(guò)擬合的問(wèn)題裹驰。 正則化是如何解決過(guò)擬合的問(wèn)題的呢隧熙?從網(wǎng)上找了很多相關(guān)文章, 下面列舉兩個(gè)主流的解釋方式幻林。

原因1:來(lái)自知乎上一種比較直觀和簡(jiǎn)單的理解贞盯, 模型過(guò)于復(fù)雜是因?yàn)槟P蛧L試去兼顧各個(gè)測(cè)試數(shù)據(jù)點(diǎn), 導(dǎo)致模型函數(shù)如下圖沪饺,處于一種動(dòng)蕩的狀態(tài)躏敢, 每個(gè)點(diǎn)的到時(shí)在某些很小的區(qū)間里,函數(shù)值的變化很劇烈整葡。這就意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值(絕對(duì)值)非常大件余,由于自變量值可大可小,所以只有系數(shù)足夠大遭居,才能保證導(dǎo)數(shù)值很大啼器。
而加入正則能抑制系數(shù)過(guò)大的問(wèn)題。如下公式俱萍, 是嶺回歸的計(jì)算公式镀首。

如果發(fā)生過(guò)擬合, 參數(shù)θ一般是比較大的值鼠次, 加入懲罰項(xiàng)后, 只要控制λ的大小,當(dāng)λ很大時(shí)腥寇,θ1到θn就會(huì)很小成翩,即達(dá)到了約束數(shù)量龐大的特征的目的。

原因二:從貝葉斯的角度來(lái)分析赦役, 正則化是為模型參數(shù)估計(jì)增加一個(gè)先驗(yàn)知識(shí)麻敌,先驗(yàn)知識(shí)會(huì)引導(dǎo)損失函數(shù)最小值過(guò)程朝著約束方向迭代。 L1正則是拉普拉斯先驗(yàn)掂摔,L2是高斯先驗(yàn)术羔。整個(gè)最優(yōu)化問(wèn)題可以看做是一個(gè)最大后驗(yàn)估計(jì),其中正則化項(xiàng)對(duì)應(yīng)后驗(yàn)估計(jì)中的先驗(yàn)信息乙漓,損失函數(shù)對(duì)應(yīng)后驗(yàn)估計(jì)中的似然函數(shù)级历,兩者的乘積即對(duì)應(yīng)貝葉斯最大后驗(yàn)估計(jì)。
給定訓(xùn)練數(shù)據(jù), 貝葉斯方法通過(guò)最大化后驗(yàn)概率估計(jì)參數(shù)θ:

說(shuō)明:P(θ)是參數(shù)向量θ的先驗(yàn)概率叭披。

下面我們從最大后驗(yàn)估計(jì)(MAP)的方式寥殖, 推導(dǎo)下加入L1和L2懲罰項(xiàng)的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(dǎo)(公式推導(dǎo)截圖來(lái)自知乎大神)

這個(gè)是通過(guò)最大似然估計(jì)的方法涩蜘, 推導(dǎo)出線性回歸最小二乘計(jì)算公式嚼贡。

  • 假設(shè)1: w參數(shù)向量服從高斯分布
    以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):

    最終的公式就是嶺回歸計(jì)算公式。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比同诫,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以高斯先驗(yàn)粤策, 這里就理解前面L2正則就是加入高斯先驗(yàn)知識(shí)。

  • 假設(shè)2: w參數(shù)服從拉普拉斯分布
    以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):

    最終的公式就是Lasso計(jì)算公式误窖。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比叮盘,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以拉普拉斯先驗(yàn), 這里就理解前面L1正則就是加入拉普拉斯先驗(yàn)知識(shí)贩猎。

L1和L2正則化的比較

為了幫助理解熊户,我們來(lái)看一個(gè)直觀的例子:假定x僅有兩個(gè)屬性,于是無(wú)論嶺回歸還是Lasso接觸的w都只有兩個(gè)分量吭服,即w1,w2嚷堡,我們將其作為兩個(gè)坐標(biāo)軸,然后在圖中繪制出兩個(gè)式子的第一項(xiàng)的”等值線”艇棕,即在(w1,w2)空間中平方誤差項(xiàng)取值相同的點(diǎn)的連線蝌戒。再分別繪制出L1范數(shù)和L2范數(shù)的等值線,即在(w1,w2)空間中L1范數(shù)取值相同的點(diǎn)的連線沼琉,以及L2范數(shù)取值相同的點(diǎn)的連線(如下圖所示)北苟。


L1正則化比L2正則化更易于得到稀疏解
L1正則化比L2正則化更易于得到稀疏解

嶺回歸與Lasso的解都要在平方誤差項(xiàng)與正則化項(xiàng)之間折中,即出現(xiàn)在圖中平方誤差項(xiàng)等值線與正則化項(xiàng)等值線相交處打瘪。而由上圖可以看出友鼻,采用L1范數(shù)時(shí)平方誤差項(xiàng)等值線與正則化項(xiàng)等值線的交點(diǎn)常出現(xiàn)在坐標(biāo)軸上傻昙,即w1或w2為0,而在采用L2范數(shù)時(shí)彩扔,兩者的交點(diǎn)常出現(xiàn)在某個(gè)象限中妆档,即w1或w2均非0。

這說(shuō)明了嶺回歸的一個(gè)明顯缺點(diǎn):模型的可解釋性虫碉。它將把不重要的預(yù)測(cè)因子的系數(shù)縮小到趨近于 0贾惦,但永不達(dá)到 0。也就是說(shuō)敦捧,最終的模型會(huì)包含所有的預(yù)測(cè)因子须板。但是,在 Lasso 中兢卵,如果將調(diào)整因子 λ 調(diào)整得足夠大习瑰,L1 范數(shù)懲罰可以迫使一些系數(shù)估計(jì)值完全等于 0。因此济蝉,Lasso 可以進(jìn)行變量選擇杰刽,產(chǎn)生稀疏模型。注意到w取得稀疏解意味著初始的d個(gè)特征中僅有對(duì)應(yīng)著w的非零分量的特征才會(huì)出現(xiàn)在最終模型中王滤,于是求解L1范數(shù)正則化的結(jié)果時(shí)得到了僅采用一部分初始特征的模型贺嫂;換言之,基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法雁乡,其特征選擇過(guò)程和學(xué)習(xí)器訓(xùn)練過(guò)程融為一體第喳,同時(shí)完成。

總結(jié)

  1. L2 regularizer :使得模型的解偏向于范數(shù)較小的 W踱稍,通過(guò)限制 W 范數(shù)的大小實(shí)現(xiàn)了對(duì)模型空間的限制曲饱,從而在一定程度上避免了 overfitting 。不過(guò) ridge regression 并不具有產(chǎn)生稀疏解的能力珠月,得到的系數(shù)仍然需要數(shù)據(jù)中的所有特征才能計(jì)算預(yù)測(cè)結(jié)果扩淀,從計(jì)算量上來(lái)說(shuō)并沒有得到改觀。
  2. L1 regularizer :它的優(yōu)良性質(zhì)是能產(chǎn)生稀疏性啤挎,導(dǎo)致 W 中許多項(xiàng)變成零驻谆。 稀疏的解除了計(jì)算量上的好處之外,更重要的是更具有“可解釋性”庆聘。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胜臊,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子伙判,更是在濱河造成了極大的恐慌象对,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宴抚,死亡現(xiàn)場(chǎng)離奇詭異勒魔,居然都是意外死亡甫煞,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門沥邻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)危虱,“玉大人,你說(shuō)我怎么就攤上這事唐全。” “怎么了蕊玷?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵邮利,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我垃帅,道長(zhǎng)延届,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任贸诚,我火速辦了婚禮方庭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘酱固。我一直安慰自己械念,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布运悲。 她就那樣靜靜地躺著龄减,像睡著了一般。 火紅的嫁衣襯著肌膚如雪班眯。 梳的紋絲不亂的頭發(fā)上希停,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音署隘,去河邊找鬼宠能。 笑死,一個(gè)胖子當(dāng)著我的面吹牛磁餐,可吹牛的內(nèi)容都是我干的违崇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼崖媚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼库车!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起挨稿,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤严拒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后荠呐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赛蔫,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡砂客,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呵恢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鞠值。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖渗钉,靈堂內(nèi)的尸體忽然破棺而出彤恶,到底是詐尸還是另有隱情,我是刑警寧澤鳄橘,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布声离,位于F島的核電站,受9級(jí)特大地震影響瘫怜,放射性物質(zhì)發(fā)生泄漏术徊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一鲸湃、第九天 我趴在偏房一處隱蔽的房頂上張望赠涮。 院中可真熱鬧,春花似錦暗挑、人聲如沸笋除。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)株憾。三九已至,卻和暖如春晒衩,著一層夾襖步出監(jiān)牢的瞬間嗤瞎,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工听系, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贝奇,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓靠胜,卻偏偏與公主長(zhǎng)得像掉瞳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浪漠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355