正則化

擬合問題：

還是來看預(yù)測房價的這個例子手形，我們先對該數(shù)據(jù)做線性回歸，也就是左邊第一張圖悯恍。如果這么做库糠，我們可以獲得擬合數(shù)據(jù)的這樣一條直線，但是涮毫，實際上這并不是一個很好的模型曼玩。我們看看這些數(shù)據(jù)，很明顯窒百，隨著房子面積增大黍判，住房價格的變化趨于穩(wěn)定或者說越往右越平緩。因此線性回歸并沒有很好擬合訓(xùn)練數(shù)據(jù)篙梢。

我們把此類情況稱為欠擬合(underfitting)顷帖，或者叫作叫做高偏差(bias)。

第二幅圖渤滞，我們在中間加入一個二次項贬墩，也就是說對于這幅數(shù)據(jù)我們用二次函數(shù)去擬合。自然妄呕，可以擬合出一條曲線陶舞，事實也證明這個擬合效果很好。

另一個極端情況是绪励，如果在第三幅圖中對于該數(shù)據(jù)集用一個四次多項式來擬合肿孵。因此在這里我們有五個參數(shù)θ0到θ4，這樣我們同樣可以擬合一條曲線疏魏，通過我們的五個訓(xùn)練樣本停做，我們可以得到如右圖的一條曲線。

一方面大莫，我們似乎對訓(xùn)練數(shù)據(jù)做了一個很好的擬合蛉腌，因為這條曲線通過了所有的訓(xùn)練實例。但是只厘，這實際上是一條很扭曲的曲線烙丛，它不停上下波動。因此羔味，事實上我們并不認(rèn)為它是一個預(yù)測房價的好模型河咽。

所以，我們把這類情況叫做過擬合(overfitting)介评，也叫高方差(variance)库北。

過度擬合的問題通常發(fā)生在變量（特征）過多的時候爬舰。這種情況下訓(xùn)練出的方程總是能很好的擬合訓(xùn)練數(shù)據(jù)，也就是說寒瓦，我們的代價函數(shù)可能非常接近于 0 或者就為 0情屹。

同時如果我們沒有足夠的數(shù)據(jù)集（訓(xùn)練集）去約束這個變量過多的模型，那么就會發(fā)生過擬合杂腰。

但是垃你，這樣的曲線千方百計的去擬合訓(xùn)練數(shù)據(jù)，這樣會導(dǎo)致它無法泛化到新的數(shù)據(jù)樣本中喂很，以至于無法預(yù)測新樣本價格惜颇。在這里，術(shù)語"泛化"指的是一個假設(shè)模型能夠應(yīng)用到新樣本的能力少辣。

之前凌摄，我們看到了線性回歸情況下的過擬合。類似的情況也適用于邏輯回歸漓帅。

解決方法：

方法一：盡量減少選取變量的數(shù)量

具體而言锨亏，我們可以人工檢查每一項變量，并以此來確定哪些變量更為重要忙干，然后器予，保留那些更為重要的特征變量。至于捐迫，哪些變量應(yīng)該舍棄乾翔，我們以后在討論，這會涉及到模型選擇算法施戴，這種算法是可以自動選擇采用哪些特征變量反浓，自動舍棄不需要的變量。這類做法非常有效暇韧，但是其缺點是當(dāng)你舍棄一部分特征變量時勾习，你也舍棄了問題中的一些信息浓瞪。例如懈玻，也許所有的特征變量對于預(yù)測房價都是有用的，我們實際上并不想舍棄一些信息或者說舍棄這些特征變量乾颁。

方法二：正則化

正則化中我們將保留所有的特征變量涂乌，但是會減小特征變量的數(shù)量級（參數(shù)數(shù)值的大小θ(j)）。

這個方法非常有效英岭，當(dāng)我們有很多特征變量時湾盒，其中每一個變量都能對預(yù)測產(chǎn)生一點影響。正如我們在房價預(yù)測的例子中看到的那樣诅妹，我們可以有很多特征變量罚勾，其中每一個變量都是有用的毅人，因此我們不希望把它們刪掉，這就導(dǎo)致了正則化概念的發(fā)生尖殃。

接下來我們會討論怎樣應(yīng)用正則化和什么叫做正則化均值丈莺，然后將開始討論怎樣使用正則化來使學(xué)習(xí)算法正常工作，并避免過擬合送丰。

代價函數(shù)：

在前面的介紹中缔俄，我們看到了如果用一個二次函數(shù)來擬合這些數(shù)據(jù)，那么它給了我們一個對數(shù)據(jù)很好的擬合器躏。然而俐载，如果我們用一個更高次的多項式去擬合，最終我們可能會得到一個曲線登失，它能很好地擬合訓(xùn)練集遏佣，但卻并不是一個好的結(jié)果，因為它過度擬合了數(shù)據(jù)揽浙，因此贼急，一般性并不是很好。

讓我們考慮下面的假設(shè)捏萍，我們想要加上懲罰項太抓，從而使參數(shù)足夠的小。

這里我的意思就是令杈，上圖的式子是我們的優(yōu)化目標(biāo)走敌，也就是說我們需要盡量減少代價函數(shù)的均方誤差。

對于這個函數(shù)我們對它添加一些項逗噩，加上 1000 乘以 θ3?的平方掉丽，再加上 1000 乘以 θ4?的平方，

1000 只是我隨便寫的某個較大的數(shù)字而已∫煅悖現(xiàn)在捶障，如果我們要最小化這個函數(shù)，那么為了最小化這個新的代價函數(shù)纲刀，我們要讓 θ3?和 θ4?盡可能小项炼。因為，如果你在原有代價函數(shù)的基礎(chǔ)上加上 1000 乘以 θ3?這一項示绊，那么這個新的代價函數(shù)將變得很大锭部，所以，當(dāng)我們最小化這個新的代價函數(shù)時面褐，我們將使 θ3?的值接近于 0拌禾，同樣 θ4?的值也接近于 0，就像我們忽略了這兩個值一樣展哭。如果我們做到這一點（ θ3?和 θ4?接近 0 ）湃窍，那么我們將得到一個近似的二次函數(shù)闻蛀。

這里給出了正規(guī)化背后的思路。這種思路就是您市，如果我們的參數(shù)值對應(yīng)一個較小值的話（參數(shù)值比較醒堋），那么往往我們會得到一個形式更簡單的假設(shè)墨坚。

在我們上面的例子中秧饮，我們懲罰的只是 θ3?和 θ4 ，使這兩個值均接近于零泽篮，從而我們得到了一個更簡單的假設(shè)盗尸，實際上這個假設(shè)大抵上是一個二次函數(shù)。

更一般地說帽撑，如果我們像懲罰 θ3?和 θ4?這樣懲罰其它參數(shù)泼各，那么我們往往可以得到一個相對較為簡單的假設(shè)。

實際上亏拉，這些參數(shù)的值越小扣蜻，通常對應(yīng)于越光滑的函數(shù)，也就是更加簡單的函數(shù)及塘。因此就不易發(fā)生過擬合的問題莽使。

在正則化里，我們要做的事情笙僚，就是把減小我們的代價函數(shù)（例子中是線性回歸的代價函數(shù)）所有的參數(shù)值芳肌，因為我們并不知道是哪一個或哪幾個要去縮小。

因此肋层，我們需要修改代價函數(shù)亿笤，在這后面添加一項，就像我們在方括號里的這項栋猖。當(dāng)我們添加一個額外的正則化項的時候净薛，我們收縮了每個參數(shù)。

順便說一下蒲拉，按照慣例肃拜，我們沒有去懲罰 θ0，因此 θ0?的值是大的全陨。這就是一個約定從 1 到 n 的求和爆班，而不是從 0 到 n 的求和。但其實在實踐中這只會有非常小的差異辱姨，無論你是否包括這 θ0?這項。但是按照慣例戚嗅，通常情況下我們還是只從 θ1?到 θn?進(jìn)行正則化雨涛。

下面的這項就是一個正則化項：

并且 λ 在這里我們稱做正則化參數(shù)枢舶。

λ 要做的就是控制在兩個不同的目標(biāo)中的平衡關(guān)系阔逼。

第一個目標(biāo)就是我們想要訓(xùn)練膏孟，使假設(shè)更好地擬合訓(xùn)練數(shù)據(jù)。

而第二個目標(biāo)是我們想要保持參數(shù)值較小清钥。

而 λ 這個正則化參數(shù)需要控制的是這兩者之間的平衡蚯根，即平衡擬合訓(xùn)練的目標(biāo)和保持參數(shù)值較小的目標(biāo)后众。從而來保持假設(shè)的形式相對簡單，來避免過度的擬合颅拦。

在正則化線性回歸中蒂誉，如果正則化參數(shù)值 λ 被設(shè)定為非常大，那么將會發(fā)生什么呢距帅？

我們將會非常大地懲罰參數(shù)θ1?θ2?θ3?θ4?… 也就是說右锨，我們最終懲罰θ1?θ2?θ3?θ4?…? 在一個非常大的程度，那么我們會使所有這些參數(shù)接近于零碌秸。

就是我們的假設(shè)中相當(dāng)于去掉了這些項绍移，并且使我們只是留下了一個簡單的假設(shè)，這個假設(shè)只能表明房屋價格等于 θ0?的值讥电，那就是類似于擬合了一條水平直線蹂窖，對于數(shù)據(jù)來說這就是一個欠擬合 (underfitting)。這種情況下這一假設(shè)它是條失敗的直線恩敌，對于訓(xùn)練集來說這只是一條平滑直線恼策，它沒有任何趨勢，它不會去趨向大部分訓(xùn)練樣本的任何值潮剪。

這句話的另??一種方式來表達(dá)就是這種假設(shè)有過于強(qiáng)烈的"偏見" 或者過高的偏差 (bais)涣楷，認(rèn)為預(yù)測的價格只是等于 θ0?。對于數(shù)據(jù)來說這只是一條水平線抗碰。

因此狮斗，為了使正則化運(yùn)作良好，我們應(yīng)當(dāng)注意一些方面弧蝇，應(yīng)該去選擇一個不錯的正則化參數(shù) λ 碳褒。當(dāng)我們以后講到多重選擇時我們將討論一種方法來自動選擇正則化參數(shù) λ? ，為了使用正則化看疗，接下來我們將把這些概念應(yīng)用到到線性回歸和邏輯回歸中去沙峻，那么我們就可以讓他們避免過度擬合了。

線性回歸求解方法：

梯度下降两芳，如下：

正規(guī)方程摔寨，如下:

通過之前的博文，我們知道如果你只有較少的樣本怖辆，導(dǎo)致特征數(shù)量大于樣本數(shù)量是复，那么矩陣 XTX 將是不可逆矩陣或奇異（singluar）矩陣删顶，或者用另一種說法是這個矩陣是退化（degenerate）的，那么我們就沒有辦法使用正規(guī)方程來求出 θ 淑廊。

幸運(yùn)的是逗余，正規(guī)化也為我們解決了這個問題，具體的說只要正則參數(shù)是嚴(yán)格大于零季惩，實際上录粱，可以證明如下矩陣：

將是可逆的。因此画拾，使用正則還可以照顧任何 XTX 不可逆的問題啥繁。

所以，你現(xiàn)在知道如何實現(xiàn)嶺回歸碾阁，利用它输虱，你就可以避免過度擬合，即使你在一個相對較小的訓(xùn)練集里有很多特征脂凶。這應(yīng)該可以讓你在很多問題上更好的運(yùn)用線性回歸宪睹。

分類問題求解：

Logistic回歸算法同樣存在過擬合問題：

同樣使用梯度下降：

雜合文章，切勿傳播２锨铡Ｍげ　！

最后編輯于：2018.10.06 15:50:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末嘶居，一起剝皮案震驚了整個濱河市罪帖，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌邮屁，老刑警劉巖整袁，帶你破解...
沈念sama閱讀 216,651評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異佑吝，居然都是意外死亡坐昙，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門芋忿，熙熙樓的掌柜王于貴愁眉苦臉地迎上來炸客，“玉大人，你說我怎么就攤上這事戈钢”韵桑” “怎么了？”我有些...
開封第一講書人閱讀 162,931評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵殉了，是天一觀的道長开仰。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么抖所？我笑而不...
開封第一講書人閱讀 58,218評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任梨州，我火速辦了婚禮痕囱，結(jié)果婚禮上田轧，老公的妹妹穿的比我還像新娘。我一直安慰自己鞍恢，他們只是感情好傻粘，可當(dāng)我...
茶點故事閱讀 67,234評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著帮掉，像睡著了一般弦悉。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蟆炊，一...
開封第一講書人閱讀 51,198評論 1贊 299
城市分裂傳說
那天稽莉，我揣著相機(jī)與錄音，去河邊找鬼涩搓。笑死污秆，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的昧甘。我是一名探鬼主播良拼，決...
沈念sama閱讀 40,084評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼充边！你這毒婦竟也來了庸推？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,926評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤浇冰，失蹤者是張志新（化名）和其女友劉穎贬媒，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肘习，經(jīng)...
沈念sama閱讀 45,341評論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡际乘，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,563評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了井厌。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚓庭。...
茶點故事閱讀 39,731評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖仅仆，靈堂內(nèi)的尸體忽然破棺而出器赞，到底是詐尸還是另有隱情，我是刑警寧澤墓拜，帶...
沈念sama閱讀 35,430評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布港柜，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏夏醉。R本人自食惡果不足惜爽锥，卻給世界環(huán)境...
茶點故事閱讀 41,036評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望畔柔。院中可真熱鬧氯夷，春花似錦、人聲如沸靶擦。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽玄捕。三九已至踩蔚，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間枚粘，已是汗流浹背馅闽。一陣腳步聲響...
開封第一講書人閱讀 32,829評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留馍迄，地道東北人福也。一個月前我還...
沈念sama閱讀 47,743評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像柬姚，于是被迫代替她去往敵國和親拟杉。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,629評論 2贊 354

正則化

擬合問題：

解決方法：

在正則化線性回歸中蒂誉，如果正則化參數(shù)值 λ 被設(shè)定為非常大，那么將會發(fā)生什么呢距帅？

線性回歸求解方法：

分類問題求解：

推薦閱讀更多精彩內(nèi)容