過擬合問題

一厕宗、過度擬合


對于圖中的例子压怠,
可以看出第一幅圖中使用一個變量從而用一條直線來擬合數(shù)據(jù),可以看出效果不好滚秩,偏差很大,因此奈偏,定義其為:欠擬合(underfit)坞嘀,高偏差(high bias)
第三幅圖中惊来,使用多個變量丽涩,高次數(shù)來擬合數(shù)據(jù),可以看出全部數(shù)據(jù)都能很好的擬合裁蚁,但是這種情況導致擬合函數(shù)變量過多矢渊,復雜度高,對于新的樣本擬合度欠佳厘擂,因此無法泛化到其他樣本昆淡,稱其為:過度擬合(overfit),*高方差 (high variance)
因此刽严,過度擬合的特點如下:


看看另一個例子



對于第一個圖昂灵,使用兩個變量,可以擬合出一條直線舞萄,可以看出效果不是很好眨补,這也是一個欠擬合的例子。
對于第二個圖中倒脓,增加了假如了一些二次項撑螺,很好的擬合了數(shù)據(jù),可以說是訓練集訓練出的最好擬合結果崎弃。
對于第三個圖中甘晤,使用了很多的高階項,會使邏輯回歸自身扭曲饲做,過度擬合了數(shù)據(jù)线婚,形成圖中的決策邊界。這是一個過度擬合的例子盆均。


二塞弊、解決過度擬合


同樣在這個問題中,假設我們只有很少的樣本數(shù)量泪姨,并且樣本的特征值很多的時候游沿,那么就會出現(xiàn)過度擬合的問題。
解決這個問題有兩個思路肮砾,



第一種方法就是【減少特征的數(shù)量】:通過【人工檢查】來決定或者使用【模型選擇算法】自動選擇诀黍,這兩個措施都可以解決過擬合,然而會去掉一些特征仗处,但是我們有時候并不想舍棄一些看起來有用的特征蔗草。

第二種方法就是【正規(guī)化】:保留所有的特征咒彤,但是減少參數(shù)theta(j)的量級(magnitude)或者大小(value)咒精。這種措施能夠很好的作用镶柱,使得當有很多特征時,每一個特征將會對預測值y產(chǎn)生一點影響模叙。


下面我們介紹正規(guī)化歇拆。

三、 正規(guī)化(regularization)

Paste_Image.png

這個圖中范咨,我們根據(jù)前面的知識知道圖二過擬合故觅,一般性不好。在所有的特征中渠啊,我們根據(jù)關聯(lián)度來抉擇那個特征的權重输吏,也就是特征的親疏關系,如果特征的重要性不高的話替蛉,那么我們就通過某種方法降低這個特征的影響力贯溅,這種方法就是正規(guī)化。

如圖中躲查,我們假設theta(3),theta(4)的權重不高它浅,也就是他們兩個參數(shù)的關聯(lián)度不夠重要,我們需要降低他們兩個的影響镣煮。
那么我們通過在代價函數(shù)中通過增加后面兩個式子姐霍,這樣在計算某個theta的最小值時,
例如計算theta(3)的時候典唇,后面增加了1000*theta(3)^2,要使得代價函數(shù)最小镊折,那么我們可以知道,theta(3)的值必須趨近于0的時候介衔,整個代價函數(shù)才能夠得到最小值腌乡。
這樣的結果,最終我們可以獲得更小的theta(3),theta(4)的值夜牡,那么在擬合函數(shù)里面,

,theta(3),theta(4)的影響力下降侣签,整個式子接近與二次函數(shù)塘装,從而擬合度更好!


正規(guī)化的好處于:



1.更簡單的擬合函數(shù)
2.不易發(fā)生過擬合問題

在這個問題中影所,可以看到有100個特征蹦肴,101個參數(shù),類似的猴娩,在很多問題中阴幌,我們不知道這些特征的關聯(lián)度勺阐,因此無法很好的選擇該“懲罰”那個特征,因此我們就對所有的參數(shù)進行收縮懲罰矛双,【下標從1開始的】
因此渊抽,正規(guī)化的公式如下:


這里有一個問題,當我們隨意選擇labmda的時候议忽,假設我們使得lambda很大懒闷,


會發(fā)生什么情況呢?



有前面的思路栈幸,我們可以知道愤估,labmda越大,那么參數(shù)theta(1),theta(2)..都會變得非常小速址, 那么擬合函數(shù)就如圖中成為了一個常數(shù)函數(shù)直線theta(0)玩焰,造成的結果就是【欠擬合】


四、正規(guī)化在線性規(guī)劃的應用


在這張圖片中芍锚,我們將正規(guī)化的代價函數(shù)應用到梯度下降算法中昔园,可以看到之后新的迭代公式,其中闹炉,



為啥會是小于1的呢蒿赢?alpha一般很小,而且m是很大的存在渣触,一般差值為0.99羡棵?有點不明白。


對于線性規(guī)劃的另一種方法---正規(guī)方程

【暫且不懂】


五嗅钻、線性規(guī)劃對于邏輯回歸的應用

正規(guī)化的代價函數(shù)如圖皂冰,
應用于梯度下降,迭代公式如圖养篓,


最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末秃流,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子柳弄,更是在濱河造成了極大的恐慌舶胀,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碧注,死亡現(xiàn)場離奇詭異嚣伐,居然都是意外死亡,警方通過查閱死者的電腦和手機萍丐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門轩端,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人逝变,你說我怎么就攤上這事基茵》芄梗” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵拱层,是天一觀的道長弥臼。 經(jīng)常有香客問我,道長舱呻,這世上最難降的妖魔是什么醋火? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮箱吕,結果婚禮上芥驳,老公的妹妹穿的比我還像新娘。我一直安慰自己茬高,他們只是感情好兆旬,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著怎栽,像睡著了一般丽猬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熏瞄,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天脚祟,我揣著相機與錄音,去河邊找鬼强饮。 笑死由桌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的邮丰。 我是一名探鬼主播行您,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼剪廉!你這毒婦竟也來了娃循?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤斗蒋,失蹤者是張志新(化名)和其女友劉穎捌斧,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泉沾,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡捞蚂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了爆哑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡舆吮,死狀恐怖揭朝,靈堂內(nèi)的尸體忽然破棺而出队贱,到底是詐尸還是另有隱情,我是刑警寧澤潭袱,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布柱嫌,位于F島的核電站,受9級特大地震影響屯换,放射性物質(zhì)發(fā)生泄漏编丘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一彤悔、第九天 我趴在偏房一處隱蔽的房頂上張望嘉抓。 院中可真熱鬧,春花似錦晕窑、人聲如沸抑片。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敞斋。三九已至,卻和暖如春疾牲,著一層夾襖步出監(jiān)牢的瞬間植捎,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工阳柔, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留焰枢,地道東北人。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓盔沫,卻偏偏與公主長得像医咨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子架诞,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容