機器學習入門(15)--過度擬合

定義

對于線性回歸或邏輯回歸的損失函數(shù)構成的模型,可能會有些權重很大阶捆,有些權重很小鸠匀,導致過擬合(就是過分擬合了訓練數(shù)據(jù)),使得模型的復雜度提高椿争,泛化能力較差(對未知數(shù)據(jù)的預測能力)怕膛。

下面左圖即為欠擬合,中圖為合適的擬合秦踪,右圖為過擬合:

擬合情況

分析:過擬合問題往往源自過多的特征褐捻。

解決方法

1)減少特征數(shù)量:減少特征會失去一些信息,即使特征選的很好椅邓∧眩可用人工選擇要保留的特征;也可根據(jù)模型選擇算法景馁;

2)正則化:特征較多時比較有效板壮,保留所有特征,但減少θ的大小

正則化方法

正則化是結構風險最小化策略的實現(xiàn)合住,是在經(jīng)驗風險上加一個正則化項或懲罰項绰精。正則化項一般是模型復雜度的單調遞增函數(shù),模型越復雜透葛,正則化項就越大笨使。從房價預測問題開始,這次采用的是多項式回歸僚害。左圖是適當擬合阱表,右圖是過擬合:

直觀來看,如果我們想解決這個例子中的過擬合問題贡珊,最好能將x3,x4的影響消除,也就是讓θ3=0涉馁,θ4=0.门岔。假設我們對θ3,θ4進行懲罰烤送,并且令其很小寒随,一個簡單的辦法就是給原有的Cost函數(shù)加上兩個略大懲罰項,例如:

通過這樣的代價函數(shù)選擇出的θ3和θ4對預測結果的影響就比之前要小許多。假如我們有非常多的特征,我們并不知道其中哪些特征我們要懲罰,我們將對所有的特征進行懲罰,并且讓代價函數(shù)最優(yōu)化的軟件來選擇這些懲罰的程度妻往。這樣的結果是得到了一個較為簡單的能防止過擬合問題的假設:

備注:注:根據(jù)慣例,我們不對θ0進行懲罰互艾。

其中λ又稱為歸一化參數(shù)(Regularization Parameter)。如果它的值很大讯泣,說明對模型的復雜度懲罰大纫普,對擬合數(shù)據(jù)的損失懲罰小,這樣它就不會過分擬合數(shù)據(jù)好渠,在訓練數(shù)據(jù)上的偏差較大昨稼,在未知數(shù)據(jù)上的方差較小,但是可能出現(xiàn)欠擬合的現(xiàn)象拳锚;如果它的值很小假栓,說明比較注重對訓練數(shù)據(jù)的擬合,在訓練數(shù)據(jù)上的偏差會小霍掺,但是可能會導致過擬合匾荆。經(jīng)過歸一化處理的模型與原模型的可能對比如下圖所示:

如果選擇的歸一化參數(shù)λ過大,則會把所有的參數(shù)都最小化了,導致模型變成hθ(x)=θ0也就是上圖中紅色直線所示的情況,造成低度擬合。

如果我們要使用梯度下降發(fā)令這個代價函數(shù)最小化,因為我們未對θ0進行歸一化杆烁,

對上面的算法中j=1,2,...,n時的更新式子進行調整可得:

可以看出,歸一化線性回歸的梯度下降算法的變化在于,每次都在原有算法更新規(guī)則的基礎上令θ值減少了一個額外的值牙丽。

我們同樣也可以利用正規(guī)方程來求解歸一化線性回歸模型,也就求使J(θ)min的θ,令J(θ)對θj求導的所有導數(shù)等于0连躏,有公式如下:正則化后的線性回歸的Normal Equation的公式為:

同樣對于邏輯回歸,我們也給代價函數(shù)增加一個歸一化的表達式,得到:

要最小化該代價函數(shù),通過求導,得出梯度下降算法為:

注:看上去同線性回歸一樣,但是知道hθ(x)=g(θTX),所以與線性回歸不同剩岳。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市入热,隨后出現(xiàn)的幾起案子拍棕,更是在濱河造成了極大的恐慌,老刑警劉巖勺良,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绰播,死亡現(xiàn)場離奇詭異,居然都是意外死亡尚困,警方通過查閱死者的電腦和手機蠢箩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來事甜,“玉大人谬泌,你說我怎么就攤上這事÷咔” “怎么了掌实?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長邦马。 經(jīng)常有香客問我贱鼻,道長宴卖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任邻悬,我火速辦了婚禮症昏,結果婚禮上,老公的妹妹穿的比我還像新娘父丰。我一直安慰自己肝谭,他們只是感情好,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布础米。 她就那樣靜靜地躺著分苇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪屁桑。 梳的紋絲不亂的頭發(fā)上医寿,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天,我揣著相機與錄音蘑斧,去河邊找鬼靖秩。 笑死,一個胖子當著我的面吹牛竖瘾,可吹牛的內容都是我干的沟突。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼捕传,長吁一口氣:“原來是場噩夢啊……” “哼惠拭!你這毒婦竟也來了?” 一聲冷哼從身側響起庸论,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤职辅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后聂示,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體域携,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年鱼喉,在試婚紗的時候發(fā)現(xiàn)自己被綠了秀鞭。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡扛禽,死狀恐怖锋边,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情编曼,我是刑警寧澤宠默,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站灵巧,受9級特大地震影響搀矫,放射性物質發(fā)生泄漏。R本人自食惡果不足惜刻肄,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一瓤球、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧敏弃,春花似錦卦羡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瓶颠,卻和暖如春拟赊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背粹淋。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工吸祟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人桃移。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓屋匕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親借杰。 傳聞我的和親對象是個殘疾皇子过吻,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內容