定義
對于線性回歸或邏輯回歸的損失函數(shù)構成的模型,可能會有些權重很大阶捆,有些權重很小鸠匀,導致過擬合(就是過分擬合了訓練數(shù)據(jù)),使得模型的復雜度提高椿争,泛化能力較差(對未知數(shù)據(jù)的預測能力)怕膛。
下面左圖即為欠擬合,中圖為合適的擬合秦踪,右圖為過擬合:
分析:過擬合問題往往源自過多的特征褐捻。
解決方法
1)減少特征數(shù)量:減少特征會失去一些信息,即使特征選的很好椅邓∧眩可用人工選擇要保留的特征;也可根據(jù)模型選擇算法景馁;
2)正則化:特征較多時比較有效板壮,保留所有特征,但減少θ的大小
正則化方法
正則化是結構風險最小化策略的實現(xiàn)合住,是在經(jīng)驗風險上加一個正則化項或懲罰項绰精。正則化項一般是模型復雜度的單調遞增函數(shù),模型越復雜透葛,正則化項就越大笨使。從房價預測問題開始,這次采用的是多項式回歸僚害。左圖是適當擬合阱表,右圖是過擬合:
直觀來看,如果我們想解決這個例子中的過擬合問題贡珊,最好能將x3,x4的影響消除,也就是讓θ3=0涉馁,θ4=0.门岔。假設我們對θ3,θ4進行懲罰烤送,并且令其很小寒随,一個簡單的辦法就是給原有的Cost函數(shù)加上兩個略大懲罰項,例如:
通過這樣的代價函數(shù)選擇出的θ3和θ4對預測結果的影響就比之前要小許多。假如我們有非常多的特征,我們并不知道其中哪些特征我們要懲罰,我們將對所有的特征進行懲罰,并且讓代價函數(shù)最優(yōu)化的軟件來選擇這些懲罰的程度妻往。這樣的結果是得到了一個較為簡單的能防止過擬合問題的假設:
備注:注:根據(jù)慣例,我們不對θ0進行懲罰互艾。
其中λ又稱為歸一化參數(shù)(Regularization Parameter)。如果它的值很大讯泣,說明對模型的復雜度懲罰大纫普,對擬合數(shù)據(jù)的損失懲罰小,這樣它就不會過分擬合數(shù)據(jù)好渠,在訓練數(shù)據(jù)上的偏差較大昨稼,在未知數(shù)據(jù)上的方差較小,但是可能出現(xiàn)欠擬合的現(xiàn)象拳锚;如果它的值很小假栓,說明比較注重對訓練數(shù)據(jù)的擬合,在訓練數(shù)據(jù)上的偏差會小霍掺,但是可能會導致過擬合匾荆。經(jīng)過歸一化處理的模型與原模型的可能對比如下圖所示:
如果選擇的歸一化參數(shù)λ過大,則會把所有的參數(shù)都最小化了,導致模型變成hθ(x)=θ0也就是上圖中紅色直線所示的情況,造成低度擬合。
如果我們要使用梯度下降發(fā)令這個代價函數(shù)最小化,因為我們未對θ0進行歸一化杆烁,
對上面的算法中j=1,2,...,n時的更新式子進行調整可得:
可以看出,歸一化線性回歸的梯度下降算法的變化在于,每次都在原有算法更新規(guī)則的基礎上令θ值減少了一個額外的值牙丽。
我們同樣也可以利用正規(guī)方程來求解歸一化線性回歸模型,也就求使J(θ)min的θ,令J(θ)對θj求導的所有導數(shù)等于0连躏,有公式如下:正則化后的線性回歸的Normal Equation的公式為:
同樣對于邏輯回歸,我們也給代價函數(shù)增加一個歸一化的表達式,得到:
要最小化該代價函數(shù),通過求導,得出梯度下降算法為:
注:看上去同線性回歸一樣,但是知道hθ(x)=g(θTX),所以與線性回歸不同剩岳。