一厕宗、過度擬合
對于圖中的例子压怠,
可以看出第一幅圖中使用一個變量從而用一條直線來擬合數(shù)據(jù),可以看出效果不好滚秩,偏差很大,因此奈偏,定義其為:欠擬合(underfit)坞嘀,高偏差(high bias);
第三幅圖中惊来,使用多個變量丽涩,高次數(shù)來擬合數(shù)據(jù),可以看出全部數(shù)據(jù)都能很好的擬合裁蚁,但是這種情況導致擬合函數(shù)變量過多矢渊,復雜度高,對于新的樣本擬合度欠佳厘擂,因此無法泛化到其他樣本昆淡,稱其為:過度擬合(overfit),*高方差 (high variance)
因此刽严,過度擬合的特點如下:
看看另一個例子
對于第一個圖昂灵,使用兩個變量,可以擬合出一條直線舞萄,可以看出效果不是很好眨补,這也是一個欠擬合的例子。
對于第二個圖中倒脓,增加了假如了一些二次項撑螺,很好的擬合了數(shù)據(jù),可以說是訓練集訓練出的最好擬合結果崎弃。
對于第三個圖中甘晤,使用了很多的高階項,會使邏輯回歸自身扭曲饲做,過度擬合了數(shù)據(jù)线婚,形成圖中的決策邊界。這是一個過度擬合的例子盆均。
二塞弊、解決過度擬合
同樣在這個問題中,假設我們只有很少的樣本數(shù)量泪姨,并且樣本的特征值很多的時候游沿,那么就會出現(xiàn)過度擬合的問題。
解決這個問題有兩個思路肮砾,
第一種方法就是【減少特征的數(shù)量】:通過【人工檢查】來決定或者使用【模型選擇算法】自動選擇诀黍,這兩個措施都可以解決過擬合,然而會去掉一些特征仗处,但是我們有時候并不想舍棄一些看起來有用的特征蔗草。
第二種方法就是【正規(guī)化】:保留所有的特征咒彤,但是減少參數(shù)theta(j)的量級(magnitude)或者大小(value)咒精。這種措施能夠很好的作用镶柱,使得當有很多特征時,每一個特征將會對預測值y產(chǎn)生一點影響模叙。
下面我們介紹正規(guī)化歇拆。
三、 正規(guī)化(regularization)
這個圖中范咨,我們根據(jù)前面的知識知道圖二過擬合故觅,一般性不好。在所有的特征中渠啊,我們根據(jù)關聯(lián)度來抉擇那個特征的權重输吏,也就是特征的親疏關系,如果特征的重要性不高的話替蛉,那么我們就通過某種方法降低這個特征的影響力贯溅,這種方法就是正規(guī)化。
如圖中躲查,我們假設theta(3),theta(4)的權重不高它浅,也就是他們兩個參數(shù)的關聯(lián)度不夠重要,我們需要降低他們兩個的影響镣煮。
那么我們通過在代價函數(shù)中通過增加后面兩個式子姐霍,這樣在計算某個theta的最小值時,
例如計算theta(3)的時候典唇,后面增加了1000*theta(3)^2,要使得代價函數(shù)最小镊折,那么我們可以知道,theta(3)的值必須趨近于0的時候介衔,整個代價函數(shù)才能夠得到最小值腌乡。
這樣的結果,最終我們可以獲得更小的theta(3),theta(4)的值夜牡,那么在擬合函數(shù)里面,
,theta(3),theta(4)的影響力下降侣签,整個式子接近與二次函數(shù)塘装,從而擬合度更好!
正規(guī)化的好處于:
1.更簡單的擬合函數(shù)
2.不易發(fā)生過擬合問題
在這個問題中影所,可以看到有100個特征蹦肴,101個參數(shù),類似的猴娩,在很多問題中阴幌,我們不知道這些特征的關聯(lián)度勺阐,因此無法很好的選擇該“懲罰”那個特征,因此我們就對所有的參數(shù)進行收縮懲罰矛双,【下標從1開始的】
因此渊抽,正規(guī)化的公式如下:
這里有一個問題,當我們隨意選擇labmda的時候议忽,假設我們使得lambda很大懒闷,
會發(fā)生什么情況呢?
有前面的思路栈幸,我們可以知道愤估,labmda越大,那么參數(shù)theta(1),theta(2)..都會變得非常小速址, 那么擬合函數(shù)就如圖中成為了一個常數(shù)函數(shù)直線theta(0)玩焰,造成的結果就是【欠擬合】
四、正規(guī)化在線性規(guī)劃的應用
在這張圖片中芍锚,我們將正規(guī)化的代價函數(shù)應用到梯度下降算法中昔园,可以看到之后新的迭代公式,其中闹炉,
為啥會是小于1的呢蒿赢?alpha一般很小,而且m是很大的存在渣触,一般差值為0.99羡棵?有點不明白。
對于線性規(guī)劃的另一種方法---正規(guī)方程
【暫且不懂】
五嗅钻、線性規(guī)劃對于邏輯回歸的應用
正規(guī)化的代價函數(shù)如圖皂冰,
應用于梯度下降,迭代公式如圖养篓,