過擬合(over-fitting)
過擬合:過于強調(diào)擬合原始數(shù)據(jù)也殖,而丟失了算法的本質(zhì):預(yù)測新數(shù)據(jù)涌庭。
欠擬合 恰好 過擬合 三者對比
分類問題中也存在類似的問題:
解決辦法:
- 丟棄一些不能幫助正確預(yù)測的特征
手工選擇保留哪些特征或者使用一些模型選擇的算法(例如PCA) - 正則化(magnitude)
保留所有的特征养盗,但是減少參數(shù)的大小蕊连。
調(diào)整代價函數(shù)
回歸模型
正是高次項導(dǎo)致了過擬合的產(chǎn)生窝稿。
目標
:讓高次項系數(shù)接近于0吓坚。
修改代價函數(shù):
為和
設(shè)置懲罰
問題
:并不知道其中哪些特征需要懲罰
思路
:對所有特征進行懲罰,讓代價函數(shù)最優(yōu)化的軟件來選擇這些懲罰的程度是牢。
注:通常不對
進行懲罰僵井。
分析:
-
過大,除
以外其他所有參數(shù)都較小驳棱,模型變成
批什,是一條平行于
的直線,導(dǎo)致欠擬合社搅。
正則化線性回歸
- 梯度下降求解
可以看到驻债,每次除了以外
均在原有的算法更新規(guī)則的基礎(chǔ)上減少了一個額外的值。
- 正規(guī)方程求解
正則化的邏輯回歸模型
對于邏輯回歸形葬,也給代價函數(shù)增加一個正則化的表達式合呐,得到:
增加一項
計算過程同上文的線性回歸,但是由于模型不同笙以,所以二者有本質(zhì)不同淌实。
注意:
不參與任何一個正則化。