過擬合
特征多了嗜暴,模型對當前的樣本高度擬合,但一旦換一組樣本议蟆,會出現(xiàn)極大的偏差闷沥。
我們?nèi)绾谓鉀Q過擬合的問題呢?
- 減少特征(人為選擇或者利用算法模型)
- 正則化
代價函數(shù)
腦洞
不減少特征咐容,又希望特征對結(jié)果影響越小越好舆逃,那么只能在優(yōu)化時將特征的系數(shù)納入考慮,特征系數(shù)為0的越多越好,那么式子里面雖然特征還是那么多路狮,但是實際上結(jié)果不受特征的影響虫啥。
比如說xk這個特征我覺得不那么重要,其系數(shù)是θk奄妨,那么我在代價函數(shù)后面就加上1000θk^2涂籽,這樣,在最小化代價函數(shù)的時候砸抛,就對θk的大小做了約束评雌。
正則化
對所有的特征都做同等約束
新的代價函數(shù)
如果λ過大了,那么可能導致欠擬合直焙,所以λ值的選取很重要景东;λ小了,可能效果不明顯奔誓,還是出現(xiàn)過擬合斤吐。