近似誤差:可以理解為對現(xiàn)有訓練集的訓練誤差。
近似誤差,更關注于“訓練”呆细。
如果近似誤差小了會出現(xiàn)過擬合的現(xiàn)象侨嘀,對現(xiàn)有的訓練集能有很好的預測臭挽,但是對未知的測試樣本將會出現(xiàn)較大偏差的預測。模型本身不是最接近最佳模型咬腕。
估計誤差:可以理解為對測試集的測試誤差欢峰。
估計誤差,更關注于“測試”涨共、“泛化”纽帖。
估計誤差小了說明對未知數(shù)據(jù)的預測能力好。模型本身最接近最佳模型举反。
以下是大神的見解:
近似誤差其實可以理解為模型估計值與實際值之間的差距懊直。
估計誤差其實可以理解為模型的估計系數(shù)與實際系數(shù)之間的差距。
在kNN中設定的k值越小火鼻,得出的模型是越復雜的室囊,因為k值越小會導致特征空間被劃分成更多的子空間(可以理解為模型的項越多)。而k值越大得到的模型其實是越簡單的 - - 所以當k值越小魁索,對于訓練集的預測更加精確融撞,近似誤差會越小(因為你選擇了更加復雜的模型去預測訓練集)粗蔚。當k值越大尝偎,對于訓練集的預測則不會那么準確,所以近似誤差會越大(因為你選擇了更加簡單的模型去預測)鹏控。
而另一方面致扯,由于設定了比較小的k值趁窃,模型比較復雜就會產(chǎn)生過度擬合(overfitting)的問題。
如上圖中對于這個訓練集而言急前,其實選擇3次多項式來作為預測模型是與實際模型最符合的醒陆,可是當選擇9次多項式的話(對應k值越小)裆针,雖然對訓練集的預測非常準確(近似誤差越信倌Α),但是這是一個明顯的過度擬合問題(overfitting)世吨,得出的預測模型的估計誤差相對于3次多項式其實是更大的澡刹。