一灶似、方差逸月、偏差與欠擬合疲扎、過擬合概念
? ? ? ? 1.方差:描述模型對于給定值的輸出穩(wěn)定性.絮蒿。(強調(diào)個體結(jié)果與個體期望的遠近)
? ? ? ? 2.偏差:描述模型輸出結(jié)果的期望與樣本真實結(jié)果的差距。(強調(diào)整體結(jié)果與期望的遠近 )
? ? ? ? 3.欠擬合:模型不夠復雜或者訓練數(shù)據(jù)過少時绩卤,模型均無法捕捉訓練數(shù)據(jù)的基本(或者內(nèi)在)關(guān)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 系途样,會出現(xiàn)偏差江醇。這樣一來,模型一直會錯誤地預測數(shù)據(jù)何暇,從而導致準確率降低陶夜。? ? ? ? ? ? ? ? ? ? ? ? ? ? 這種現(xiàn)象稱之為模型欠擬合。
? ? ? ? 4.過擬合:模型過于復雜或者沒有足夠的數(shù)據(jù)支持模型的訓練時裆站,模型含有訓練集的特有信? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 息条辟,對訓練集過于依賴,即模型會對訓練集高度敏感宏胯,這種現(xiàn)象稱之為模型過擬合羽嫡。
? ? ? ? ?注:高方差->過擬合;高偏差->欠擬合
二肩袍、類比靶向圖
左上角表示(低偏差杭棵,低方差),這是最理想的狀況了牛;
右上角表示(低偏差颜屠,高方差)辰妙,低偏差導致預測結(jié)果與真實結(jié)果很近鹰祸,高方差導致個體預測結(jié)果不穩(wěn)定,比較不集中密浑;
左下角表示(高偏差蛙婴,低方差),高偏差導致預測結(jié)果與真實結(jié)果很遠尔破,低方差導致個體預測結(jié)果穩(wěn)定街图,比較集中;
右下角表示(高偏差懒构,高方差)餐济,高偏差導致預測結(jié)果與真實結(jié)果很遠,高方差導致個體預測結(jié)果不穩(wěn)定胆剧,比較不集中絮姆;
三、學習曲線
左上角是最優(yōu)情況秩霍,隨著樣本的增加篙悯,train error雖然有一定的增加嗎,但是 test error卻有很明顯的降低铃绒;
右上角是最差情況鸽照,train error很大,模型并沒有從特征中學習到什么颠悬,導致test error非常大矮燎,模型幾乎無法預測數(shù)據(jù)定血,需要去尋找數(shù)據(jù)本身和訓練階段的原因;
左下角是high variance的情況诞外,train error雖然較低糠悼,但是模型產(chǎn)生了過擬合,缺乏泛化能力浅乔,導致test error很高倔喂;
右下角是high bias的情況,train error很高靖苇,這時需要去調(diào)整模型的參數(shù)席噩,減小train error。