Where does the error comes from
Bias and Variance
- error 的來源有兩種—bias(偏差) 和 variance(方差)
- 由上圖可形象看出“偏差”是樣本擬合出的結(jié)果的期望與樣本真實(shí)結(jié)果的差距大小
- 而方差是擬合出的結(jié)果表現(xiàn)是否優(yōu)良的穩(wěn)定性串前。
Bias
- 代表客觀存在的真實(shí)值瘫里,m的期望是和相等的
- 表示在樣本上擬合程度(樣本和真實(shí)情況的偏差)实蔽,low bias 代表在這些樣本上擬合的好荡碾,所以就得復(fù)雜化模型(即,增加參數(shù))局装,容易o(hù)verfitting(即坛吁,high variance)
- 解決方案:更多的參數(shù),更復(fù)雜的模型
- 形象化語言:集中容易偏铐尚,分散容易中拨脉;畫的線越貼合樣本值,誤差的點(diǎn)就越散開
Variance
- 那如何得到呢宣增?通過來近似得到
- 的期望會略微小于玫膀,隨著N的增大會越接近
- 表示在測試集上的表現(xiàn)情況,low variance 代表在測試集上表現(xiàn)穩(wěn)定爹脾,所以就需要簡化模型帖旨,(即,減少參數(shù))灵妨,容易u(yù)nderfitting(即解阅,high bias)
- 解決方案:更多的訓(xùn)練數(shù)據(jù),正則化
模型選擇—Cross Validation(交叉驗(yàn)證)
- 訓(xùn)練集中得到最小的Error(0.5)的model泌霍,并且在測試集上得到了Error最小(0.5)的情況货抄,在真實(shí)場景下,大多數(shù)的情況會比0.5大朱转,所以在實(shí)驗(yàn)室并不能得到一個(gè)在真實(shí)場景下的的error蟹地。
- 此時(shí)需要把Training Set拆分成Training Set和Validation Set,在Training Set和Validation Set上得到的最小error的值藤为,放到整個(gè)Training Set中測試一遍怪与,得到的error會更加接近真實(shí)情況。甚至可以分成兩個(gè)Training Set和一個(gè)Validation Set凉蜂。
- 真實(shí)的情況是琼梆,會有k折交叉驗(yàn)證