無(wú)論在機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)建模當(dāng)中都可能會(huì)遇到兩種最常見(jiàn)結(jié)果宝磨,一種叫過(guò)擬合(over-fitting )另外一種叫欠擬合(under-fitting)。而這兩種情況都會(huì)導(dǎo)致模型性能偏低盅安,那么這兩種情況會(huì)有什么影響又因何而起呢?
影響:
過(guò)擬合:在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好唤锉,在未知數(shù)據(jù)上表現(xiàn)差。
欠擬合:在訓(xùn)練數(shù)據(jù)和未知數(shù)據(jù)上表現(xiàn)都很差别瞭。
原因
過(guò)擬合:在深度學(xué)習(xí)中窿祥,樣本數(shù)據(jù)的特征可以分為局部特征和全局特征,什么是全局特征呢蝙寨?舉個(gè)例子像胡蘿卜的外形顏色晒衩、大體形狀嗤瞎,也可以說(shuō)成是對(duì)應(yīng)數(shù)據(jù)集都具有的特征,而局部特征則是你用來(lái)訓(xùn)練的樣本里的專有的特征听系,機(jī)器在學(xué)習(xí)過(guò)程中是無(wú)法區(qū)別局部特征和全局特征的贝奇,在機(jī)器在完成學(xué)習(xí)后,學(xué)習(xí)到了數(shù)據(jù)的全局特征靠胜,也可能學(xué)習(xí)到一部分局部特征掉瞳,而學(xué)習(xí)到的局部特征比重越多,造成偏差越大浪漠,也舉個(gè)胡蘿卜例子陕习,我在放胡蘿卜的時(shí)候相機(jī)恰好將我手指的圖像采集進(jìn)去,這時(shí)模型不能識(shí)別胡蘿卜郑藏,這時(shí)由于過(guò)分看重專有的特征衡查,而忽略了全局特征瘩欺。主次顛倒必盖。
欠擬合:可以理解為學(xué)的太少。
還有沒(méi)有影響深度學(xué)習(xí)的因素了俱饿?
最近就遇到一個(gè)歌粥,按常理來(lái)說(shuō),數(shù)據(jù)量適量的大拍埠,訓(xùn)練的模型越好失驶,是的對(duì)于有著明確要求限制的東西來(lái)說(shuō),每一類都有明顯的界限枣购,那么此類問(wèn)題還是較好解決的嬉探。然而好多問(wèn)題并不存在明顯界限,我在訓(xùn)練識(shí)別胡蘿卜模型時(shí)棉圈,就發(fā)現(xiàn)數(shù)據(jù)量越大涩堤,模型效果并不是很好,數(shù)據(jù)量小的效果卻很好分瘾。其實(shí)也不怪機(jī)器胎围,人對(duì)這類問(wèn)題都沒(méi)有個(gè)明確定義,何況機(jī)器呢德召。我們所能作的就是盡可能的把這個(gè)分類界限畫的更加明確白魂,這樣才能緩解這問(wèn)題!