如何處理欠擬合域庇、過擬合?

在我們機器學習和深度學習的訓練過程中覆积,經(jīng)常會出現(xiàn)過擬合和欠擬合的現(xiàn)象听皿。訓練一開始,模型通常會欠擬合宽档,所以會對模型進行優(yōu)化尉姨,然而等到訓練到一定程度的時候,就需要解決過擬合的問題了吗冤。

如何判斷過擬合呢又厉?我們在訓練過程中會定義訓練誤差,驗證集誤差椎瘟,測試集誤差(泛化誤差)覆致。訓練誤差總是減少的,而泛化誤差一開始會減少肺蔚,但到一定程序后不減反而增加煌妈,這時候便出現(xiàn)了過擬合的現(xiàn)象。

如下圖所示,從直觀上理解璧诵,欠擬合就是還沒有學習到數(shù)據(jù)的特征汰蜘,還有待繼續(xù)學習,而過擬合則是學習進行的太徹底腮猖,以至于把數(shù)據(jù)的一些局部特征或者噪聲帶來的特征都給學到了鉴扫,所以在進行測試的時候泛化誤差也不佳赞枕。

如何處理欠擬合

欠擬合是由于學習不足澈缺,可以考慮添加特征,從數(shù)據(jù)中挖掘出更多的特征炕婶,有時候還需要對特征進行變換姐赡,使用組合特征和高次特征。

模型簡單也會導(dǎo)致欠擬合柠掂,例如線性模型只能擬合一次函數(shù)的數(shù)據(jù)项滑。嘗試使用更高級的模型有助于解決欠擬合,如使用SVM涯贞,神經(jīng)網(wǎng)絡(luò)等枪狂。

正則化參數(shù)是用來防止過擬合的,出現(xiàn)欠擬合的情況就要考慮減少正則化參數(shù)宋渔。

如何處理過擬合

過擬合是由于學習的太徹底州疾,這可能是由于訓練數(shù)據(jù)量太少的緣故』始穑可以增大數(shù)據(jù)的訓練量严蓖,訓練數(shù)據(jù)要足夠大才能使得數(shù)據(jù)中的特征被模型學習到。還需要清洗數(shù)據(jù)氧急,盡量減少數(shù)據(jù)中的噪聲颗胡,以防止這些噪聲被模型學習到。

正則化方法也常用來處理過擬合吩坝,正則化包括L1正則化和L2正則化毒姨,正則項通常是一個范數(shù)。L1范數(shù)是指向量中各個元素絕對值之和钉寝,也叫“稀疏規(guī)則算子”手素,通常可以用來做特征選擇瘩蚪,在嵌入式特征選擇使用的就是L1范數(shù)泉懦。L2范數(shù)是指向量各元素的平方和然后求平方根,通常的結(jié)果會使權(quán)重參數(shù)變小疹瘦,使得模型的復(fù)雜度變低崩哩,符合奧卡姆剃刀原則,以防止過擬合。

在神經(jīng)網(wǎng)絡(luò)中經(jīng)常使用Dropout方法邓嘹,或者稱之為隨機失活酣栈,每次訓練的時候隨機去掉一部分隱藏層的神經(jīng)元,可以理解為每個神經(jīng)元隨機參與汹押,相當于多個模型集成矿筝。

提前終止(early stoppping)也是神經(jīng)網(wǎng)絡(luò)常使用的方法,可以防止模型復(fù)雜度過于增加棚贾,從而防止過擬合窖维。采用交叉驗證提前終止,當交叉驗證錯誤率最小時認為泛化性能最好妙痹,這時即使訓練集錯誤率仍然下降铸史,也終止訓練。

逐層歸一化(batch normalization)怯伊,給每層的輸出做歸一化(相當于加了一個線性變換層)琳轿,這樣使得下一層的輸入相當于高斯分布(正態(tài)分布),這個方法相當于下一層的權(quán)重參數(shù)訓練時避免了其輸入以偏概全, 因而泛化效果也比較好耿芹。

不過崭篡,數(shù)據(jù)在訓練過程中始終是最重要的,有時候往往擁有更多的數(shù)據(jù)勝過一個好的模型吧秕,這要求得到更多獨立同分布的數(shù)據(jù)來進行訓練琉闪。

歡迎大家關(guān)注公眾號“計算機視覺與機器學習”


計算機視覺和機器學習
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市寇甸,隨后出現(xiàn)的幾起案子塘偎,更是在濱河造成了極大的恐慌,老刑警劉巖拿霉,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吟秩,死亡現(xiàn)場離奇詭異,居然都是意外死亡绽淘,警方通過查閱死者的電腦和手機涵防,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來沪铭,“玉大人壮池,你說我怎么就攤上這事∩钡。” “怎么了椰憋?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赔退。 經(jīng)常有香客問我橙依,道長证舟,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任窗骑,我火速辦了婚禮女责,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘创译。我一直安慰自己抵知,他們只是感情好,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布软族。 她就那樣靜靜地躺著刷喜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪互订。 梳的紋絲不亂的頭發(fā)上吱肌,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天痘拆,我揣著相機與錄音仰禽,去河邊找鬼。 笑死纺蛆,一個胖子當著我的面吹牛吐葵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播桥氏,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼温峭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了字支?” 一聲冷哼從身側(cè)響起凤藏,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎堕伪,沒想到半個月后揖庄,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡欠雌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年蹄梢,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片富俄。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡禁炒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出霍比,到底是詐尸還是另有隱情幕袱,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布悠瞬,位于F島的核電站们豌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玛痊,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一汰瘫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧擂煞,春花似錦混弥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蒿涎,卻和暖如春哀托,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劳秋。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工仓手, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人玻淑。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓嗽冒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親补履。 傳聞我的和親對象是個殘疾皇子添坊,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容