這篇文章帶你徹底搞清過擬合负拟,正則化和Lx范式。
什么是過擬合歹河?
我們常常在機(jī)器學(xué)習(xí)中聽到正則化和L0掩浙,L1,L2范式秸歧,這些到底是什么意思厨姚,怎么用的?
其實(shí)正則化存在是為了減少過擬合的键菱?對了谬墙,我們也經(jīng)常聽到欠擬合和過擬合,在說這些概念前先聽一個(gè)故事:
諾貝爾獎(jiǎng)獲得者物理學(xué)家恩里科-費(fèi)米有次在被問到對同僚提出的一個(gè)數(shù)學(xué)模型意見经备,模型和實(shí)驗(yàn)非常匹配拭抬,但費(fèi)米對其產(chǎn)生了懷疑。他問模型需要設(shè)置的自由參數(shù)有多少個(gè)侵蒙。答案是四個(gè)造虎,費(fèi)米說:“我的朋友約翰馮諾依曼過去常說,有四個(gè)參數(shù)纷闺,我可以模擬一頭大象算凿,而有五個(gè)參數(shù),我能讓他卷鼻子犁功∶ズ洌”
看到這聰明的朋友可能知道了,過擬合就是學(xué)的特征太多浸卦,噪聲也學(xué)了署鸡,擬合能力極強(qiáng),就像你問到你是哪里人呢限嫌,我說地球人靴庆,這就沒有意義了,因?yàn)榭床坏奖举|(zhì)了萤皂,在測試集上效果往往不好撒穷,失去對未知場景預(yù)測,所以自由參數(shù)多并不一定是一個(gè)好的模型裆熙。
如何減少過擬合端礼?
過擬合是神經(jīng)網(wǎng)絡(luò)的主要問題之一禽笑,因?yàn)閎ias和權(quán)重的數(shù)量巨大,我們要找到一些技術(shù)來降低過擬合的影響蛤奥。
- 當(dāng)觀測測試集準(zhǔn)確率不提升時(shí)停止訓(xùn)練佳镜,這叫做提前截止,但是我們不知道什么時(shí)候飽和凡桥,pass掉
- 一般來說蟀伸,最好的方式是增加訓(xùn)練樣本的量,當(dāng)有了足夠的訓(xùn)練數(shù)據(jù)就算再大的網(wǎng)絡(luò)也不太容易過擬合缅刽,這也是不太實(shí)際的選擇啊掏,數(shù)據(jù)是珍貴的資源,明白了吧衰猛,pass掉
當(dāng)然我們不用悲觀迟蜜,另一種可行方法就是減少網(wǎng)絡(luò)的規(guī)模,但是大比小好吧啡省, 最后神器粗線了娜睛,那就是Regularize(規(guī)范/正則化)。
正則化本質(zhì)
看到上圖沒卦睹,也就是對我們構(gòu)造的目標(biāo)函數(shù)添加了個(gè) r(d)項(xiàng)畦戒,r(d)可以理解為有d的參數(shù)進(jìn)行約束,或者 D 向量有d個(gè)維度结序。這樣的約束可以解釋為先驗(yàn)知識(shí)(正則化參數(shù)等價(jià)于對參數(shù)引入先驗(yàn)分布)障斋。約束有引導(dǎo)作用,在優(yōu)化誤差函數(shù)的時(shí)候傾向于選擇滿足約束的梯度減少的方向笼痹,使最終的解傾向于符合先驗(yàn)知識(shí)(如一般的l-norm先驗(yàn)配喳,表示原問題更可能是比較簡單的,這樣的優(yōu)化傾向于產(chǎn)生參數(shù)值量級(jí)小的解凳干,一般對應(yīng)于稀疏參數(shù)的平滑解)。同時(shí)正則化被济,解決了逆問題的不適定性救赐,產(chǎn)生的解是存在,唯一同時(shí)也依賴于數(shù)據(jù)的只磷,噪聲對不適定的影響就弱经磅,解就不會(huì)過擬合,而且如果先驗(yàn)(正則化)合適钮追,則解就傾向于是符合真解(更不會(huì)過擬合了)预厌,即使訓(xùn)練集中彼此間不相關(guān)的樣本數(shù)很少。
比如我們都很熟悉的最小二乘估計(jì)和loss估計(jì)2范式嚴(yán)格小于后者元媚,這在數(shù)學(xué)上可以證明轧叽,前者苗沧,他倆之間就差別了個(gè)正則項(xiàng),有大神認(rèn)為炭晒,這個(gè)正則項(xiàng)的加入待逞,在某種意義上讓估計(jì)出的(向量)參數(shù)變短了(數(shù)學(xué)上叫shrinkage),相當(dāng)于某些分量細(xì)微變小進(jìn)而質(zhì)變導(dǎo)致總體程度上被壓縮到0网严。壓縮到零比如 0x识樱,這就沒有意義的特征就可以去掉,貌似是達(dá)到了減輕擬合的目的哈震束。
擴(kuò)展閱讀:Linear least squares, Lasso,ridge regression有何本質(zhì)區(qū)別怜庸?
L0,L1,L2是什么東東
L0,L1,L2就是對于上面那個(gè)約束r()的選擇。
L0范數(shù)是指向量中非0的元素的個(gè)數(shù)垢村。我們都希望這個(gè)矩陣越稀疏越好巴不得都是0呢休雌。
L1范數(shù)是指向量中各個(gè)元素絕對值之和,L1范數(shù)是L0范數(shù)的最優(yōu)凸近似肝断,而且它比L0范數(shù)要容易優(yōu)化求解
L2范數(shù)是指向量各元素的平方和然后求平方根杈曲,實(shí)現(xiàn)了對模型空間的限制,它的美稱我們都見過胸懈,一個(gè)叫嶺回歸担扑,另一個(gè)也叫 權(quán)重衰減
擴(kuò)展閱讀:機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之(一)L0、L1與L2范數(shù)
為什么正則化可以減輕過擬合
除了上文我們那個(gè)本質(zhì)解釋趣钱,通常的說法:小的權(quán)重在某種程度上意味著更低的復(fù)雜性涌献,也對數(shù)據(jù)給出了一種更簡單卻強(qiáng)大的因素。這滿足奧卡姆剃刀原則首有,在實(shí)現(xiàn)同樣效果時(shí)選擇最簡單那個(gè)燕垃。在規(guī)范過的網(wǎng)絡(luò)中,更小的權(quán)重意味著網(wǎng)絡(luò)的行為不會(huì)因?yàn)槲覀冸S便改變了一個(gè)輸入而改變太大井联。另外我們規(guī)范并不會(huì)bias卜壕,因?yàn)榇蟮腷ias不會(huì)像權(quán)重那樣對神經(jīng)元敏感,所以大的bias帶來噪聲不必?fù)?dān)心烙常,同時(shí)轴捎,大的bias能夠讓網(wǎng)絡(luò)更加靈活,以為蚕脏,大的bias讓神經(jīng)元更容易飽和侦副。
還有其他的規(guī)范化方法就不說了,沒有上面幾個(gè)常見驼鞭。開發(fā)強(qiáng)大的規(guī)范化技術(shù)來減輕過擬合是當(dāng)前領(lǐng)域研究的活躍方面秦驯。