正則化的作用
正則化是為了防止過(guò)擬合采取的策略总放,主要的正則化方法有L1堆生、L2洞辣、dropout、dropconnect
L2正則化
具體的公式如下:
也就是在原來(lái)的代價(jià)函數(shù)上加上參數(shù)的平方和的均值蓄愁,而λ是超參數(shù)。對(duì)于L2正則化好唯,我們可以理解為在準(zhǔn)確率和參數(shù)約束中取了一個(gè)折中的方案鞋诗,而L2正則化防止過(guò)擬合可以從求導(dǎo)中看出來(lái),C對(duì)于w和b的導(dǎo)數(shù)如下所示:
那么對(duì)于w和b的更新方式就如下所示:
正則化是對(duì)于b沒(méi)有影響的撕捍,而對(duì)于w我們?cè)谑褂锰荻雀轮跋葘?duì)于w進(jìn)行了衰減拿穴,之后根據(jù)梯度的方向來(lái)對(duì)于參數(shù)進(jìn)行更新因?yàn)樵诿恳淮胃碌乃p,所以限制了w的無(wú)止盡擴(kuò)張忧风。更小的權(quán)值w默色,從某種意義上說(shuō),表示網(wǎng)絡(luò)的復(fù)雜度更低狮腿,對(duì)數(shù)據(jù)的擬合剛剛好(這個(gè)法則也叫做奧卡姆剃刀)腿宰,而在實(shí)際應(yīng)用中,也驗(yàn)證了這一點(diǎn)缘厢,L2正則化的效果往往好于未經(jīng)正則化的效果吃度。
對(duì)于mini-batch更新,正則化有所不同:
m是一個(gè)mini-batch中樣本的個(gè)數(shù)贴硫。
L1正則化
主要方法是:
這種正則化方式的導(dǎo)數(shù)為:
那么權(quán)重w的更新規(guī)則為:
比原始的更新規(guī)則多出了η * λ * sgn(w)/n這一項(xiàng)椿每。當(dāng)w為正時(shí),更新后的w變小英遭。當(dāng)w為負(fù)時(shí)间护,更新后的w變大——因此它的效果就是讓w往0靠,使網(wǎng)絡(luò)中的權(quán)重盡可能為0挖诸,也就相當(dāng)于減小了網(wǎng)絡(luò)復(fù)雜度汁尺,防止過(guò)擬合。
dropout
講起來(lái)很簡(jiǎn)單多律,就是隨機(jī)失活痴突,讓某些神經(jīng)元的輸出為0,這樣BP后也是0菱涤,相當(dāng)于只使用完整網(wǎng)絡(luò)的一部分來(lái)訓(xùn)練苞也。在每一次迭代中選擇不同的神經(jīng)元來(lái)失活,也就是嗎粘秆,每一次迭代都得到網(wǎng)絡(luò)的一部分如迟,最后將這數(shù)個(gè)更加泛化的網(wǎng)絡(luò)整合進(jìn)行預(yù)測(cè),可以有效防止過(guò)擬合。
dropconnect
dropout是使神經(jīng)元失活殷勘,輸出為0此再,而dropconnect是使參數(shù)w失活,置為0玲销,比dropout更加徹底输拇,但是效果并沒(méi)有顯著提高,同時(shí)計(jì)算量更大贤斜。所以沒(méi)有廣泛使用