第一周 深度學(xué)習(xí)的實用層面
一般訓(xùn)練集和測試集比例是 7:3 or 6:2:2,但是在大數(shù)據(jù)時代(數(shù)據(jù)超過百萬)我們可以將測試集和交叉驗證集的比例縮小。甚至可以是98:1:1,超過百萬的确丢,可以99.5:0.25:0.25.
并且訓(xùn)練集和測試集的數(shù)據(jù)要服從同一分布!
圖一不能很好擬合數(shù)據(jù)肌蜻,underfitting豆挽,圖三over fitting
這里提到了個optimal error,就是用人眼來辨別踩叭,當(dāng)作誤差的基準(zhǔn)锻狗。
為什么L2正則項可以防止過擬合呢?當(dāng)λ變大潦嘶,則w(權(quán)重矩陣)的某些值就變成了0涩嚣,這意味著模型將從high variance過渡到high bias。下圖使用了個更明顯的激活函數(shù)來闡述這個問題掂僵。
drop out(隨機(jī)失活)正則航厚。在網(wǎng)絡(luò)中每一個節(jié)點都以0.5的概率選擇刪去或者保留該節(jié)點,最后會得到一個不是那么大的網(wǎng)絡(luò)锰蓬,雖然方法很簡單幔睬,但是它的確有用。
dropout和L2正則化很像互妓,通常用在計算機(jī)視覺方向溪窒,因為數(shù)據(jù)過少,很容易引起過擬合冯勉。我們可以在容易發(fā)生過擬合的層時(節(jié)點數(shù)目過大)時將keep prob值設(shè)置的小點澈蚌,不同的層可以使用不同數(shù)值的keep prob.它的缺點是破壞了損失函數(shù)J
還有一些其他的正則化方法。比如說數(shù)據(jù)擴(kuò)增:1.將圖片反轉(zhuǎn)加到數(shù)據(jù)集里灼狰,將圖片旋轉(zhuǎn)宛瞄,放大,將數(shù)字扭曲變形等交胚,2.early stopping份汗,可以繪制出dev-set train-set的損失函數(shù)J曲線,并選擇合適的時候停止梯度下降蝴簇,缺點是J不能得到很好的優(yōu)化杯活,沒有到足夠低,并且一個時刻做了兩件事熬词,有點傷旁钧。
歸一化輸入
在層數(shù)很多的神經(jīng)網(wǎng)絡(luò)中,很容易發(fā)生梯度消失和梯度爆炸
雙邊誤差比單邊更加準(zhǔn)確互拾,所以梯度校驗時采用2e來做歪今。
梯度校驗some tips:
第二周 優(yōu)化算法
Mini -batch
指數(shù)加權(quán)平均
動量梯度下降
第三周:超參數(shù)調(diào)試
不要使用網(wǎng)格,因為不同的參數(shù)有不同的重要性颜矿,隨機(jī)取值寄猩,α能夠取到更多的值,可能會取到更好效果的值骑疆。當(dāng)搜索時田篇,可以先搜索大范圍的替废,然后再縮小范圍搜索。~
在對數(shù)軸上取數(shù)~泊柬。有點技巧舶担。
超參數(shù)的搜索過程,當(dāng)然~要視應(yīng)用而定彬呻。
歸一化輸入衣陶,使訓(xùn)練加快惹,上邊是邏輯回歸時用方差歸一化輸入
Batch歸一化:對隱藏層進(jìn)行歸一化闸氮,而且不僅僅使用方差和均值剪况,還加入了參數(shù)使得可以任意調(diào)節(jié)
注意。batch norm是在計算激活函數(shù)前就要?dú)w一化的
用mini-batch與batch norm結(jié)合在一起蒲跨∫攵希可以把b參數(shù)去掉
batch norm的作用~!減少covariate shift的影響或悲,whichmeans 前層參數(shù)的變化會影響后面的訓(xùn)練孙咪。每一層都?xì)w一化后,可以使得參數(shù)shift的不那么快巡语,有助于加速訓(xùn)練翎蹈、而且還帶來了一點意想不到的作用“正則化~”
softmax歸一化:處理最后分類結(jié)果是多分類的