吳恩達(dá) DeepLearning.ai
總結(jié):大牛介紹的特別清晰爵政,連筆記都那么的清晰- -
已移步至 語雀
第二節(jié)課---改善深層神經(jīng)網(wǎng)絡(luò):超參數(shù)調(diào)試侮措、正則化以及優(yōu)化
訓(xùn)練哼转、驗(yàn)證、測試集
小數(shù)據(jù)時(shí)代,按70%溪烤,30%(或60%,20%庇勃,20%)的比例劃分是非常合理的檬嘀。在大數(shù)據(jù)時(shí)代,這個(gè)比例趨向變得更小责嚷。保證三個(gè)數(shù)據(jù)集來自同一分布鸳兽。
偏差、方差的權(quán)衡
1.存在高偏差:增加網(wǎng)絡(luò)結(jié)構(gòu)罕拂,如增加隱藏層數(shù)目揍异;訓(xùn)練更長時(shí)間;尋找合適的網(wǎng)絡(luò)架構(gòu)爆班,使用更大的NN結(jié)構(gòu)
2.存在高方差:獲取更多的數(shù)據(jù)衷掷;正則化;尋找合適的網(wǎng)絡(luò)結(jié)構(gòu)
正則化
1.L1柿菩、L2正則
2.Dropout正則化:dropout的一大缺點(diǎn)就是其使得 Cost function不能再被明確的定義戚嗅,因?yàn)槊看蔚紩?huì)隨機(jī)消除一些神經(jīng)元結(jié)點(diǎn),所以我們無法繪制出每次迭代下降的圖。
3.其他正則化方法:數(shù)據(jù)擴(kuò)增懦胞、提前終止替久、歸一化輸入、
梯度消失和爆炸
1.利用初始化緩解梯度消失和爆炸問題医瘫,不同激活函數(shù)對(duì)應(yīng)不同的初始化方法
2.選擇不同的激活函數(shù)
采用mini-batch梯度下降法
使用不同的優(yōu)化器
學(xué)習(xí)率衰減
局部最優(yōu)問題
在高緯度的情況下侣肄,幾乎不可能陷入局部最小值點(diǎn)旧困;處于鞍點(diǎn)的停滯區(qū)會(huì)減緩學(xué)習(xí)過程醇份,利用如Adam等算法進(jìn)行改善
為超參數(shù)選擇合適的范圍
在神經(jīng)網(wǎng)絡(luò)中融入batch norm
1.可以加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,和輸入層輸入特征歸一化原理一致
2.Batch Norm 可以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的另外一個(gè)原因是它可以使權(quán)重比網(wǎng)絡(luò)更滯后或者更深層:Batch Norm的作用便是其限制了前層的參數(shù)更新導(dǎo)致對(duì)后面網(wǎng)絡(luò)數(shù)值分布程度的影響吼具,使得輸入后層的數(shù)值變得更加穩(wěn)定僚纷。另一個(gè)角度就是可以看作,Batch Norm 削弱了前層參數(shù)與后層參數(shù)之間的聯(lián)系拗盒,使得網(wǎng)絡(luò)的每層都可以自己進(jìn)行學(xué)習(xí)怖竭,相對(duì)其他層有一定的獨(dú)立性,這會(huì)有助于加速整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)
3.有輕微正則化的效果
4.如果訓(xùn)練時(shí)使用了batch norm陡蝇,測試集也需要使用batch norm
softmax
第三節(jié)課---結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目
參考machine learning yearning - andrew ng