方差
variance和bias
減少bias和variance的方法
這里有一個(gè)trade off。因?yàn)閎ias和variance也在相互影響。
正則化:有助于減少過(guò)擬合。
L1正則化使模型變得稀疏运敢。(w中有很多0)
正則化參數(shù)lamda通過(guò)驗(yàn)證集來(lái)確定。
L2正則化也被稱為“權(quán)重衰減”
注意在神經(jīng)網(wǎng)絡(luò)后向傳播中dw的更新
正則化參數(shù)變大--->w變兄沂邸(因?yàn)閏ost founction 變大了)传惠。當(dāng)z變小時(shí),激活函數(shù)在0附近接近線性(以tanh為例)稻扬。故每一層神經(jīng)網(wǎng)絡(luò)接近線性卦方。從而防止發(fā)生過(guò)擬合。
dropout:通過(guò)概率隨機(jī)刪除一些節(jié)點(diǎn)
inverted dropout:在保證減少節(jié)點(diǎn)的同時(shí)泰佳,保持a的期望不變
歸一化:將x1和x2的方差都變?yōu)?.期望變?yōu)?:(可以更快速的訓(xùn)練模型)
梯度消失與爆炸:網(wǎng)絡(luò)中盼砍,激活函數(shù)以指數(shù)增加或減少