機器學(xué)習(xí)領(lǐng)域有個重要假設(shè):IID獨立同分布假設(shè)
假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是滿足相同分布
獨立同分布假設(shè)是通過訓(xùn)練集得到的模型在測試集能有好效果的基本保障。
Batch Normalization作用 :
在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程蝎抽,使得每一層神經(jīng)網(wǎng)絡(luò)的輸入保持相同分布。
神經(jīng)網(wǎng)絡(luò)隨著深度加深蜈敢,訓(xùn)練變得困難。
relu激活函數(shù)汽抚, 殘差網(wǎng)絡(luò)都是解決梯度消失等由于深度帶來的問題抓狭。
BN同樣也是為了解決深度帶來的問題。
Batch Normalization基本思想 :
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中造烁,隨著深度加深否过,輸入值分布會發(fā)生偏移,向取值區(qū)間上下兩端靠近惭蟋,如Sigmoid函數(shù)苗桂,就會導(dǎo)致反向傳播時低層神經(jīng)網(wǎng)絡(luò)的梯度消失,這是深層網(wǎng)絡(luò)收斂越來越慢的重要原因告组。
Batch Normalization通過一定的規(guī)范化手段煤伟,把每層神經(jīng)網(wǎng)絡(luò)輸入值的分布強行拉回到均值為0方差為1的標準正態(tài)分布。(糾偏回正過程)
使得分布回到非線性函數(shù)對輸入比較敏感的區(qū)域木缝,使得損失函數(shù)能發(fā)生較大的變化(梯度變大)便锨,避免梯度消失問題。
同時梯度變大能加快模型收斂速度氨肌,提高訓(xùn)練速度鸿秆。