文章提出了將批處理作為模型本身的一部分已脓。
批處理的平均損失是對(duì)整個(gè)數(shù)據(jù)集的估計(jì)珊楼;批處理可以利用數(shù)據(jù)并行提高訓(xùn)練速度。深度學(xué)習(xí)需要謹(jǐn)慎調(diào)整模型參數(shù)度液,并且網(wǎng)絡(luò)的初始化參數(shù)也很重要厕宗。
為什么要用Normalization,文中提到堕担,考慮一個(gè)經(jīng)過sigmoid函數(shù)的網(wǎng)絡(luò)層:
,其中已慢。當(dāng)增大時(shí),趨向于0.這會(huì)使得對(duì)參數(shù)的求導(dǎo)也趨向于0霹购,使得訓(xùn)練速度變慢佑惠。
然而,由于受齐疙,和下面所有層的參數(shù)的影響膜楷,在訓(xùn)練期間對(duì)這些參數(shù)的改變可能將的許多維度移動(dòng)到非線性的飽和狀態(tài)并且減慢收斂。隨著網(wǎng)絡(luò)深度的增加贞奋,這種效應(yīng)會(huì)得到放大(這一塊兒不是很理解)把将。在實(shí)際操作中,飽和問題和梯度消失問題都用線性修正單元(ReLU)忆矛、慎重初始化模型參數(shù)察蹲、較小的學(xué)習(xí)率來解決的。
Batch Normalization旨在減少內(nèi)在協(xié)方差位移催训,可以使用較大的學(xué)習(xí)率洽议,可以提高訓(xùn)練速度。Batch Normalization還可以規(guī)范化模型以及減少Dropout的必要性(漫拭?)
作者在ImageNet上使用Batch Normalization訓(xùn)練亚兄,只用了7%的訓(xùn)練步驟就完成了效果,并且可以進(jìn)一步提升準(zhǔn)確率采驻。
Internal Covariate Shift 是指在訓(xùn)練過程中由于網(wǎng)絡(luò)參數(shù)的改變導(dǎo)致網(wǎng)絡(luò)激活函數(shù)的分布改變审胚。如果網(wǎng)絡(luò)的輸入是均值為0,單元方差的化(即白化)礼旅,則網(wǎng)絡(luò)的訓(xùn)練將會(huì)收斂得更快膳叨。