姓名:畢曉鵬
學(xué)號(hào):19021210824
【嵌牛導(dǎo)讀】批歸一化在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中是很重要的一部分,可以加快網(wǎng)絡(luò)的收斂
【嵌牛鼻子】batch norm
【嵌牛提問】你知道BN的優(yōu)缺點(diǎn)嗎署鸡?
【嵌牛正文】
NCHW
N代表batch size數(shù)量腮鞍, C代表channel侵歇,H代表高度龄毡,W代表寬度蹦哼。
BN是對(duì) NHW求均值和方差羊瘩,一共做C次
BN公式:
每一個(gè)通道都會(huì)有一對(duì)這樣的可學(xué)習(xí)參數(shù)γ、β
數(shù)據(jù)標(biāo)準(zhǔn)化優(yōu)點(diǎn):
如果每批次訓(xùn)練數(shù)據(jù)的分布不相同柒莉,網(wǎng)絡(luò)就要在每次迭代學(xué)習(xí)適應(yīng)不同的分布闻坚,這樣會(huì)降低網(wǎng)絡(luò)的訓(xùn)練速度。不易出現(xiàn)梯度消失或梯度爆炸常柄,梯度將始終保持在一個(gè)合理的范圍內(nèi)。而這樣帶來的好處就是搀擂,基于梯度的訓(xùn)練過程可以更加有效的進(jìn)行西潘,即加快收斂速度,減輕梯度消失或爆炸導(dǎo)致的無法訓(xùn)練的問題哨颂。
如果權(quán)重?
?的值總是較小的(廣義上與1相比)喷市,則在反向過程中,梯度呈指數(shù)級(jí)衰減威恼,就出現(xiàn)了梯度消失的問題品姓;反之,如果如果權(quán)重?
?總是較大箫措,則相應(yīng)的就會(huì)出現(xiàn)梯度爆炸的問題腹备。結(jié)論就是,在反向傳播過程中斤蔓,權(quán)值?
?的大小會(huì)極大的影響梯度的有效傳播植酥,而在訓(xùn)練過程中,權(quán)重并不總是受人為控制的。
BN帶來的好處:
減輕了參數(shù)初始化的依賴友驮,方便調(diào)參漂羊。
訓(xùn)練更快,可以使用更高的學(xué)習(xí)率卸留。
增加了泛化能力走越,dropout等技術(shù)可以去掉。
BN不適應(yīng)的場(chǎng)景:
batch比較小耻瑟,學(xué)到的mean旨指,std不準(zhǔn)確,因?yàn)閿?shù)據(jù)太少匆赃,一般多卡訓(xùn)練淤毛,由于bn不同步,也會(huì)出現(xiàn)精度下降算柳。