歸一化:Batch Normalization 和 Group Normalization

https://www.sohu.com/a/148103872_723464
https://www.cnblogs.com/jiangxinyang/p/9372678.html
http://www.reibang.com/p/86530a0a3935
https://blog.csdn.net/u014314005/article/details/80583770
https://blog.csdn.net/malefactor/article/details/51476961/

論文:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》https://arxiv.org/abs/1502.03167


歸一化解決的問(wèn)題:

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程本質(zhì)就是為了學(xué)習(xí)數(shù)據(jù)分布泵督,一旦訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的分布不同芽丹,那么網(wǎng)絡(luò)的泛化能力也大大降低岳链;另外一方面碾局,一旦每批訓(xùn)練數(shù)據(jù)的分布各不相同(batch 梯度下降),那么網(wǎng)絡(luò)就要在每次迭代都去學(xué)習(xí)適應(yīng)不同的分布茂契,這樣將會(huì)大大降低網(wǎng)絡(luò)的訓(xùn)練速度掺出,這也正是為什么我們需要對(duì)數(shù)據(jù)都要做一個(gè)歸一化預(yù)處理的原因毅桃。

我們把網(wǎng)絡(luò)中間層在訓(xùn)練過(guò)程中,數(shù)據(jù)分布的改變稱(chēng)之為:“Internal Covariate Shift”翁狐。

思路圖.png

Batch Normalization

第一步:通過(guò)一定的規(guī)范化手段(其實(shí)就是利用估計(jì))类溢,把每層的輸入值的分布強(qiáng)行拉回到N(0,1)的分布,其實(shí)就是把越來(lái)越偏的分布強(qiáng)制拉回比較標(biāo)準(zhǔn)的分布露懒,這樣使得激活輸入值大概率落在非線性函數(shù)對(duì)輸入比較敏感的區(qū)域闯冷,這樣輸入的小變化就會(huì)導(dǎo)致?lián)p失函數(shù)較大的變化,避免梯度消失問(wèn)題產(chǎn)生懈词,而且學(xué)習(xí)收斂的速度更快蛇耀,能大大加快訓(xùn)練速度。

N(0,1)的分布.png

\hat u=\frac{1}{m}\sum_{i=1}^{m}{x_i} 坎弯, \hat\sigma^2=\frac{1}{m}\sum_{i=1}^{m}{(x_i-\hat u)^2}

\hat x_i=\frac{x_i-\hat u}{\sqrt{\hat \sigma^2+\varepsilon}} 纺涤, y_i = \gamma \hat x_i + \beta

第二步:仿射變換中的\gamma\beta都是可以學(xué)習(xí)的參數(shù),不難發(fā)現(xiàn)如果\gamma取輸入的\hat \sigma抠忘,\beta取輸入的\overline x撩炊,Batch Normalization變換就回到了恒等變換。


  • PS: 為什么要γ 和 β崎脉?
    有的人說(shuō)是因?yàn)槿绻麟[藏層的輸入均值在靠近0的區(qū)域即處于Sigmoid激活函數(shù)的線性區(qū)域(為了保持較大的梯度)衰抑,這樣不利于訓(xùn)練好的非線性神經(jīng)網(wǎng)絡(luò),得到的模型效果也不會(huì)太好荧嵌。γ 和 β的出現(xiàn)等價(jià)于非線性函數(shù)的值從正中心周?chē)木€性區(qū)往非線性區(qū)動(dòng)了動(dòng)呛踊。核心思想應(yīng)該是想找到一個(gè)線性和非線性的較好平衡點(diǎn)砾淌,既能享受非線性的較強(qiáng)表達(dá)能力的好處,又避免太靠非線性區(qū)兩頭使得網(wǎng)絡(luò)收斂速度太慢谭网。


    圖片.png

這種解釋是有問(wèn)題的:

因?yàn)镽elu是分段線性函數(shù)汪厨,但是仍可以輕松表達(dá)所有函數(shù),擬合非線性函數(shù)的水平仍然很強(qiáng)愉择。


圖片.png

理論上初始化為 γ=1 和 β=0 然后再訓(xùn)練中自適應(yīng)為真實(shí)分布的u和σ劫乱。初期梯度較大訓(xùn)練速度快,


在訓(xùn)練過(guò)程中會(huì)計(jì)算很多批Mini-Batch的期望和方差锥涕,在之后的驗(yàn)證和測(cè)試的時(shí)候衷戈,我們將這些批次的Mini-Batch的期望和方差分別求平均值來(lái)作為此時(shí)的期望和方差。

總體均值E=E(\hat x) 层坠, 總體方差V=\frac{m}{m-1}E(\hat \sigma^2)

利用多個(gè)樣本的值對(duì)總體進(jìn)行評(píng)估殖妇。

E(S^2)=\sigma^2S^2=\frac{1}{m}(x-\overline x)^2

y=\frac{\gamma}{\sqrt{V+\varepsilon}}x+(\beta-\frac{{\gamma}{E}}{\sqrt{V+\varepsilon}})


工程實(shí)踐:

  1. 非常不鼓勵(lì)扔掉Dropout破花。
    Batch Norm根本壓不住大模型在訓(xùn)練后期的過(guò)擬合

  2. b值其實(shí)都不需要谦趣,因?yàn)锽N層有β


注:為什么使用減均值、白化可以加快訓(xùn)練座每?

由于初始化的時(shí)候前鹅,我們的參數(shù)一般都是0均值的,因此開(kāi)始的擬合y=Wx+b峭梳,基本過(guò)原點(diǎn)附近舰绘,如圖b紅色虛線。因此葱椭,網(wǎng)絡(luò)需要經(jīng)過(guò)多次學(xué)習(xí)才能逐步達(dá)到如紫色實(shí)線的擬合除盏,即收斂的比較慢。如果我們對(duì)輸入數(shù)據(jù)先作減均值操作挫以,如圖c者蠕,顯然可以加快學(xué)習(xí)。更進(jìn)一步的掐松,我們對(duì)數(shù)據(jù)再進(jìn)行去相關(guān)操作踱侣,使得數(shù)據(jù)更加容易區(qū)分,這樣又會(huì)加快訓(xùn)練大磺,如圖d抡句。

圖片.png

注:BN不適合RNN環(huán)境。

注:歸一化不能在求的激活值之后進(jìn)行杠愧,不然流到下一層參數(shù)的誤差值會(huì)越來(lái)越小待榔,從而影響模型的學(xué)習(xí),也就是梯度彌散問(wèn)題。

BN的正確位置.png

如果歸一化參數(shù)不在梯度下降中計(jì)算的話锐锣,會(huì)使模型參數(shù)膨脹腌闯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市雕憔,隨后出現(xiàn)的幾起案子姿骏,更是在濱河造成了極大的恐慌,老刑警劉巖斤彼,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件分瘦,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡琉苇,警方通過(guò)查閱死者的電腦和手機(jī)嘲玫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)并扇,“玉大人去团,你說(shuō)我怎么就攤上這事“萋恚” “怎么了渗勘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵沐绒,是天一觀的道長(zhǎng)俩莽。 經(jīng)常有香客問(wèn)我,道長(zhǎng)乔遮,這世上最難降的妖魔是什么扮超? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮蹋肮,結(jié)果婚禮上出刷,老公的妹妹穿的比我還像新娘。我一直安慰自己坯辩,他們只是感情好馁龟,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著漆魔,像睡著了一般坷檩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上改抡,一...
    開(kāi)封第一講書(shū)人閱讀 52,255評(píng)論 1 308
  • 那天矢炼,我揣著相機(jī)與錄音,去河邊找鬼阿纤。 笑死句灌,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的欠拾。 我是一名探鬼主播胰锌,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼骗绕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了匕荸?” 一聲冷哼從身側(cè)響起爹谭,我...
    開(kāi)封第一講書(shū)人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎榛搔,沒(méi)想到半個(gè)月后诺凡,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡践惑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年腹泌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尔觉。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡凉袱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出侦铜,到底是詐尸還是另有隱情专甩,我是刑警寧澤,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布钉稍,位于F島的核電站涤躲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏贡未。R本人自食惡果不足惜种樱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望俊卤。 院中可真熱鬧嫩挤,春花似錦、人聲如沸消恍。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)狠怨。三九已至约啊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間取董,已是汗流浹背棍苹。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茵汰,地道東北人枢里。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親栏豺。 傳聞我的和親對(duì)象是個(gè)殘疾皇子彬碱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容