2021-06-28 ch22 transfomer

為什么要layer Norm 糠亩？
隨著網絡層數(shù)增加栏笆，特征分布會變化，為了保持特征分布的穩(wěn)定性烟很，加速收斂
layer Norm 和 Batch Norm 的區(qū)別？
都是均值0 方差1 蜡镶，layer是以樣本維度計算（比如：一句話雾袱，一個用戶），batch是以batch*單列特征為單位進行歸一化
e.g. 推薦系統(tǒng)中：【樣本】年齡|性別|商品屬性
NLP中：【樣本】token1|token2|...

Batch 顧名思義是對一個batch進行操作官还。假設我們有 10行 3列的數(shù)據(jù)芹橡，即我們的batchsize = 10，每一行數(shù)據(jù)有三個特征望伦，假設這三個特征是【身高林说、體重煎殷、年齡】。那么BN是針對每一列（特征）進行縮放腿箩，例如算出【身高】的均值與方差豪直，再對身高這一列的10個數(shù)據(jù)進行縮放。體重和年齡同理珠移。這是一種“列縮放”弓乙。
而layer方向相反，它針對的是每一行進行縮放钧惧。即只看一筆數(shù)據(jù)暇韧，算出這筆所有特征的均值與方差再縮放。這是一種“行縮放”浓瞪。
細心的你已經看出來懈玻，layer normalization 對所有的特征進行縮放，這顯得很沒道理乾颁。我們算出一行這【身高涂乌、體重、年齡】三個特征的均值方差并對其進行縮放英岭，事實上會因為特征的量綱不同而產生很大的影響骂倘。但是BN則沒有這個影響，因為BN是對一列進行縮放巴席，一列的量綱單位都是相同的。
那么我們?yōu)槭裁催€要使用LN呢诅需？因為NLP領域中漾唉，LN更為合適。
如果我們將一批文本組成一個batch堰塌，那么BN的操作方向是赵刑，對每句話的第一個詞進行操作。但語言文本的復雜性是很高的场刑，任何一個詞都有可能放在初始位置般此，且詞序可能并不影響我們對句子的理解。而BN是針對每個位置進行縮放牵现，這不符合NLP的規(guī)律铐懊。
https://zhuanlan.zhihu.com/p/74516930

image.png