transformer 為什么使用 layer normalization决侈，而不是其他的歸一化方法？

對于深度學(xué)習(xí)的很多技巧喧务，當(dāng)你實(shí)驗(yàn)做得足夠多的時(shí)候你就會發(fā)現(xiàn)赖歌，這類問題的唯一正確答案是：

因?yàn)閷?shí)驗(yàn)結(jié)果顯示這樣做效果更好！

當(dāng)然功茴，你非要想找一個(gè)像模像樣的解釋庐冯，其實(shí)也能嘗試一下。對于Transformer為什么用LN而不是BN/IN坎穿，我估計(jì)《Attention is all you need》的作者們當(dāng)時(shí)肯定沒有想那么多展父，而是發(fā)現(xiàn)當(dāng)時(shí)NLP中主流就是用LN，所以就跟著用了玲昧。

那么栖茉，NLP為什么用LN居多呢？非要說原因孵延，大致上是NLP的文本本質(zhì)上可以看成一個(gè)時(shí)間序列吕漂，而時(shí)間序列是不定長的，長度不同的序列原則上屬于不同的統(tǒng)計(jì)對象尘应，所以很難得到穩(wěn)定的統(tǒng)計(jì)量惶凝，而得不到穩(wěn)定的統(tǒng)計(jì)量吼虎，BN就無法成立了（因?yàn)锽N依靠滑動平均來獲得一組預(yù)測用的統(tǒng)計(jì)量）。

但問題是苍鲜，拋開具體的統(tǒng)計(jì)背景不說思灰，我們硬是要在NLP模型中套上一層BN不行嗎？肯定行混滔，這又不犯法洒疚。那么是不是NLP+BN效果一定就不如NLP+LN？這還真不一定遍坟，以往我們做過一些實(shí)驗(yàn)拳亿，某些情況下NLP+BN是最好的，但總體來說還是NLP+LN更好愿伴，所以歸根結(jié)底還是前面的唯一正確答案：

因?yàn)閷?shí)驗(yàn)結(jié)果顯示這樣做效果更好！

不過你要特定Transformer模型的話电湘，你會發(fā)現(xiàn)CV中的ViT也是用了LN的隔节，這就違背了大家以往的“CV用BN，NLP用LN“的常識了寂呛，而且你會發(fā)現(xiàn)怎诫，真要將ViT中的LN換成BN，結(jié)果還真的會下降贷痪，所以Transformer（而不是NLP或CV）跟LN似乎真的更配幻妓。這又有什么解釋呢？

跟LN似乎真的更配劫拢。這又有什么解釋呢肉津？

LN本質(zhì)上是L2 Normalzation的一個(gè)簡單變體，q舱沧，k一般是LN之后再接一個(gè)Dense變換妹沙，這樣一來||q||,||k||就會一定程度上得到控制，從而使Attention的值在合理范圍內(nèi)熟吏，不至于梯度消失/爆炸距糖。如果換成BN，對||q||,||k||的控制就沒那么有效了牵寺。

當(dāng)然這都是瞎猜悍引，不過有一個(gè)間接性的證據(jù)是，文章《Root Mean Square Layer Normalization》說將LN換成RMS Norm后效果會變好帽氓，而RMS Norm比LN更像L2 Normalzation趣斤。此外，我們以前也做過簡單的實(shí)驗(yàn)杏节，如果說將Attention換成

其實(shí)效果不會有特別大的變化唬渗。

其實(shí)效果不會有特別大的變化典阵。

最后編輯于：2022.04.12 13:49:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市镊逝，隨后出現(xiàn)的幾起案子壮啊，更是在濱河造成了極大的恐慌，老刑警劉巖撑蒜，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件歹啼，死亡現(xiàn)場離奇詭異，居然都是意外死亡座菠，警方通過查閱死者的電腦和手機(jī)狸眼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來浴滴，“玉大人拓萌，你說我怎么就攤上這事∩裕” “怎么了微王？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長品嚣。經(jīng)常有香客問我炕倘，道長，這世上最難降的妖魔是什么翰撑？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任罩旋，我火速辦了婚禮，結(jié)果婚禮上眶诈，老公的妹妹穿的比我還像新娘涨醋。我一直安慰自己，他們只是感情好册养，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布东帅。她就那樣靜靜地躺著，像睡著了一般球拦。火紅的嫁衣襯著肌膚如雪靠闭。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天坎炼，我揣著相機(jī)與錄音愧膀，去河邊找鬼。笑死谣光，一個(gè)胖子當(dāng)著我的面吹牛檩淋，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蟀悦，長吁一口氣：“原來是場噩夢啊……” “哼媚朦！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起日戈，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤询张，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后浙炼，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體份氧，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年弯屈，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜗帜。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,488評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡资厉，死狀恐怖厅缺，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情酌住，我是刑警寧澤店归，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站酪我，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏且叁。R本人自食惡果不足惜都哭，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望逞带。院中可真熱鬧欺矫，春花似錦、人聲如沸展氓。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽遇汞。三九已至未妹，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間空入，已是汗流浹背络它。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留歪赢，地道東北人化戳。一個(gè)月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像埋凯，于是被迫代替她去往敵國和親点楼。傳聞我的和親對象是個(gè)殘疾皇子扫尖，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評論 2贊 359

transformer 為什么使用 layer normalization，而不是其他的歸一化方法鸯檬？

transformer 為什么使用 layer normalization决侈，而不是其他的歸一化方法？

推薦閱讀更多精彩內(nèi)容