transformer 為什么使用 layer normalization决侈,而不是其他的歸一化方法?

對于深度學(xué)習(xí)的很多技巧喧务,當(dāng)你實(shí)驗(yàn)做得足夠多的時(shí)候你就會發(fā)現(xiàn)赖歌,這類問題的唯一正確答案是:

因?yàn)閷?shí)驗(yàn)結(jié)果顯示這樣做效果更好!

當(dāng)然功茴,你非要想找一個(gè)像模像樣的解釋庐冯,其實(shí)也能嘗試一下。對于Transformer為什么用LN而不是BN/IN坎穿,我估計(jì)《Attention is all you need》的作者們當(dāng)時(shí)肯定沒有想那么多展父,而是發(fā)現(xiàn)當(dāng)時(shí)NLP中主流就是用LN,所以就跟著用了玲昧。

那么栖茉,NLP為什么用LN居多呢?非要說原因孵延,大致上是NLP的文本本質(zhì)上可以看成一個(gè)時(shí)間序列吕漂,而時(shí)間序列是不定長的,長度不同的序列原則上屬于不同的統(tǒng)計(jì)對象尘应,所以很難得到穩(wěn)定的統(tǒng)計(jì)量惶凝,而得不到穩(wěn)定的統(tǒng)計(jì)量吼虎,BN就無法成立了(因?yàn)锽N依靠滑動平均來獲得一組預(yù)測用的統(tǒng)計(jì)量)。

但問題是苍鲜,拋開具體的統(tǒng)計(jì)背景不說思灰,我們硬是要在NLP模型中套上一層BN不行嗎?肯定行混滔,這又不犯法洒疚。那么是不是NLP+BN效果一定就不如NLP+LN?這還真不一定遍坟,以往我們做過一些實(shí)驗(yàn)拳亿,某些情況下NLP+BN是最好的,但總體來說還是NLP+LN更好愿伴,所以歸根結(jié)底還是前面的唯一正確答案:

因?yàn)閷?shí)驗(yàn)結(jié)果顯示這樣做效果更好!

不過你要特定Transformer模型的話电湘,你會發(fā)現(xiàn)CV中的ViT也是用了LN的隔节,這就違背了大家以往的“CV用BN,NLP用LN“的常識了寂呛,而且你會發(fā)現(xiàn)怎诫,真要將ViT中的LN換成BN,結(jié)果還真的會下降贷痪,所以Transformer(而不是NLP或CV)跟LN似乎真的更配幻妓。這又有什么解釋呢?

跟LN似乎真的更配劫拢。這又有什么解釋呢肉津?

LN本質(zhì)上是L2 Normalzation的一個(gè)簡單變體,q舱沧,k一般是LN之后再接一個(gè)Dense變換妹沙,這樣一來||q||,||k||就會一定程度上得到控制,從而使Attention的值在合理范圍內(nèi)熟吏,不至于梯度消失/爆炸距糖。如果換成BN,對||q||,||k||的控制就沒那么有效了牵寺。

當(dāng)然這都是瞎猜悍引,不過有一個(gè)間接性的證據(jù)是,文章《Root Mean Square Layer Normalization》說將LN換成RMS Norm后效果會變好帽氓,而RMS Norm比LN更像L2 Normalzation趣斤。此外,我們以前也做過簡單的實(shí)驗(yàn)杏节,如果說將Attention換成

其實(shí)效果不會有特別大的變化唬渗。

其實(shí)效果不會有特別大的變化典阵。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市镊逝,隨后出現(xiàn)的幾起案子壮啊,更是在濱河造成了極大的恐慌,老刑警劉巖撑蒜,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件歹啼,死亡現(xiàn)場離奇詭異,居然都是意外死亡座菠,警方通過查閱死者的電腦和手機(jī)狸眼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來浴滴,“玉大人拓萌,你說我怎么就攤上這事∩裕” “怎么了微王?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長品嚣。 經(jīng)常有香客問我炕倘,道長,這世上最難降的妖魔是什么翰撑? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任罩旋,我火速辦了婚禮,結(jié)果婚禮上眶诈,老公的妹妹穿的比我還像新娘涨醋。我一直安慰自己,他們只是感情好册养,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布东帅。 她就那樣靜靜地躺著,像睡著了一般球拦。 火紅的嫁衣襯著肌膚如雪靠闭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天坎炼,我揣著相機(jī)與錄音愧膀,去河邊找鬼。 笑死谣光,一個(gè)胖子當(dāng)著我的面吹牛檩淋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼蟀悦,長吁一口氣:“原來是場噩夢啊……” “哼媚朦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起日戈,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤询张,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后浙炼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體份氧,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年弯屈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜗帜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡资厉,死狀恐怖厅缺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情酌住,我是刑警寧澤店归,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站酪我,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏且叁。R本人自食惡果不足惜都哭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逞带。 院中可真熱鬧欺矫,春花似錦、人聲如沸展氓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遇汞。三九已至未妹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間空入,已是汗流浹背络它。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留歪赢,地道東北人化戳。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像埋凯,于是被迫代替她去往敵國和親点楼。 傳聞我的和親對象是個(gè)殘疾皇子扫尖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容