2021-06-28 ch22 transfomer

為什么要layer Norm 糠亩?
隨著網絡層數(shù)增加栏笆,特征分布會變化,為了保持特征分布的穩(wěn)定性烟很,加速收斂
layer Norm 和 Batch Norm 的區(qū)別?
都是 均值0 方差1 蜡镶,layer是以樣本維度計算(比如:一句話雾袱,一個用戶),batch是以batch*單列特征為單位進行歸一化
e.g. 推薦系統(tǒng)中: 【樣本】年齡|性別|商品屬性
NLP中:【樣本】token1|token2|...

Batch 顧名思義是對一個batch進行操作官还。假設我們有 10行 3列 的數(shù)據(jù)芹橡,即我們的batchsize = 10,每一行數(shù)據(jù)有三個特征望伦,假設這三個特征是【身高林说、體重煎殷、年齡】。那么BN是針對每一列(特征)進行縮放腿箩,例如算出【身高】的均值與方差豪直,再對身高這一列的10個數(shù)據(jù)進行縮放。體重和年齡同理珠移。這是一種“列縮放”弓乙。
而layer方向相反,它針對的是每一行進行縮放钧惧。即只看一筆數(shù)據(jù)暇韧,算出這筆所有特征的均值與方差再縮放。這是一種“行縮放”浓瞪。
細心的你已經看出來懈玻,layer normalization 對所有的特征進行縮放,這顯得很沒道理乾颁。我們算出一行這【身高涂乌、體重、年齡】三個特征的均值方差并對其進行縮放英岭,事實上會因為特征的量綱不同而產生很大的影響骂倘。但是BN則沒有這個影響,因為BN是對一列進行縮放巴席,一列的量綱單位都是相同的。
那么我們?yōu)槭裁催€要使用LN呢诅需?因為NLP領域中漾唉,LN更為合適。
如果我們將一批文本組成一個batch堰塌,那么BN的操作方向是赵刑,對每句話的第一個詞進行操作。但語言文本的復雜性是很高的场刑,任何一個詞都有可能放在初始位置般此,且詞序可能并不影響我們對句子的理解。而BN是針對每個位置進行縮放牵现,這不符合NLP的規(guī)律铐懊。
https://zhuanlan.zhihu.com/p/74516930

image.png

為什么加殘差網絡?
1)解決深度加深時瞎疼,梯度消失的問題科乎。盡管上述LN可以緩解。
2)還存在網絡退化問題:
在神經網絡可以收斂的前提下贼急,隨著網絡深度增加茅茂,網絡的表現(xiàn)先是逐漸增加至飽和捏萍,然后迅速下降

image.png

encoder+殘差連接

decoder的第一個attn模塊為什么要 masked_fill(mask == 0, -1e9) 呢?
每個時刻只能用前一時刻的數(shù)據(jù)空闲,防止未來數(shù)據(jù)作弊

attn里為什么要有softmax操作令杈?
權重歸一化

多頭相比單頭的好處?
從不同方向做attn碴倾,可以表達更多的信息逗噩,類似隨機森林思想


seq2seq + attn 局限性:

  1. LSTM,必然存在梯度的問題
  2. LSTM影斑、序列形式的數(shù)據(jù)给赞,線性計算

transformer核心:

  1. 如何解決長依賴的
  2. self-attn、encoder 矫户、 decoder 區(qū)別片迅?
  3. 如何encode 單詞順序,因為不是序列模型皆辽?

ENCODER 結構


image.png

輸入單詞:Thinking柑蛇、 Machine
輸出:當前語境下的向量表示, Z1驱闷、 Z2
Q K V
Q和K目的耻台,用于計算當前詞在當前上下文中的影響

image.png

divide by 根號dk 作用:縮小score的絕對值,防止softmax時空另,exp的計算會變極端盆耽,成為1或者0

整體框架的好處:矩陣化計算可并行;不依賴梯度計算

多頭的目的:希望不同組的QKV扼菠,能捕獲不同維度的關系摄杂;類似 決策樹組成隨機森林


image.png

得到的權重score矩陣,維度為 單詞數(shù)×(單詞數(shù)×多頭數(shù))

image.png

transformer整體架構
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末循榆,一起剝皮案震驚了整個濱河市析恢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌秧饮,老刑警劉巖映挂,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盗尸,居然都是意外死亡柑船,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門泼各,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椎组,“玉大人,你說我怎么就攤上這事历恐〈绨” “怎么了专筷?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蒸苇。 經常有香客問我磷蛹,道長,這世上最難降的妖魔是什么溪烤? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任味咳,我火速辦了婚禮,結果婚禮上檬嘀,老公的妹妹穿的比我還像新娘槽驶。我一直安慰自己,他們只是感情好鸳兽,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布掂铐。 她就那樣靜靜地躺著,像睡著了一般揍异。 火紅的嫁衣襯著肌膚如雪全陨。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天衷掷,我揣著相機與錄音辱姨,去河邊找鬼。 笑死戚嗅,一個胖子當著我的面吹牛雨涛,可吹牛的內容都是我干的。 我是一名探鬼主播懦胞,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼替久,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了医瘫?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤旧困,失蹤者是張志新(化名)和其女友劉穎醇份,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吼具,經...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡僚纷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拗盒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怖竭。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖陡蝇,靈堂內的尸體忽然破棺而出痊臭,到底是詐尸還是另有隱情哮肚,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布广匙,位于F島的核電站允趟,受9級特大地震影響,放射性物質發(fā)生泄漏鸦致。R本人自食惡果不足惜潮剪,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望分唾。 院中可真熱鬧抗碰,春花似錦、人聲如沸绽乔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽迄汛。三九已至捍壤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鞍爱,已是汗流浹背鹃觉。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留睹逃,地道東北人盗扇。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像沉填,于是被迫代替她去往敵國和親疗隶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359