day5-Transformer

和seq2seq模型相似理逊,Transformer同樣基于編碼器-解碼器架構(gòu),其區(qū)別主要在于以下三點(diǎn):

Transformer blocks:將seq2seq模型重的循環(huán)網(wǎng)絡(luò)替換為了Transformer Blocks,該模塊包含一個(gè)多頭注意力層(Multi-head Attention Layers)以及兩個(gè)position-wise feed-forward networks(FFN)。對(duì)于解碼器來說,另一個(gè)多頭注意力層被用于接受編碼器的隱藏狀態(tài)己英。
Add and norm:多頭注意力層和前饋網(wǎng)絡(luò)的輸出被送到兩個(gè)“add and norm”層進(jìn)行處理,該層包含殘差結(jié)構(gòu)以及層歸一化吴旋。
Position encoding:由于自注意力層并沒有區(qū)分元素的順序损肛,所以一個(gè)位置編碼層被用于向序列元素里添加位置信息。


以下分為三個(gè)部分:

  • Encoder
  • Decoder
  • 數(shù)據(jù)預(yù)處理:Positional Encoding

Encoder:

分為三個(gè)部分:

  • Multi-Head Attention
  • Add & Norm
  • Feed Forward

Multi-Head Attention

是多個(gè)self-attention架構(gòu)荣瑟,self-attention是Q, K, V同一個(gè)的attention

attention = Attention(Q, K, V)
Multi-Head Attention是首先將Q, K治拿, V通過線性變換投影到高維
ps:此處Q, K, V相同

head_i = attention(QW_i^Q, KW_i^K, VW_i^V)
Multihead(Q, K, V) = concat(head1, head2.....,head_h)W^O
將h個(gè)head輸出連接并通過全連接層

其中Attention函數(shù)有很多種,其中一種為


image.png

Feed Forward

Z = Multihead
out = ReLU(ZW_1 + b1) W_2 + b_2

通過Feed Forward以后就輸出encoder的編碼

Decoder

Decoder和Encoder的結(jié)構(gòu)差不多褂傀,但是多了一個(gè)attention的sub-layer忍啤,這里先明確一下decoder的輸入輸出和解碼過程:

輸出:對(duì)應(yīng)i位置的輸出詞的概率分布
輸入:encoder的輸出 & 對(duì)應(yīng)i-1位置decoder的輸出。所以中間的attention不是self-attention仙辟,它的K同波,V來自encoder,Q來自上一位置decoder的輸出
解碼:這里要特別注意一下叠国,編碼可以并行計(jì)算未檩,一次性全部encoding出來,但解碼不是一次把所有序列解出來的粟焊,而是像rnn一樣一個(gè)一個(gè)解出來的冤狡,因?yàn)橐蒙弦粋€(gè)位置的輸入當(dāng)作attention的query

數(shù)據(jù)預(yù)處理

之前都是用rnn一個(gè)一個(gè)處理,是有順序的项棠,現(xiàn)在是一次性并行處理沒有順序悲雳,需要有變量記錄順序,也就是位置信息


image.png

image.png

最開始通過上述公式香追,可以得到單詞的位置信息合瓢,然后在編碼和解碼之前,和單詞的embedding相加

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末透典,一起剝皮案震驚了整個(gè)濱河市晴楔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌峭咒,老刑警劉巖税弃,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凑队,居然都是意外死亡则果,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來短条,“玉大人导匣,你說我怎么就攤上這事∪资保” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵赋访,是天一觀的道長可都。 經(jīng)常有香客問我,道長蚓耽,這世上最難降的妖魔是什么渠牲? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮步悠,結(jié)果婚禮上签杈,老公的妹妹穿的比我還像新娘。我一直安慰自己鼎兽,他們只是感情好答姥,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谚咬,像睡著了一般鹦付。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上择卦,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天敲长,我揣著相機(jī)與錄音,去河邊找鬼秉继。 笑死祈噪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的尚辑。 我是一名探鬼主播辑鲤,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼腌巾!你這毒婦竟也來了遂填?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤澈蝙,失蹤者是張志新(化名)和其女友劉穎吓坚,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灯荧,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡礁击,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哆窿。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡链烈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出挚躯,到底是詐尸還是另有隱情强衡,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布码荔,位于F島的核電站漩勤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏缩搅。R本人自食惡果不足惜越败,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望硼瓣。 院中可真熱鬧究飞,春花似錦、人聲如沸堂鲤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽筑累。三九已至袱蜡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間慢宗,已是汗流浹背坪蚁。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留镜沽,地道東北人敏晤。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像缅茉,于是被迫代替她去往敵國和親嘴脾。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容