Attention Is All You Need模型細節(jié)解析

該論文提出了transformer的概念蜀涨，用以替換RNN和CNN

一.關(guān)于self-attention

Scaled Dot-Product Attention

Scaled指除以dk的平方根萍嬉，Dot-Product指計算Q和K的點積。計算公式是：

圖1

其中合愈，Q、K豪直、V是可訓練的矩陣哩盲，需要注意的是注意力權(quán)重的計算只與Q和K以及維度d有關(guān)艰管，softmax的輸出是一個和為1的向量滓侍，用于與V做點乘。如何把一句話轉(zhuǎn)化成transformer的輸入牲芋，可參見https://zhuanlan.zhihu.com/p/48508221

Multi-Head Attention

可以直譯為多頭注意力撩笆，從公式來看，是先對Q缸浦、K夕冲、V做了線性映射后，在分別計算注意力權(quán)重裂逐，然后concat歹鱼。

圖2

至此，論文最核心的部分介紹完了卜高，下面是self-attention的圖示弥姻。關(guān)于注意力更詳細的介紹可參考https://blog.csdn.net/LucyGill/article/details/67640343南片。

圖3

二、關(guān)于Position-wise Feed-Forward Networks

不同一般的Feed-Forward網(wǎng)絡(luò)庭敦，position-wise FFN中的position指得是sequence中得position疼进，通過一個MLP把每個當前位置d_model維度得向量映射成d_iterm，relu之后再映射回d_model秧廉。

圖4

圖中x得shape是[1,d_model]伞广，W1是[d_model,d_iterm]的矩陣，W2是[d_interm,d_model]的矩陣疼电。

三嚼锄、關(guān)于Positional Encoding

用位置編碼的理由是transformer里沒有卷積單元和循環(huán)單元，為了捕捉序列的相對位置信息蔽豺，需要對每個element做位置編碼区丑。論文里選三角函數(shù)對位置進行編碼，計算公式為

圖5

其中茫虽，pos指位置下標刊苍，i指維度下標，即：向量的每個維度都對應(yīng)了一個位置編碼函數(shù)濒析。下表中，作者比較了self-attention與卷積網(wǎng)絡(luò)啥纸、循環(huán)網(wǎng)絡(luò)的性能：

圖6

其中n指序列長度号杏，d指向量的維度，k指卷積核的大小斯棒，r指限制型自注意力的窗口長度盾致。maximum path length，指的是序列第一個token與最后一個token產(chǎn)生關(guān)系需要走過的計算節(jié)點的個數(shù)荣暮。self-attention可以直接計算庭惜，RNN需要循環(huán)計算n次，卷積核為k的CNN需要logk(n)層穗酥。

四护赊、如何解碼

解碼方式與RNN類似，采用shifted right得方式砾跃，測試階段每次輸出一個token骏啰，作為下次解碼的輸入。

transformer整體結(jié)構(gòu)

參考資料

https://zhuanlan.zhihu.com/p/48508221
https://blog.csdn.net/LucyGill/article/details/67640343
Attention Is All You Need

最后編輯于：2019.04.02 17:57:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末抽高，一起剝皮案震驚了整個濱河市判耕，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌翘骂，老刑警劉巖壁熄，帶你破解...
沈念sama閱讀 219,110評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件帚豪，死亡現(xiàn)場離奇詭異，居然都是意外死亡草丧，警方通過查閱死者的電腦和手機志鞍，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來方仿，“玉大人固棚，你說我怎么就攤上這事∠裳粒” “怎么了此洲？”我有些...
開封第一講書人閱讀 165,474評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長委粉。經(jīng)常有香客問我呜师，道長，這世上最難降的妖魔是什么贾节？我笑而不...
開封第一講書人閱讀 58,881評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任汁汗，我火速辦了婚禮，結(jié)果婚禮上栗涂，老公的妹妹穿的比我還像新娘知牌。我一直安慰自己，他們只是感情好斤程，可當我...
茶點故事閱讀 67,902評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布角寸。她就那樣靜靜地躺著，像睡著了一般忿墅。火紅的嫁衣襯著肌膚如雪扁藕。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,698評論 1贊 305
城市分裂傳說
那天疚脐，我揣著相機與錄音亿柑，去河邊找鬼。笑死棍弄，一個胖子當著我的面吹牛望薄，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播照卦，決...
沈念sama閱讀 40,418評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼式矫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了役耕？” 一聲冷哼從身側(cè)響起采转，我...
開封第一講書人閱讀 39,332評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后故慈，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體板熊，經(jīng)...
沈念sama閱讀 45,796評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,968評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年察绷，在試婚紗的時候發(fā)現(xiàn)自己被綠了干签。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,110評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡拆撼，死狀恐怖容劳，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情闸度，我是刑警寧澤竭贩，帶...
沈念sama閱讀 35,792評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站莺禁，受9級特大地震影響留量，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜哟冬，卻給世界環(huán)境...
茶點故事閱讀 41,455評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一楼熄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧浩峡，春花似錦可岂、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評論 0贊 22
一樁弒父案青柄，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至预侯，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間峰锁，已是汗流浹背萎馅。一陣腳步聲響...
開封第一講書人閱讀 33,130評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留虹蒋，地道東北人糜芳。一個月前我還...
沈念sama閱讀 48,348評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像魄衅，于是被迫代替她去往敵國和親峭竣。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,047評論 2贊 355