序列建模(六):Attention思想

[參考link]
[參考link]
[參考link]
本篇屬于個(gè)人理解、意識(shí)流瞎bb贮预,不保證正確做瞪,各位看官隨便看看就好~

場(chǎng)景 論文 Q、K芯勘、V關(guān)系 注釋
問(wèn)答QA Key-Value Memory Network {Q}\neq{K}\neq{V} Q表示Question潭千,是一句話;
K表示一個(gè)關(guān)鍵詞借尿;
V是與該關(guān)鍵詞相對(duì)應(yīng)的答案
機(jī)器翻譯 NMT_BahdanauAttention {Q}\neq({K} = {V}) Q表示Output Sentence中的word\_y_i,是目標(biāo)語(yǔ)言的一個(gè)詞;
K=V表示Input Sentence中的word\_x_i路翻,是源句語(yǔ)言的一個(gè)詞
Transformer_Self-Attention {Q} = {K} = {V} {Q}狈癞、({K}={V})表示一個(gè)Sentence中的各個(gè)word

-1- Attention機(jī)制的本質(zhì)思想

在了解過(guò)傳統(tǒng)Attention機(jī)制中對(duì)Input Sentence和Output Sentence中各word之間的匹配prob計(jì)算、Key-Value Memory Network中對(duì)Q茂契、K蝶桶、V的定義以及Q、K匹配度的計(jì)算之后掉冶,我們自然而然地就可以對(duì)Attention機(jī)制做進(jìn)一步的抽象真竖,得到更易懂的Attention機(jī)制的本質(zhì)思想:


Attention機(jī)制的本質(zhì)思想.png

在傳統(tǒng)Encoder-Decoder + Attention_Model 的架構(gòu)中,如果把Output Sentence中的每個(gè)word_y看作是query厌小,把Input Sentence中的每個(gè)word_x看作是key恢共,Attention_Model計(jì)算得到的各個(gè)word_y和各個(gè)word_x之間的匹配prob,就可以被視作Key-Value Memory Network中Q和K之間的匹配度璧亚。(個(gè)人理解讨韭,不保證正確。癣蟋。透硝。)

得到匹配prob/attention_weights/匹配度之后,會(huì)有一個(gè)加權(quán)求和操作:
在傳統(tǒng)Encoder-Decoder + Attention_Model 的架構(gòu)中疯搅,就是在計(jì)算對(duì)標(biāo)word\_y_i的每個(gè)Context Vector \vec{c_i}的時(shí)候濒生,是\vec{c_i}={\sum_{j=1}^{Tx} \alpha_{ij}h_j},其中\alpha_{ij}就是上面說(shuō)的匹配度幔欧,然后就可以把\vec{c_i}傳入Decoder計(jì)算出word_y了罪治;
在Key-Value Memory Network中,就是在計(jì)算對(duì)標(biāo)每個(gè)Question的output向量\vec{o}的時(shí)候琐馆,是\vec{o}={\sum_{i=1}^N} (p_{h_i} * A · \Phi_V(v_{h_i}))规阀,其中p_{h_i}就是上面說(shuō)的匹配度,然后就可以根據(jù)\vec{o}計(jì)算出answer了瘦麸。

舉個(gè)機(jī)器翻譯的例子谁撼,在計(jì)算Attention的過(guò)程中,Key和Value合二為一滋饲,指向的是同一個(gè)東西厉碟,即Input Sentence中每個(gè)單詞word_x對(duì)應(yīng)的語(yǔ)義編碼,也看出這種能夠體現(xiàn)本質(zhì)思想的結(jié)構(gòu)屠缭。

當(dāng)然箍鼓,Attention從概念上仍可以被理解為從大量信息中篩選出少量重要信息的思路。篩選重要信息的過(guò)程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上呵曹,權(quán)重越大越聚焦于其對(duì)應(yīng)的Value值上款咖,即權(quán)重代表了信息的重要性何暮,而Value是其對(duì)應(yīng)的信息。

-2- Attention機(jī)制的計(jì)算步驟拆解

Attention計(jì)算過(guò)程.png

至于Attention機(jī)制的具體計(jì)算過(guò)程主要分為:
*根據(jù)Query和Key計(jì)算權(quán)重系數(shù)(有softmax歸一化處理)铐殃,
*根據(jù)權(quán)重系數(shù)對(duì)Value進(jìn)行加權(quán)求和海洼。
這樣,可以將Attention的計(jì)算過(guò)程抽象為如圖10展示的三個(gè)階段富腊。

-2.1- 計(jì)算Query和Key的匹配度

在計(jì)算Query和某個(gè)Key_i的相似度or匹配度的時(shí)候坏逢,可以選用多種函數(shù)來(lái)計(jì)算,常用的計(jì)算方式有:向量點(diǎn)積赘被、向量Cosine相似性是整、再引入額外的神經(jīng)網(wǎng)絡(luò)來(lái)求值:


計(jì)算q、k匹配度.png
-2.2- 對(duì)Value加權(quán)求和

將上一步計(jì)算得到的Query和各個(gè)Key_i的匹配度與對(duì)應(yīng)Value_i進(jìn)行加權(quán)求和:


對(duì)v加權(quán)求和.png

計(jì)算得到的Attention本質(zhì)上是對(duì)Value_i的加權(quán)求和民假,向量維度也和Value_i相同浮入。

通過(guò)以上兩步的計(jì)算,就可以求出對(duì)標(biāo)\vec{q}\vec{Attention}向量了阳欲。目前絕大多數(shù)的注意力機(jī)制的計(jì)算方法都可以抽象為上述步驟舵盈。

-3- Self Attention

有了以上對(duì)Attention本質(zhì)思想的梳理,Self-Attention就很好理解了球化。Self-Attention不再做Output Sentence的word_y和Input Sentence的word_x之間的匹配度計(jì)算秽晚,而是對(duì)一個(gè)Sentence中的各個(gè)詞做句子內(nèi)部的相關(guān)性計(jì)算。Self Attention的計(jì)算過(guò)程和上述的傳統(tǒng)Attention一樣筒愚,只不過(guò)計(jì)算對(duì)象只選擇一個(gè)Sentence內(nèi)部的各個(gè)word赴蝇。

一個(gè)很自然的問(wèn)題是:通過(guò)Self Attention到底學(xué)到了哪些規(guī)律或者抽取出了哪些特征呢?或者說(shuō)引入Self Attention有什么好處呢巢掺?


句法特征:有一定距離的短語(yǔ)結(jié)構(gòu)

語(yǔ)義特征:its的指代對(duì)象Law

上面兩張圖是transformer論文里句伶,Self Attention在同一個(gè)英語(yǔ)句子內(nèi)單詞間產(chǎn)生的聯(lián)系可視化表示÷降恚可以看出考余,Self Attention可以捕獲同一個(gè)句子中單詞之間的一些句法特征或者語(yǔ)義特征

可以看出轧苫,Self Attention相比RNN或LSTM楚堤,更容易捕獲句子中長(zhǎng)距離的相互依賴(lài)的特征。對(duì)于RNN或LSTM含懊,需要依次序進(jìn)行序列計(jì)算身冬,考慮到RNN結(jié)構(gòu)的健忘性,相對(duì)較遠(yuǎn)距離的相互依賴(lài)的特征難以被模型捕獲到岔乔。但是Self Attention在計(jì)算過(guò)程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái)酥筝,所以遠(yuǎn)距離依賴(lài)特征之間的距離被極大縮短,有利于有效地利用這些特征雏门。

除此外嘿歌,Self Attention對(duì)于增加計(jì)算的并行性也有直接幫助作用掸掏。這是為何Self Attention逐漸被廣泛使用的主要原因。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末搅幅,一起剝皮案震驚了整個(gè)濱河市阅束,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌茄唐,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,406評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝇更,死亡現(xiàn)場(chǎng)離奇詭異沪编,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)年扩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)蚁廓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人厨幻,你說(shuō)我怎么就攤上這事相嵌。” “怎么了况脆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,815評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵饭宾,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我格了,道長(zhǎng)看铆,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,537評(píng)論 1 296
  • 正文 為了忘掉前任盛末,我火速辦了婚禮弹惦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘悄但。我一直安慰自己棠隐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布檐嚣。 她就那樣靜靜地躺著助泽,像睡著了一般。 火紅的嫁衣襯著肌膚如雪净嘀。 梳的紋絲不亂的頭發(fā)上报咳,一...
    開(kāi)封第一講書(shū)人閱讀 52,184評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音挖藏,去河邊找鬼暑刃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛膜眠,可吹牛的內(nèi)容都是我干的岩臣。 我是一名探鬼主播溜嗜,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼架谎!你這毒婦竟也來(lái)了炸宵?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,668評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤谷扣,失蹤者是張志新(化名)和其女友劉穎土全,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體会涎,經(jīng)...
    沈念sama閱讀 46,212評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡裹匙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了末秃。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片概页。...
    茶點(diǎn)故事閱讀 40,438評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖练慕,靈堂內(nèi)的尸體忽然破棺而出惰匙,到底是詐尸還是另有隱情,我是刑警寧澤铃将,帶...
    沈念sama閱讀 36,128評(píng)論 5 349
  • 正文 年R本政府宣布项鬼,位于F島的核電站,受9級(jí)特大地震影響麸塞,放射性物質(zhì)發(fā)生泄漏秃臣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評(píng)論 3 333
  • 文/蒙蒙 一哪工、第九天 我趴在偏房一處隱蔽的房頂上張望奥此。 院中可真熱鬧,春花似錦雁比、人聲如沸稚虎。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,279評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)茴她。三九已至,卻和暖如春丈牢,著一層夾襖步出監(jiān)牢的瞬間祭钉,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,395評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工己沛, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留距境,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,827評(píng)論 3 376
  • 正文 我出身青樓垫桂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親粟按。 傳聞我的和親對(duì)象是個(gè)殘疾皇子诬滩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評(píng)論 2 359