深度學(xué)習(xí)中的注意力模型

轉(zhuǎn)自軟件所的張俊林老師

注意力模型最近幾年在深度學(xué)習(xí)各個領(lǐng)域被廣泛使用绰寞，無論是圖像處理登渣、語音識別還是自然語言處理的各種不同類型的任務(wù)中，都很容易遇到注意力模型的身影庞钢。所以访锻，了解注意力機(jī)制的工作原理對于關(guān)注深度學(xué)習(xí)技術(shù)發(fā)展的技術(shù)人員來說有很大的必要褪尝。

人類的視覺注意力

從注意力模型的命名方式看，很明顯其借鑒了人類的注意力機(jī)制期犬，因此河哑，我們首先簡單介紹人類視覺的選擇性注意力機(jī)制。

圖1 人類的視覺注意力

視覺注意力機(jī)制是人類視覺所特有的大腦信號處理機(jī)制龟虎。人類視覺通過快速掃描全局圖像璃谨，獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域，也就是一般所說的注意力焦點(diǎn)，而后對這一區(qū)域投入更多注意力資源佳吞，以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息拱雏，而抑制其他無用信息。

這是人類利用有限的注意力資源從大量信息中快速篩選出高價值信息的手段底扳，是人類在長期進(jìn)化中形成的一種生存機(jī)制古涧，人類視覺注意力機(jī)制極大地提高了視覺信息處理的效率與準(zhǔn)確性。

圖1形象化展示了人類在看到一副圖像時是如何高效分配有限的注意力資源的花盐，其中紅色區(qū)域表明視覺系統(tǒng)更關(guān)注的目標(biāo)羡滑，很明顯對于圖1所示的場景，人們會把注意力更多投入到人的臉部算芯，文本的標(biāo)題以及文章首句等位置柒昏。

深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似，核心目標(biāo)也是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息熙揍。

Encoder-Decoder框架

要了解深度學(xué)習(xí)中的注意力模型职祷，就不得不先談Encoder-Decoder框架，因為目前大多數(shù)注意力模型附著在Encoder-Decoder框架下届囚，當(dāng)然有梆，其實(shí)注意力模型可以看作一種通用的思想，本身并不依賴于特定框架意系，這點(diǎn)需要注意泥耀。

Encoder-Decoder框架可以看作是一種深度學(xué)習(xí)領(lǐng)域的研究模式，應(yīng)用場景異常廣泛蛔添。圖2是文本處理領(lǐng)域里常用的Encoder-Decoder框架最抽象的一種表示痰催。

圖2 抽象的文本處理領(lǐng)域的Encoder-Decoder框架

文本處理領(lǐng)域的Encoder-Decoder框架可以這么直觀地去理解：可以把它看作適合處理由一個句子（或篇章）生成另外一個句子（或篇章）的通用處理模型。對于句子對<Source,Target>迎瞧，我們的目標(biāo)是給定輸入句子Source夸溶，期待通過Encoder-Decoder框架來生成目標(biāo)句子Target。Source和Target可以是同一種語言凶硅，也可以是兩種不同的語言缝裁。而Source和Target分別由各自的單詞序列構(gòu)成：

Encoder顧名思義就是對輸入句子Source進(jìn)行編碼，將輸入句子通過非線性變換轉(zhuǎn)化為中間語義表示C：

對于解碼器Decoder來說足绅，其任務(wù)是根據(jù)句子Source的中間語義表示C和之前已經(jīng)生成的歷史信息

來生成i時刻要生成的單詞

：

每個yi都依次這么產(chǎn)生捷绑，那么看起來就是整個系統(tǒng)根據(jù)輸入句子Source生成了目標(biāo)句子Target。如果Source是中文句子编检，Target是英文句子胎食，那么這就是解決機(jī)器翻譯問題的Encoder-Decoder框架；如果Source是一篇文章允懂，Target是概括性的幾句描述語句厕怜，那么這是文本摘要的Encoder-Decoder框架；如果Source是一句問句，Target是一句回答粥航，那么這是問答系統(tǒng)或者對話機(jī)器人的Encoder-Decoder框架琅捏。由此可見，在文本處理領(lǐng)域递雀，Encoder-Decoder的應(yīng)用領(lǐng)域相當(dāng)廣泛柄延。

Encoder-Decoder框架不僅僅在文本領(lǐng)域廣泛使用，在語音識別缀程、圖像處理等領(lǐng)域也經(jīng)常使用搜吧。比如對于語音識別來說，圖2所示的框架完全適用杨凑，區(qū)別無非是Encoder部分的輸入是語音流滤奈，輸出是對應(yīng)的文本信息；而對于“圖像描述”任務(wù)來說撩满，Encoder部分的輸入是一副圖片蜒程，Decoder的輸出是能夠描述圖片語義內(nèi)容的一句描述語。一般而言伺帘，文本處理和語音識別的Encoder部分通常采用RNN模型昭躺，圖像處理的Encoder一般采用CNN模型。

Attention模型

本節(jié)先以機(jī)器翻譯作為例子講解最常見的Soft Attention模型的基本原理伪嫁，之后拋離Encoder-Decoder框架抽象出了注意力機(jī)制的本質(zhì)思想领炫，然后簡單介紹最近廣為使用的Self Attention的基本思路。

Soft Attention模型

圖2中展示的Encoder-Decoder框架是沒有體現(xiàn)出“注意力模型”的礼殊，所以可以把它看作是注意力不集中的分心模型驹吮。為什么說它注意力不集中呢针史？請觀察下目標(biāo)句子Target中每個單詞的生成過程如下：

其中f是Decoder的非線性變換函數(shù)晶伦。從這里可以看出，在生成目標(biāo)句子的單詞時啄枕，不論生成哪個單詞婚陪，它們使用的輸入句子Source的語義編碼C都是一樣的，沒有任何區(qū)別频祝。

而語義編碼C是由句子Source的每個單詞經(jīng)過Encoder

編碼產(chǎn)生的泌参，這意味著不論是生成哪個單詞，y1,y2還是y3常空，其實(shí)句子Source中任意單詞對生成某個目標(biāo)單詞yi來說影響力都是相同的沽一，這是為何說這個模型沒有體現(xiàn)出注意力的緣由。這類似于人類看到眼前的畫面漓糙，但是眼中卻沒有注意焦點(diǎn)一樣铣缠。

如果拿機(jī)器翻譯來解釋這個分心模型的Encoder-Decoder框架更好理解，比如輸入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文單詞：“湯姆”蝗蛙，“追逐”蝇庭，“杰瑞”。

在翻譯“杰瑞”這個中文單詞的時候捡硅，分心模型里面的每個英文單詞對于翻譯目標(biāo)單詞“杰瑞”貢獻(xiàn)是相同的哮内，很明顯這里不太合理，顯然“Jerry”對于翻譯成“杰瑞”更重要壮韭，但是分心模型是無法體現(xiàn)這一點(diǎn)的北发，這就是為何說它沒有引入注意力的原因喷屋。

沒有引入注意力的模型在輸入句子比較短的時候問題不大鲫竞，但是如果輸入句子比較長，此時所有語義完全通過一個中間語義向量來表示，單詞自身的信息已經(jīng)消失，可想而知會丟失很多細(xì)節(jié)信息驻债，這也是為何要引入注意力模型的重要原因形葬。

上面的例子中合呐，如果引入Attention模型的話，應(yīng)該在翻譯“杰瑞”的時候笙以，體現(xiàn)出英文單詞對于翻譯當(dāng)前中文單詞不同的影響程度淌实，比如給出類似下面一個概率分布值：

（Tom,0.3）(Chase,0.2) (Jerry,0.5)

每個英文單詞的概率代表了翻譯當(dāng)前單詞“杰瑞”時，注意力分配模型分配給不同英文單詞的注意力大小猖腕。這對于正確翻譯目標(biāo)語單詞肯定是有幫助的拆祈，因為引入了新的信息。

同理倘感，目標(biāo)句子中的每個單詞都應(yīng)該學(xué)會其對應(yīng)的源語句子中單詞的注意力分配概率信息放坏。這意味著在生成每個單詞yi的時候，原先都是相同的中間語義表示C會被替換成根據(jù)當(dāng)前生成單詞而不斷變化的Ci老玛。理解Attention模型的關(guān)鍵就是這里淤年，即由固定的中間語義表示C換成了根據(jù)當(dāng)前輸出單詞來調(diào)整成加入注意力模型的變化的Ci犁珠。增加了注意力模型的Encoder-Decoder框架理解起來如圖3所示。

圖3 引入注意力模型的Encoder-Decoder框架

即生成目標(biāo)句子單詞的過程成了下面的形式：

而每個Ci可能對應(yīng)著不同的源語句子單詞的注意力分配概率分布互亮，比如對于上面的英漢翻譯來說犁享，其對應(yīng)的信息可能如下：

其中，f2函數(shù)代表Encoder對輸入英文單詞的某種變換函數(shù)豹休，比如如果Encoder是用的RNN模型的話炊昆，這個f2函數(shù)的結(jié)果往往是某個時刻輸入xi后隱層節(jié)點(diǎn)的狀態(tài)值；g代表Encoder根據(jù)單詞的中間表示合成整個句子中間語義表示的變換函數(shù)威根，一般的做法中凤巨，g函數(shù)就是對構(gòu)成元素加權(quán)求和，即下列公式：

其中洛搀，Lx代表輸入句子Source的長度敢茁，aij代表在Target輸出第i個單詞時Source輸入句子中第j個單詞的注意力分配系數(shù)，而hj則是Source輸入句子中第j個單詞的語義編碼留美。假設(shè)下標(biāo)i就是上面例子所說的“
湯姆”
彰檬，那么Lx就是3，h1=f(“Tom”)谎砾，h2=f(“Chase”),h3=f(“Jerry”)分別是輸入句子每個單詞的語義編碼逢倍，對應(yīng)的注意力模型權(quán)值則分別是0.6,0.2,0.2，所以g函數(shù)本質(zhì)上就是個加權(quán)求和函數(shù)景图。如果形象表示的話较雕，翻譯中文單詞“湯姆”的時候，數(shù)學(xué)公式對應(yīng)的中間語義表示Ci的形成過程類似圖4挚币。

圖4 Attention的形成過程

這里還有一個問題：生成目標(biāo)句子某個單詞亮蒋，比如“湯姆”的時候，如何知道Attention模型所需要的輸入句子單詞注意力分配概率分布值呢妆毕？就是說“湯姆”對應(yīng)的輸入句子Source中各個單詞的概率分布：(Tom,0.6)(Chase,0.2)
(Jerry,0.2) 是如何得到的呢慎玖？

為了便于說明，我們假設(shè)對圖2的非Attention模型的Encoder-Decoder框架進(jìn)行細(xì)化设塔，Encoder采用RNN模型凄吏，Decoder也采用RNN模型，這是比較常見的一種模型配置闰蛔，則圖2的框架轉(zhuǎn)換為圖5。

圖5 RNN作為具體模型的Encoder-Decoder框架

那么用圖6可以較為便捷地說明注意力分配概率分布值的通用計算過程图柏。

圖6 注意力分配概率計算

對于采用RNN的Decoder來說序六，在時刻i，如果要生成yi單詞蚤吹，我們是可以知道Target在生成Yi之前的時刻i-1時例诀，隱層節(jié)點(diǎn)i-1時刻的輸出值Hi-1的随抠，而我們的目的是要計算生成Yi時輸入句子中的單詞“Tom”、“Chase”繁涂、“Jerry”對Yi來說的注意力分配概率分布拱她，那么可以用Target輸出句子i-1時刻的隱層節(jié)點(diǎn)狀態(tài)Hi-1去一一和輸入句子Source中每個單詞對應(yīng)的RNN隱層節(jié)點(diǎn)狀態(tài)hj進(jìn)行對比，即通過函數(shù)F(hj,Hi-1)來獲得目標(biāo)單詞yi和每個輸入單詞對應(yīng)的對齊可能性扔罪，這個F函數(shù)在不同論文里可能會采取不同的方法秉沼，然后函數(shù)F的輸出經(jīng)過Softmax進(jìn)行歸一化就得到了符合概率分布取值區(qū)間的注意力分配概率分布數(shù)值。

絕大多數(shù)Attention模型都是采取上述的計算框架來計算注意力分配概率分布信息矿酵，區(qū)別只是在F的定義上可能有所不同唬复。圖7可視化地展示了在英語-德語翻譯系統(tǒng)中加入Attention機(jī)制后，Source和Target兩個句子每個單詞對應(yīng)的注意力分配概率分布全肮。

圖7 英語-德語翻譯的注意力概率分布

上述內(nèi)容就是經(jīng)典的Soft Attention模型的基本思想敞咧，那么怎么理解Attention模型的物理含義呢？一般在自然語言處理應(yīng)用里會把Attention模型看作是輸出Target句子中某個單詞和輸入Source句子每個單詞的對齊模型辜腺，這是非常有道理的休建。

目標(biāo)句子生成的每個單詞對應(yīng)輸入句子單詞的概率分布可以理解為輸入句子單詞和這個目標(biāo)生成單詞的對齊概率，這在機(jī)器翻譯語境下是非常直觀的：傳統(tǒng)的統(tǒng)計機(jī)器翻譯一般在做的過程中會專門有一個短語對齊的步驟评疗，而注意力模型其實(shí)起的是相同的作用丰包。

圖8 Google 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)結(jié)構(gòu)圖

圖8所示即為Google于2016年部署到線上的基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)，相對傳統(tǒng)模型翻譯效果有大幅提升壤巷，翻譯錯誤率降低了60%邑彪，其架構(gòu)就是上文所述的加上Attention機(jī)制的Encoder-Decoder框架，主要區(qū)別無非是其Encoder和Decoder使用了8層疊加的LSTM模型胧华。

Attention機(jī)制的本質(zhì)思想

如果把Attention機(jī)制從上文講述例子中的Encoder-Decoder框架中剝離寄症，并進(jìn)一步做抽象，可以更容易看懂Attention機(jī)制的本質(zhì)思想矩动。

圖9 Attention機(jī)制的本質(zhì)思想

我們可以這樣來看待Attention機(jī)制（參考圖9）：將Source中的構(gòu)成元素想象成是由一系列的<Key,Value>數(shù)據(jù)對構(gòu)成有巧，此時給定Target中的某個元素Query，通過計算Query和各個Key的相似性或者相關(guān)性悲没，得到每個Key對應(yīng)Value的權(quán)重系數(shù)篮迎，然后對Value進(jìn)行加權(quán)求和，即得到了最終的Attention數(shù)值示姿。所以本質(zhì)上Attention機(jī)制是對Source中元素的Value值進(jìn)行加權(quán)求和甜橱，而Query和Key用來計算對應(yīng)Value的權(quán)重系數(shù)。即可以將其本質(zhì)思想改寫為如下公式：

其中栈戳，Lx=||Source||代表Source的長度岂傲，公式含義即如上所述。上文所舉的機(jī)器翻譯的例子里子檀，因為在計算Attention的過程中镊掖，Source中的Key和Value合二為一乃戈，指向的是同一個東西，也即輸入句子中每個單詞對應(yīng)的語義編碼亩进，所以可能不容易看出這種能夠體現(xiàn)本質(zhì)思想的結(jié)構(gòu)症虑。

當(dāng)然，從概念上理解归薛，把Attention仍然理解為從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上谍憔，忽略大多不重要的信息，這種思路仍然成立苟翻。聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計算上韵卤，權(quán)重越大越聚焦于其對應(yīng)的Value值上，即權(quán)重代表了信息的重要性崇猫，而Value是其對應(yīng)的信息沈条。

從圖9可以引出另外一種理解，也可以將Attention機(jī)制看作一種軟尋址（Soft

Addressing）:Source可以看作存儲器內(nèi)存儲的內(nèi)容诅炉，元素由地址Key和值Value組成蜡歹，當(dāng)前有個Key=Query的查詢，目的是取出存儲器中對應(yīng)的Value值涕烧，即Attention數(shù)值月而。通過Query和存儲器內(nèi)元素Key的地址進(jìn)行相似性比較來尋址，之所以說是軟尋址议纯，指的不像一般尋址只從存儲內(nèi)容里面找出一條內(nèi)容父款，而是可能從每個Key地址都會取出內(nèi)容，取出內(nèi)容的重要性根據(jù)Query和Key的相似性來決定瞻凤，之后對Value進(jìn)行加權(quán)求和憨攒，這樣就可以取出最終的Value值，也即Attention值阀参。所以不少研究人員將Attention機(jī)制看作軟尋址的一種特例肝集，這也是非常有道理的。

至于Attention機(jī)制的具體計算過程蛛壳，如果對目前大多數(shù)方法進(jìn)行抽象的話杏瞻，可以將其歸納為兩個過程：第一個過程是根據(jù)Query和Key計算權(quán)重系數(shù)，第二個過程根據(jù)權(quán)重系數(shù)對Value進(jìn)行加權(quán)求和衙荐。而第一個過程又可以細(xì)分為兩個階段：第一個階段根據(jù)Query和Key計算兩者的相似性或者相關(guān)性捞挥；第二個階段對第一階段的原始分值進(jìn)行歸一化處理；這樣赫模，可以將Attention的計算過程抽象為如圖10展示的三個階段树肃。

圖10 三階段計算Attention過程

在第一個階段，可以引入不同的函數(shù)和計算機(jī)制瀑罗，根據(jù)Query和某個Key_i胸嘴，計算兩者的相似性或者相關(guān)性，最常見的方法包括：求兩者的向量點(diǎn)積斩祭、求兩者的向量Cosine相似性或者通過再引入額外的神經(jīng)網(wǎng)絡(luò)來求值劣像，即如下方式：

第一階段產(chǎn)生的分值根據(jù)具體產(chǎn)生的方法不同其數(shù)值取值范圍也不一樣，第二階段引入類似SoftMax的計算方式對第一階段的得分進(jìn)行數(shù)值轉(zhuǎn)換摧玫，一方面可以進(jìn)行歸一化耳奕，將原始計算分值整理成所有元素權(quán)重之和為1的概率分布；另一方面也可以通過SoftMax的內(nèi)在機(jī)制更加突出重要元素的權(quán)重诬像。即一般采用如下公式計算：

第二階段的計算結(jié)果a_i即為value_i對應(yīng)的權(quán)重系數(shù)屋群，然后進(jìn)行加權(quán)求和即可得到Attention數(shù)值：

通過如上三個階段的計算，即可求出針對Query的Attention數(shù)值坏挠，目前絕大多數(shù)具體的注意力機(jī)制計算方法都符合上述的三階段抽象計算過程芍躏。

Self Attention模型

通過上述對Attention本質(zhì)思想的梳理，我們可以更容易理解本節(jié)介紹的Self
Attention模型降狠。Self Attention也經(jīng)常被稱為intra
Attention（內(nèi)部Attention）对竣，最近一年也獲得了比較廣泛的使用，比如Google最新的機(jī)器翻譯模型內(nèi)部大量采用了Self
Attention模型榜配。

在一般任務(wù)的Encoder-Decoder框架中否纬，輸入Source和輸出Target內(nèi)容是不一樣的，比如對于英-中機(jī)器翻譯來說蛋褥，Source是英文句子临燃，Target是對應(yīng)的翻譯出的中文句子，Attention機(jī)制發(fā)生在Target的元素Query和Source中的所有元素之間烙心。而Self

Attention顧名思義膜廊，指的不是Target和Source之間的Attention機(jī)制，而是Source內(nèi)部元素之間或者Target內(nèi)部元素之間發(fā)生的Attention機(jī)制弃理，也可以理解為Target=Source這種特殊情況下的注意力計算機(jī)制溃论。其具體計算過程是一樣的，只是計算對象發(fā)生了變化而已痘昌，所以此處不再贅述其計算過程細(xì)節(jié)钥勋。

如果是常規(guī)的Target不等于Source情形下的注意力計算，其物理含義正如上文所講辆苔，比如對于機(jī)器翻譯來說算灸，本質(zhì)上是目標(biāo)語單詞和源語單詞之間的一種單詞對齊機(jī)制。那么如果是Self
Attention機(jī)制驻啤，一個很自然的問題是：通過Self Attention到底學(xué)到了哪些規(guī)律或者抽取出了哪些特征呢菲驴？或者說引入Self
Attention有什么增益或者好處呢？我們?nèi)匀灰詸C(jī)器翻譯中的Self Attention來說明骑冗，圖11和圖12是可視化地表示Self
Attention在同一個英語句子內(nèi)單詞間產(chǎn)生的聯(lián)系赊瞬。

圖11 可視化Self Attention實(shí)例

圖12 可視化Self Attention實(shí)例

從兩張圖（圖11先煎、圖12）可以看出，Self Attention可以捕獲同一個句子中單詞之間的一些句法特征（比如圖11展示的有一定距離的短語結(jié)構(gòu)）或者語義特征（比如圖12展示的its的指代對象Law）巧涧。

很明顯薯蝎，引入Self Attention后會更容易捕獲句子中長距離的相互依賴的特征，因為如果是RNN或者LSTM谤绳，需要依次序序列計算占锯，對于遠(yuǎn)距離的相互依賴的特征，要經(jīng)過若干時間步步驟的信息累積才能將兩者聯(lián)系起來缩筛，而距離越遠(yuǎn)消略，有效捕獲的可能性越小。

但是Self

Attention在計算過程中會直接將句子中任意兩個單詞的聯(lián)系通過一個計算步驟直接聯(lián)系起來瞎抛，所以遠(yuǎn)距離依賴特征之間的距離被極大縮短艺演，有利于有效地利用這些特征。除此外婿失，Self
Attention對于增加計算的并行性也有直接幫助作用钞艇。這是為何Self Attention逐漸被廣泛使用的主要原因。

Attention機(jī)制的應(yīng)用

前文有述豪硅，Attention機(jī)制在深度學(xué)習(xí)的各種應(yīng)用領(lǐng)域都有廣泛的使用場景哩照。上文在介紹過程中我們主要以自然語言處理中的機(jī)器翻譯任務(wù)作為例子，下面分別再從圖像處理領(lǐng)域和語音識別選擇典型應(yīng)用實(shí)例來對其應(yīng)用做簡單說明懒浮。

圖13 圖片-描述任務(wù)的Encoder-Decoder框架

圖片描述（Image-Caption）是一種典型的圖文結(jié)合的深度學(xué)習(xí)應(yīng)用飘弧，輸入一張圖片，人工智能系統(tǒng)輸出一句描述句子砚著，語義等價地描述圖片所示內(nèi)容次伶。很明顯這種應(yīng)用場景也可以使用Encoder-Decoder框架來解決任務(wù)目標(biāo)，此時Encoder輸入部分是一張圖片稽穆，一般會用CNN來對圖片進(jìn)行特征抽取冠王，Decoder部分使用RNN或者LSTM來輸出自然語言句子（參考圖13）。

此時如果加入Attention機(jī)制能夠明顯改善系統(tǒng)輸出效果舌镶，Attention模型在這里起到了類似人類視覺選擇性注意的機(jī)制柱彻，在輸出某個實(shí)體單詞的時候會將注意力焦點(diǎn)聚焦在圖片中相應(yīng)的區(qū)域上。圖14給出了根據(jù)給定圖片生成句子“A
person is standing on a beach with a surfboard.”過程時每個單詞對應(yīng)圖片中的注意力聚焦區(qū)域餐胀。

圖14 圖片生成句子中每個單詞時的注意力聚焦區(qū)域

圖15給出了另外四個例子形象地展示了這種過程哟楷，每個例子上方左側(cè)是輸入的原圖，下方句子是人工智能系統(tǒng)自動產(chǎn)生的描述語句否灾，上方右側(cè)圖展示了當(dāng)AI系統(tǒng)產(chǎn)生語句中劃橫線單詞的時候卖擅，對應(yīng)圖片中聚焦的位置區(qū)域。比如當(dāng)輸出單詞dog的時候，AI系統(tǒng)會將注意力更多地分配給圖片中小狗對應(yīng)的位置惩阶。

圖15 圖像描述任務(wù)中Attention機(jī)制的聚焦作用

圖16 語音識別中音頻序列和輸出字符之間的Attention

語音識別的任務(wù)目標(biāo)是將語音流信號轉(zhuǎn)換成文字挎狸，所以也是Encoder-Decoder的典型應(yīng)用場景。Encoder部分的Source輸入是語音流信號琳猫，Decoder部分輸出語音對應(yīng)的字符串流伟叛。

圖16可視化地展示了在Encoder-Decoder框架中加入Attention機(jī)制后私痹，當(dāng)用戶用語音說句子
how much would a woodchuck chuck
時脐嫂，輸入部分的聲音特征信號和輸出字符之間的注意力分配概率分布情況，顏色越深代表分配到的注意力概率越高紊遵。從圖中可以看出账千，在這個場景下，Attention機(jī)制起到了將輸出字符和輸入語音信號進(jìn)行對齊的功能暗膜。

上述內(nèi)容僅僅選取了不同AI領(lǐng)域的幾個典型Attention機(jī)制應(yīng)用實(shí)例匀奏，Encoder-Decoder加Attention架構(gòu)由于其卓越的實(shí)際效果，目前在深度學(xué)習(xí)領(lǐng)域里得到了廣泛的使用学搜，了解并熟練使用這一架構(gòu)對于解決實(shí)際問題會有極大幫助娃善。

最后編輯于：2019.01.22 14:53:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市瑞佩，隨后出現(xiàn)的幾起案子聚磺，更是在濱河造成了極大的恐慌，老刑警劉巖炬丸，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瘫寝，死亡現(xiàn)場離奇詭異，居然都是意外死亡稠炬，警方通過查閱死者的電腦和手機(jī)焕阿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來首启，“玉大人暮屡，你說我怎么就攤上這事∫闾遥” “怎么了褒纲？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵忆蚀，是天一觀的道長雪位。經(jīng)常有香客問我论泛，道長子库，這世上最難降的妖魔是什么诡右？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任胆敞，我火速辦了婚禮位仁，結(jié)果婚禮上窃躲，老公的妹妹穿的比我還像新娘。我一直安慰自己掖棉，他們只是感情好墓律，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著幔亥，像睡著了一般耻讽。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上帕棉，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天针肥，我揣著相機(jī)與錄音，去河邊找鬼香伴。笑死慰枕，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的即纲。我是一名探鬼主播具帮，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼低斋！你這毒婦竟也來了蜂厅？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤膊畴，失蹤者是張志新（化名）和其女友劉穎掘猿，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巴比，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡术奖，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了轻绞。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片采记。...
茶點(diǎn)故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖政勃，靈堂內(nèi)的尸體忽然破棺而出唧龄，到底是詐尸還是另有隱情，我是刑警寧澤奸远，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布既棺，位于F島的核電站，受9級特大地震影響懒叛，放射性物質(zhì)發(fā)生泄漏丸冕。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一薛窥、第九天我趴在偏房一處隱蔽的房頂上張望胖烛。院中可真熱鬧眼姐，春花似錦、人聲如沸佩番。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽趟畏。三九已至贡歧，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間赋秀，已是汗流浹背利朵。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沃琅，地道東北人哗咆。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像益眉，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子姥份，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評論 2贊 354

深度學(xué)習(xí)中的注意力模型

推薦閱讀更多精彩內(nèi)容