轉(zhuǎn)載自:http://blog.csdn.net/tg229dvt5i93mxaq5a6u/article/details/78422216殿衰,請(qǐng)查閱原作者網(wǎng)頁(yè)。
最近兩年瓷蛙,注意力模型(Attention Model)被廣泛使用在自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音識(shí)別等各種不同類(lèi)型的深度學(xué)習(xí)任務(wù)中,是深度學(xué)習(xí)技術(shù)中最值得關(guān)注與深入了解的核心技術(shù)之一蛙粘。
本文以機(jī)器翻譯為例垫卤,深入淺出地介紹了深度學(xué)習(xí)中注意力機(jī)制的原理及關(guān)鍵計(jì)算機(jī)制,同時(shí)也抽象出其本質(zhì)思想出牧,并介紹了注意力模型在圖像及語(yǔ)音等領(lǐng)域的典型應(yīng)用場(chǎng)景穴肘。
注意力模型最近幾年在深度學(xué)習(xí)各個(gè)領(lǐng)域被廣泛使用,無(wú)論是圖像處理舔痕、語(yǔ)音識(shí)別還是自然語(yǔ)言處理的各種不同類(lèi)型的任務(wù)中评抚,都很容易遇到注意力模型的身影。所以伯复,了解注意力機(jī)制的工作原理對(duì)于關(guān)注深度學(xué)習(xí)技術(shù)發(fā)展的技術(shù)人員來(lái)說(shuō)有很大的必要慨代。
人類(lèi)的視覺(jué)注意力
從注意力模型的命名方式看,很明顯其借鑒了人類(lèi)的注意力機(jī)制边翼,因此鱼响,我們首先簡(jiǎn)單介紹人類(lèi)視覺(jué)的選擇性注意力機(jī)制。
圖1 人類(lèi)的視覺(jué)注意力
視覺(jué)注意力機(jī)制是人類(lèi)視覺(jué)所特有的大腦信號(hào)處理機(jī)制组底。人類(lèi)視覺(jué)通過(guò)快速掃描全局圖像丈积,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說(shuō)的注意力焦點(diǎn)债鸡,而后對(duì)這一區(qū)域投入更多注意力資源江滨,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無(wú)用信息厌均。
這是人類(lèi)利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段唬滑,是人類(lèi)在長(zhǎng)期進(jìn)化中形成的一種生存機(jī)制,人類(lèi)視覺(jué)注意力機(jī)制極大地提高了視覺(jué)信息處理的效率與準(zhǔn)確性棺弊。
圖1形象化展示了人類(lèi)在看到一副圖像時(shí)是如何高效分配有限的注意力資源的晶密,其中紅色區(qū)域表明視覺(jué)系統(tǒng)更關(guān)注的目標(biāo),很明顯對(duì)于圖1所示的場(chǎng)景模她,人們會(huì)把注意力更多投入到人的臉部稻艰,文本的標(biāo)題以及文章首句等位置。
深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類(lèi)的選擇性視覺(jué)注意力機(jī)制類(lèi)似侈净,核心目標(biāo)也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息尊勿。
Encoder-Decoder框架
要了解深度學(xué)習(xí)中的注意力模型,就不得不先談Encoder-Decoder框架畜侦,因?yàn)槟壳按蠖鄶?shù)注意力模型附著在Encoder-Decoder框架下元扔,當(dāng)然,其實(shí)注意力模型可以看作一種通用的思想旋膳,本身并不依賴(lài)于特定框架澎语,這點(diǎn)需要注意。
Encoder-Decoder框架可以看作是一種深度學(xué)習(xí)領(lǐng)域的研究模式,應(yīng)用場(chǎng)景異常廣泛咏连。圖2是文本處理領(lǐng)域里常用的Encoder-Decoder框架最抽象的一種表示盯孙。
圖2 抽象的文本處理領(lǐng)域的Encoder-Decoder框架
文本處理領(lǐng)域的Encoder-Decoder框架可以這么直觀(guān)地去理解:可以把它看作適合處理由一個(gè)句子(或篇章)生成另外一個(gè)句子(或篇章)的通用處理模型鲁森。對(duì)于句子對(duì)<Source,Target>祟滴,我們的目標(biāo)是給定輸入句子Source,期待通過(guò)Encoder-Decoder框架來(lái)生成目標(biāo)句子Target歌溉。Source和Target可以是同一種語(yǔ)言垄懂,也可以是兩種不同的語(yǔ)言。而Source和Target分別由各自的單詞序列構(gòu)成:
每個(gè)yi都依次這么產(chǎn)生痛垛,么看起來(lái)就是整個(gè)系統(tǒng)根據(jù)輸入句子Source生成了目標(biāo)句子Target草慧。如果Source是中文句子,Target是英文句子匙头,那么這就是解決機(jī)器翻譯問(wèn)題的Encoder-Decoder框架漫谷;如果Source是一篇文章,Target是概括性的幾句描述語(yǔ)句蹂析,那么這是文本摘要的Encoder-Decoder框架舔示;如果Source是一句問(wèn)句,Target是一句回答电抚,那么這是問(wèn)答系統(tǒng)或者對(duì)話(huà)機(jī)器人的Encoder-Decoder框架惕稻。由此可見(jiàn),在文本處理領(lǐng)域蝙叛,Encoder-Decoder的應(yīng)用領(lǐng)域相當(dāng)廣泛俺祠。
Encoder-Decoder框架不僅僅在文本領(lǐng)域廣泛使用,在語(yǔ)音識(shí)別借帘、圖像處理等領(lǐng)域也經(jīng)常使用蜘渣。比如對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),圖2所示的框架完全適用肺然,區(qū)別無(wú)非是Encoder部分的輸入是語(yǔ)音流蔫缸,輸出是對(duì)應(yīng)的文本信息;而對(duì)于“圖像描述”任務(wù)來(lái)說(shuō)狰挡,Encoder部分的輸入是一副圖片捂龄,Decoder的輸出是能夠描述圖片語(yǔ)義內(nèi)容的一句描述語(yǔ)。一般而言加叁,文本處理和語(yǔ)音識(shí)別的Encoder部分通常采用RNN模型倦沧,圖像處理的Encoder一般采用CNN模型。
Attention模型
本節(jié)先以機(jī)器翻譯作為例子講解最常見(jiàn)的Soft Attention模型的基本原理它匕,之后拋離Encoder-Decoder框架抽象出了注意力機(jī)制的本質(zhì)思想展融,然后簡(jiǎn)單介紹最近廣為使用的Self Attention的基本思路。
Soft Attention模型
圖2中展示的Encoder-Decoder框架是沒(méi)有體現(xiàn)出“注意力模型”的豫柬,所以可以把它看作是注意力不集中的分心模型告希。為什么說(shuō)它注意力不集中呢扑浸?請(qǐng)觀(guān)察下目標(biāo)句子Target中每個(gè)單詞的生成過(guò)程如下:
在翻譯“杰瑞”這個(gè)中文單詞的時(shí)候,分心模型里面的每個(gè)英文單詞對(duì)于翻譯目標(biāo)單詞“杰瑞”貢獻(xiàn)是相同的燕偶,很明顯這里不太合理喝噪,顯然“Jerry”對(duì)于翻譯成“杰瑞”更重要,但是分心模型是無(wú)法體現(xiàn)這一點(diǎn)的指么,這就是為何說(shuō)它沒(méi)有引入注意力的原因酝惧。
沒(méi)有引入注意力的模型在輸入句子比較短的時(shí)候問(wèn)題不大,但是如果輸入句子比較長(zhǎng)伯诬,此時(shí)所有語(yǔ)義完全通過(guò)一個(gè)中間語(yǔ)義向量來(lái)表示晚唇,單詞自身的信息已經(jīng)消失,可想而知會(huì)丟失很多細(xì)節(jié)信息盗似,這也是為何要引入注意力模型的重要原因哩陕。
上面的例子中,如果引入Attention模型的話(huà)赫舒,應(yīng)該在翻譯“杰瑞”的時(shí)候悍及,體現(xiàn)出英文單詞對(duì)于翻譯當(dāng)前中文單詞不同的影響程度,比如給出類(lèi)似下面一個(gè)概率分布值:
(Tom,0.3)(Chase,0.2) (Jerry,0.5)
每個(gè)英文單詞的概率代表了翻譯當(dāng)前單詞“杰瑞”時(shí)号阿,注意力分配模型分配給不同英文單詞的注意力大小并鸵。這對(duì)于正確翻譯目標(biāo)語(yǔ)單詞肯定是有幫助的,因?yàn)橐肓诵碌男畔ⅰ?/p>
圖3 引入注意力模型的Encoder-Decoder框架
即生成目標(biāo)句子單詞的過(guò)程成了下面的形式:
圖4 Attention的形成過(guò)程
這里還有一個(gè)問(wèn)題:生成目標(biāo)句子某個(gè)單詞扔涧,比如“湯姆”的時(shí)候园担,如何知道Attention模型所需要的輸入句子單詞注意力分配概率分布值呢?就是說(shuō)“湯姆”對(duì)應(yīng)的輸入句子Source中各個(gè)單詞的概率分布:(Tom,0.6)(Chase,0.2) (Jerry,0.2) 是如何得到的呢枯夜?
為了便于說(shuō)明弯汰,我們假設(shè)對(duì)圖2的非Attention模型的Encoder-Decoder框架進(jìn)行細(xì)化,Encoder采用RNN模型湖雹,Decoder也采用RNN模型咏闪,這是比較常見(jiàn)的一種模型配置,則圖2的框架轉(zhuǎn)換為圖5摔吏。
圖5 RNN作為具體模型的Encoder-Decoder框架
那么用圖6可以較為便捷地說(shuō)明注意力分配概率分布值的通用計(jì)算過(guò)程鸽嫂。
圖6 注意力分配概率計(jì)算
絕大多數(shù)Attention模型都是采取上述的計(jì)算框架來(lái)計(jì)算注意力分配概率分布信息,區(qū)別只是在F的定義上可能有所不同征讲。圖7可視化地展示了在英語(yǔ)-德語(yǔ)翻譯系統(tǒng)中加入Attention機(jī)制后据某,Source和Target兩個(gè)句子每個(gè)單詞對(duì)應(yīng)的注意力分配概率分布。
圖7 英語(yǔ)-德語(yǔ)翻譯的注意力概率分布
上述內(nèi)容就是經(jīng)典的Soft Attention模型的基本思想诗箍,那么怎么理解Attention模型的物理含義呢癣籽?一般在自然語(yǔ)言處理應(yīng)用里會(huì)把Attention模型看作是輸出Target句子中某個(gè)單詞和輸入Source句子每個(gè)單詞的對(duì)齊模型,這是非常有道理的。
目標(biāo)句子生成的每個(gè)單詞對(duì)應(yīng)輸入句子單詞的概率分布可以理解為輸入句子單詞和這個(gè)目標(biāo)生成單詞的對(duì)齊概率筷狼,這在機(jī)器翻譯語(yǔ)境下是非常直觀(guān)的:傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯一般在做的過(guò)程中會(huì)專(zhuān)門(mén)有一個(gè)短語(yǔ)對(duì)齊的步驟瓶籽,而注意力模型其實(shí)起的是相同的作用。
圖8 Google 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)結(jié)構(gòu)圖
圖8所示即為Google于2016年部署到線(xiàn)上的基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)埂材,相對(duì)傳統(tǒng)模型翻譯效果有大幅提升塑顺,翻譯錯(cuò)誤率降低了60%,其架構(gòu)就是上文所述的加上Attention機(jī)制的Encoder-Decoder框架楞遏,主要區(qū)別無(wú)非是其Encoder和Decoder使用了8層疊加的LSTM模型茬暇。
Attention機(jī)制的本質(zhì)思想
如果把Attention機(jī)制從上文講述例子中的Encoder-Decoder框架中剝離,并進(jìn)一步做抽象寡喝,可以更容易看懂Attention機(jī)制的本質(zhì)思想。
圖9 Attention機(jī)制的本質(zhì)思想
我們可以這樣來(lái)看待Attention機(jī)制(參考圖9):將Source中的構(gòu)成元素想象成是由一系列的<Key,Value>數(shù)據(jù)對(duì)構(gòu)成勒奇,此時(shí)給定Target中的某個(gè)元素Query预鬓,通過(guò)計(jì)算Query和各個(gè)Key的相似性或者相關(guān)性,得到每個(gè)Key對(duì)應(yīng)Value的權(quán)重系數(shù)赊颠,然后對(duì)Value進(jìn)行加權(quán)求和格二,即得到了最終的Attention數(shù)值。所以本質(zhì)上Attention機(jī)制是對(duì)Source中元素的Value值進(jìn)行加權(quán)求和竣蹦,而Query和Key用來(lái)計(jì)算對(duì)應(yīng)Value的權(quán)重系數(shù)顶猜。即可以將其本質(zhì)思想改寫(xiě)為如下公式:
當(dāng)然,從概念上理解痘括,把Attention仍然理解為從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上长窄,忽略大多不重要的信息,這種思路仍然成立纲菌。聚焦的過(guò)程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上挠日,權(quán)重越大越聚焦于其對(duì)應(yīng)的Value值上,即權(quán)重代表了信息的重要性翰舌,而Value是其對(duì)應(yīng)的信息嚣潜。
從圖9可以引出另外一種理解,也可以將Attention機(jī)制看作一種軟尋址(Soft Addressing):Source可以看作存儲(chǔ)器內(nèi)存儲(chǔ)的內(nèi)容椅贱,元素由地址Key和值Value組成懂算,當(dāng)前有個(gè)Key=Query的查詢(xún),目的是取出存儲(chǔ)器中對(duì)應(yīng)的Value值庇麦,即Attention數(shù)值计技。通過(guò)Query和存儲(chǔ)器內(nèi)元素Key的地址進(jìn)行相似性比較來(lái)尋址,之所以說(shuō)是軟尋址女器,指的不像一般尋址只從存儲(chǔ)內(nèi)容里面找出一條內(nèi)容酸役,而是可能從每個(gè)Key地址都會(huì)取出內(nèi)容,取出內(nèi)容的重要性根據(jù)Query和Key的相似性來(lái)決定,之后對(duì)Value進(jìn)行加權(quán)求和涣澡,這樣就可以取出最終的Value值贱呐,也即Attention值。所以不少研究人員將Attention機(jī)制看作軟尋址的一種特例入桂,這也是非常有道理的奄薇。
至于Attention機(jī)制的具體計(jì)算過(guò)程,如果對(duì)目前大多數(shù)方法進(jìn)行抽象的話(huà)抗愁,可以將其歸納為兩個(gè)過(guò)程:第一個(gè)過(guò)程是根據(jù)Query和Key計(jì)算權(quán)重系數(shù)馁蒂,第二個(gè)過(guò)程根據(jù)權(quán)重系數(shù)對(duì)Value進(jìn)行加權(quán)求和。而第一個(gè)過(guò)程又可以細(xì)分為兩個(gè)階段:第一個(gè)階段根據(jù)Query和Key計(jì)算兩者的相似性或者相關(guān)性蜘腌;第二個(gè)階段對(duì)第一階段的原始分值進(jìn)行歸一化處理沫屡;這樣,可以將Attention的計(jì)算過(guò)程抽象為如圖10展示的三個(gè)階段撮珠。
圖10 三階段計(jì)算Attention過(guò)程
在第一個(gè)階段沮脖,可以引入不同的函數(shù)和計(jì)算機(jī)制,根據(jù)Query和某個(gè)keyi芯急,計(jì)算兩者的相似性或者相關(guān)性勺届,最常見(jiàn)的方法包括:求兩者的向量點(diǎn)積、求兩者的向量Cosine相似性或者通過(guò)再引入額外的神經(jīng)網(wǎng)絡(luò)來(lái)求值娶耍,即如下方式:
第一階段產(chǎn)生的分值根據(jù)具體產(chǎn)生的方法不同其數(shù)值取值范圍也不一樣免姿,第二階段引入類(lèi)似SoftMax的計(jì)算方式對(duì)第一階段的得分進(jìn)行數(shù)值轉(zhuǎn)換,一方面可以進(jìn)行歸一化榕酒,將原始計(jì)算分值整理成所有元素權(quán)重之和為1的概率分布胚膊;另一方面也可以通過(guò)SoftMax的內(nèi)在機(jī)制更加突出重要元素的權(quán)重。即一般采用如下公式計(jì)算:
通過(guò)如上三個(gè)階段的計(jì)算奈应,即可求出針對(duì)Query的Attention數(shù)值澜掩,目前絕大多數(shù)具體的注意力機(jī)制計(jì)算方法都符合上述的三階段抽象計(jì)算過(guò)程。
Self Attention模型
通過(guò)上述對(duì)Attention本質(zhì)思想的梳理杖挣,我們可以更容易理解本節(jié)介紹的Self Attention模型肩榕。Self Attention也經(jīng)常被稱(chēng)為intra Attention(內(nèi)部Attention),最近一年也獲得了比較廣泛的使用惩妇,比如Google的機(jī)器翻譯模型內(nèi)部大量采用了Self Attention模型株汉。
在一般任務(wù)的Encoder-Decoder框架中,輸入Source和輸出Target內(nèi)容是不一樣的歌殃,比如對(duì)于英-中機(jī)器翻譯來(lái)說(shuō)乔妈,Source是英文句子,Target是對(duì)應(yīng)的翻譯出的中文句子氓皱,Attention機(jī)制發(fā)生在Target的元素Query和Source中的所有元素之間路召。而Self Attention顧名思義勃刨,指的不是Target和Source之間的Attention機(jī)制,而是Source內(nèi)部元素之間或者Target內(nèi)部元素之間發(fā)生的Attention機(jī)制股淡,也可以理解為T(mén)arget=Source這種特殊情況下的注意力計(jì)算機(jī)制身隐。其具體計(jì)算過(guò)程是一樣的,只是計(jì)算對(duì)象發(fā)生了變化而已唯灵,所以此處不再贅述其計(jì)算過(guò)程細(xì)節(jié)贾铝。
如果是常規(guī)的Target不等于Source情形下的注意力計(jì)算,其物理含義正如上文所講埠帕,比如對(duì)于機(jī)器翻譯來(lái)說(shuō)垢揩,本質(zhì)上是目標(biāo)語(yǔ)單詞和源語(yǔ)單詞之間的一種單詞對(duì)齊機(jī)制。那么如果是Self Attention機(jī)制敛瓷,一個(gè)很自然的問(wèn)題是:通過(guò)Self Attention到底學(xué)到了哪些規(guī)律或者抽取出了哪些特征呢叁巨?或者說(shuō)引入Self Attention有什么增益或者好處呢?我們?nèi)匀灰詸C(jī)器翻譯中的Self Attention來(lái)說(shuō)明琐驴,圖11和圖12是可視化地表示Self Attention在同一個(gè)英語(yǔ)句子內(nèi)單詞間產(chǎn)生的聯(lián)系俘种。
圖11 可視化Self Attention實(shí)例
圖12 可視化Self Attention實(shí)例
從兩張圖(圖11、圖12)可以看出绝淡,Self Attention可以捕獲同一個(gè)句子中單詞之間的一些句法特征(比如圖11展示的有一定距離的短語(yǔ)結(jié)構(gòu))或者語(yǔ)義特征(比如圖12展示的its的指代對(duì)象Law)。
很明顯苍姜,引入Self Attention后會(huì)更容易捕獲句子中長(zhǎng)距離的相互依賴(lài)的特征牢酵,因?yàn)槿绻荝NN或者LSTM,需要依次序序列計(jì)算衙猪,對(duì)于遠(yuǎn)距離的相互依賴(lài)的特征馍乙,要經(jīng)過(guò)若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來(lái),而距離越遠(yuǎn)垫释,有效捕獲的可能性越小丝格。
但是Self Attention在計(jì)算過(guò)程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái),所以遠(yuǎn)距離依賴(lài)特征之間的距離被極大縮短棵譬,有利于有效地利用這些特征显蝌。除此外,Self Attention對(duì)于增加計(jì)算的并行性也有直接幫助作用订咸。這是為何Self Attention逐漸被廣泛使用的主要原因曼尊。
Attention機(jī)制的應(yīng)用
前文有述,Attention機(jī)制在深度學(xué)習(xí)的各種應(yīng)用領(lǐng)域都有廣泛的使用場(chǎng)景脏嚷。上文在介紹過(guò)程中我們主要以自然語(yǔ)言處理中的機(jī)器翻譯任務(wù)作為例子骆撇,下面分別再?gòu)膱D像處理領(lǐng)域和語(yǔ)音識(shí)別選擇典型應(yīng)用實(shí)例來(lái)對(duì)其應(yīng)用做簡(jiǎn)單說(shuō)明。
圖13 圖片-描述任務(wù)的Encoder-Decoder框架
圖片描述(Image-Caption)是一種典型的圖文結(jié)合的深度學(xué)習(xí)應(yīng)用父叙,輸入一張圖片神郊,人工智能系統(tǒng)輸出一句描述句子肴裙,語(yǔ)義等價(jià)地描述圖片所示內(nèi)容。很明顯這種應(yīng)用場(chǎng)景也可以使用Encoder-Decoder框架來(lái)解決任務(wù)目標(biāo)涌乳,此時(shí)Encoder輸入部分是一張圖片蜻懦,一般會(huì)用CNN來(lái)對(duì)圖片進(jìn)行特征抽取,Decoder部分使用RNN或者LSTM來(lái)輸出自然語(yǔ)言句子(參考圖13)爷怀。
此時(shí)如果加入Attention機(jī)制能夠明顯改善系統(tǒng)輸出效果阻肩,Attention模型在這里起到了類(lèi)似人類(lèi)視覺(jué)選擇性注意的機(jī)制,在輸出某個(gè)實(shí)體單詞的時(shí)候會(huì)將注意力焦點(diǎn)聚焦在圖片中相應(yīng)的區(qū)域上运授。圖14給出了根據(jù)給定圖片生成句子“A person is standing on a beach with a surfboard.”過(guò)程時(shí)每個(gè)單詞對(duì)應(yīng)圖片中的注意力聚焦區(qū)域烤惊。
圖14 圖片生成句子中每個(gè)單詞時(shí)的注意力聚焦區(qū)域
圖15給出了另外四個(gè)例子形象地展示了這種過(guò)程,每個(gè)例子上方左側(cè)是輸入的原圖吁朦,下方句子是人工智能系統(tǒng)自動(dòng)產(chǎn)生的描述語(yǔ)句柒室,上方右側(cè)圖展示了當(dāng)AI系統(tǒng)產(chǎn)生語(yǔ)句中劃?rùn)M線(xiàn)單詞的時(shí)候,對(duì)應(yīng)圖片中聚焦的位置區(qū)域逗宜。比如當(dāng)輸出單詞dog的時(shí)候雄右,AI系統(tǒng)會(huì)將注意力更多地分配給圖片中小狗對(duì)應(yīng)的位置。
圖15 圖像描述任務(wù)中Attention機(jī)制的聚焦作用
圖16 語(yǔ)音識(shí)別中音頻序列和輸出字符之間的Attention
語(yǔ)音識(shí)別的任務(wù)目標(biāo)是將語(yǔ)音流信號(hào)轉(zhuǎn)換成文字纺讲,所以也是Encoder-Decoder的典型應(yīng)用場(chǎng)景擂仍。Encoder部分的Source輸入是語(yǔ)音流信號(hào),Decoder部分輸出語(yǔ)音對(duì)應(yīng)的字符串流熬甚。
圖16可視化地展示了在Encoder-Decoder框架中加入Attention機(jī)制后逢渔,當(dāng)用戶(hù)用語(yǔ)音說(shuō)句子 how much would a woodchuck chuck 時(shí),輸入部分的聲音特征信號(hào)和輸出字符之間的注意力分配概率分布情況乡括,顏色越深代表分配到的注意力概率越高肃廓。從圖中可以看出,在這個(gè)場(chǎng)景下诲泌,Attention機(jī)制起到了將輸出字符和輸入語(yǔ)音信號(hào)進(jìn)行對(duì)齊的功能盲赊。
上述內(nèi)容僅僅選取了不同AI領(lǐng)域的幾個(gè)典型Attention機(jī)制應(yīng)用實(shí)例,Encoder-Decoder加Attention架構(gòu)由于其卓越的實(shí)際效果敷扫,目前在深度學(xué)習(xí)領(lǐng)域里得到了廣泛的使用哀蘑,了解并熟練使用這一架構(gòu)對(duì)于解決實(shí)際問(wèn)題會(huì)有極大幫助。
作者簡(jiǎn)介:張俊林呻澜,中科院軟件所博士递礼,曾擔(dān)任阿里巴巴、百度羹幸、用友等公司資深技術(shù)專(zhuān)家及技術(shù)總監(jiān)職位脊髓,目前在新浪微博AI實(shí)驗(yàn)室擔(dān)任資深算法專(zhuān)家,關(guān)注深度學(xué)習(xí)在自然語(yǔ)言處理方面的應(yīng)用栅受。