本文主要用于記錄發(fā)表于2015年的一篇神作(引用量上千)旺嬉。該論文將注意力機制在機器翻譯的領(lǐng)域進行了升級管行,而本筆記意在方便初學(xué)者快速入門,以及自我回顧邪媳。
論文鏈接:http://aclweb.org/anthology/D15-1166
基本目錄如下:
- 摘要
- 核心思想
- 總結(jié)
------------------第一菇 - 摘要------------------
1.1 論文摘要
近年來注意力機制被運用于神經(jīng)機器翻譯模型已是常態(tài)捐顷,但卻很少有論文專注于對注意力架構(gòu)的改進。本論文就提出了兩種簡單但卻有效的注意力機制雨效,全局注意力(global)和局部注意力(local)迅涮。其中,局部注意力機制的運用使得神經(jīng)機器翻譯模型遠勝于非注意力機制模型(5個BLEU點)徽龟。在融合了各個注意力機制模型之后叮姑,更是刷新了一波英文翻德文的記錄。
------------------第二菇 - 核心思想------------------
2.1 注意力機制介紹
本文提出的兩種注意力機制(global & local)其本質(zhì)區(qū)別在于顿肺,全局注意力會參考所有輸入詞戏溺,而局部注意力只會考慮部分輸入詞。而全局注意力屠尊,其實可以簡單理解為soft_attention的簡化版(可參考本菇另一篇論文筆記] ,而局部注意力耕拷,可以簡單理解介于hard_attention和sorf_attention之間讼昆,但是耗費更短的時間來訓(xùn)練。流程上來理解骚烧,全局和局部注意力機制唯一的不同就是生成(語境向量)的方法浸赫,而一旦有了
之后,接下來的步驟都是一樣的赃绊,我們新的隱狀態(tài)即為既峡,
然后這個注意力向量就會被傳入一個softmax層,來預(yù)測當(dāng)前詞碧查,
接下來运敢,我們就來仔細聊一下這兩種注意力機制。
2.2 全局注意力機制介紹
該注意力機制重點在于考慮所有輸入的隱狀態(tài)來生成語境向量忠售。與soft_attention類似传惠,該注意力機制也是有對齊向量()的概念,不同的是稻扬,該對齊向量的計算更簡單卦方,直接由當(dāng)前隱狀態(tài)(
)和每一個輸入隱狀態(tài)(
)計算得出權(quán)重,其計算公式如下泰佳,
其中作者設(shè)計了三種打分函數(shù)(劇透一下盼砍,最后general的效果最好)尘吗。有了對齊向量以后,語境向量就很好生成了浇坐,這里再貼一張原論文的圖睬捶,方便大家理解,
看了圖應(yīng)該就一目了然了吗跋,所以說侧戴,這種全局注意力的計算及實現(xiàn)方法是真的很簡單,而且也沒用高深的計算公式跌宛,也沒用復(fù)雜的神經(jīng)網(wǎng)絡(luò)酗宋。這里論文作者多談了幾句和soft_attention的區(qū)別,重點就是本論文的計算路徑簡單了很多(雖然本菇還是有一點疑惑疆拘,這一點區(qū)別的理解蜕猫,因為從本質(zhì)上來看,本菇覺得計算開銷都很大哎迄,可能還需仔細閱讀源碼回右,先mark,后期來補漱挚,歡迎大神解惑)翔烁。
2.3 局部注意力機制介紹
局部注意力機制其實就是為了解決全局注意力機制計算開銷過大的問題,比如篇章級或者長句的翻譯旨涝,遍歷所有的隱狀態(tài)來求對齊向量顯然比較困難蹬屹,因此,局部注意力白华,如其名慨默,只會關(guān)注部分隱狀態(tài)。因此弧腥,該機制的重點就在于如何找尋與預(yù)測詞對應(yīng)的隱狀態(tài)厦取。而論文中也給出了2種找尋的辦法,
1)單一映射管搪。即同一時刻的預(yù)測詞與輸入詞應(yīng)該具有強關(guān)聯(lián)關(guān)系虾攻。確定了目標隱狀態(tài)之后,再劃定一個窗口D抛蚤,則可以擴大視野台谢,然后再用上面global的計算語境向量的方法即可。
2)顯然單一映射岁经,太過暴力了朋沮,更多的還是采用一種預(yù)測的辦法。一種求解對應(yīng)隱狀態(tài)區(qū)間的計算公式為,
其中為句子長度樊拓,
都是模型的參數(shù)纠亚。另外為了更好的計算對齊向量,還引入了高斯分布筋夏,如公式(11)蒂胞。這里,再貼一張原論文的圖条篷,加深大家對局部注意力機制的理解骗随,
2.3 論文實驗結(jié)果分析
論文作者把自己提出的框架都挨個試了一遍,這里就不具體展現(xiàn)了赴叹。有興趣的讀者可以自行研讀鸿染。總體看下來的感覺就是全局和局部的注意力機制也都各有優(yōu)劣乞巧,大家還是要結(jié)合具體的業(yè)務(wù)涨椒,嘗試過后,再做具體的選擇绽媒。
------------------第三菇 - 總結(jié)------------------
3.1 總結(jié)
到這里蚕冬,整篇論文的核心思想及其創(chuàng)新點已經(jīng)說清楚了。本論文主要集中在于對注意力機制的改進是辕,提出的全局和局部注意力機制囤热,都足夠新奇,但也都在情理之中获三。主要還是拓寬了我們設(shè)計注意力機制的思路赢乓。
簡單總結(jié)一下本文就是先羅列了一下該論文的摘要,再具體介紹了一下注意力機制石窑,尤其是全局和局部注意力機制那一塊的理論。希望大家讀完本文后能進一步加深對該論文的理解蚓炬。有說的不對的地方也請大家指出松逊,多多交流,大家一起進步~??