Attention的可解釋性及其在網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用

來源: AINLPer 微信公眾號(每日更新...
編輯: ShuYini
校稿: ShuYini
時間: 2020-06-18

引言

???? 本文首先討論了使用注意力的關(guān)鍵神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)仑嗅;接著討論了在神經(jīng)網(wǎng)絡(luò)中加入注意力是如何帶來顯著的性能提高的烤宙,通過Attention的可解釋性炬守,對神經(jīng)網(wǎng)絡(luò)內(nèi)部工作的有了更深入的了解妄田;最后討論了三個應(yīng)用領(lǐng)域的注意建模的應(yīng)用砍艾。

Attention在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用

????面將介紹三種與注意力機(jī)制結(jié)合使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):
????(1)編碼器-解碼器框架
????(2)將注意力機(jī)制擴(kuò)展到單個輸入序列之外的存儲網(wǎng)絡(luò)
????(3)利用注意力機(jī)制繞過遞歸模型的序列處理。

Attention在編解碼器框架下的使用

???? 最早的注意力機(jī)制作為基于RNN的編碼器-解碼器框架的一部分來編碼長輸入語句。在此以后,這種體系結(jié)構(gòu)得到了最廣泛的應(yīng)用林束。在解碼之前,AM可以接受任何輸入表示并將其處理成單個固定長度的上下文向量稽亏。因此壶冒,它可以將輸入表示與輸出表示分離。人們可以利用這一優(yōu)勢引入混合編碼器-解碼器截歉,最流行的是卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為編碼器胖腾,RNN或長短期存儲器(LSTM)作為解碼器。這種體系結(jié)構(gòu)特別適用于許多多模式任務(wù)怎披,如圖像和視頻字幕胸嘁、可視問答和語音識別。
????然而采用上述方式并不能解決所有的問題(例如排序或旅行推銷員問題)凉逛,因?yàn)椴⒎撬休斎牒洼敵龆际沁B續(xù)數(shù)據(jù)性宏。指針網(wǎng)絡(luò)就是一類具有輸入輸出兩個差異的神經(jīng)模型,(1)輸出是離散的状飞,指向輸入序列中的位置(因此稱為指針網(wǎng)絡(luò))毫胜,(2)輸出的每一步目標(biāo)類的數(shù)量取決于輸入的長度(因此變量)书斜。這不能通過使用傳統(tǒng)的編碼器-解碼器框架來實(shí)現(xiàn),因?yàn)檩敵鲎值涫窍闰?yàn)的(例如酵使,在自然語言建模的情況下)荐吉。作者利用注意力機(jī)制權(quán)值來模擬在每個輸出位置選擇第i個輸入符號作為所選符號的概率。該方法可應(yīng)用于離散優(yōu)化問題口渔,如旅行售貨員問題和排序問題样屠。

Attention在內(nèi)存網(wǎng)絡(luò)中的應(yīng)用

????像問答和聊天機(jī)器人這樣的應(yīng)用程序需要利用知識庫中的信息進(jìn)行學(xué)習(xí)。網(wǎng)絡(luò)的輸入是一個請求以及與請求相關(guān)的知識缺脉。端到端內(nèi)存網(wǎng)絡(luò)使用一組內(nèi)存塊存儲知識痪欲,當(dāng)使用attention回復(fù)查詢請求時,在內(nèi)存中會為每個知識建立關(guān)聯(lián)模型攻礼。通過目標(biāo)連續(xù)业踢、反向傳播的進(jìn)行端到端的訓(xùn)練,attention還具有計算優(yōu)勢礁扮。端到端內(nèi)存網(wǎng)絡(luò)可以看作是AM的一種泛化知举,它不是只在單個序列上建模注意力,而是在一個包含大量序列(事實(shí))的知識庫上建模注意力機(jī)制太伊。

Attention繞過遞歸順序處理

????遞歸結(jié)構(gòu)依賴于編碼階段對輸入順序的處理雇锡,此時處理不能并行化,這會導(dǎo)致計算效率低下倦畅。為了解決這個問題遮糖,作者[1]提出了一種Transformer結(jié)構(gòu),其中編碼器和解碼器由兩個子層相同的堆棧組成:位置定向前饋網(wǎng)絡(luò)(FFN)層和多頭自注意層叠赐。
????位置定向前饋網(wǎng)絡(luò)FFN:輸入是順序的欲账,要求模型利用輸入時間方面的信息,而不使用捕捉該位置信息的組件(即RNNs/CNNs)芭概。為了解釋這一點(diǎn)赛不,在Transformer編碼器階段,使用按位置的FFN為輸入序列的每個令牌生成內(nèi)容嵌入與位置編碼罢洲。
????多頭自注意力:在每一子層中使用自注意來關(guān)聯(lián)標(biāo)記其在同一輸入序列中的位置踢故。由于多個注意層是平行疊加的,對相同的輸入進(jìn)行不同的線性變換惹苗,所以我們稱之為多頭注意殿较。這有助于模型捕獲輸入的各個方面,并提高其性能桩蓉。
???? Transformer結(jié)構(gòu)實(shí)現(xiàn)了并行處理淋纲,訓(xùn)練時間短,翻譯精度高院究,無需任何重復(fù)的組件洽瞬,具有顯著的優(yōu)勢本涕。然而,位置編碼包含的位置信息較少伙窃,可能不適用于對位置變化更敏感的問題菩颖。
????此外,還有一些更直接的方法可以中斷輸入處理順序为障。Raffel和Ellis[2]提出的前饋?zhàn)⒁饬δP突奕颍麄兪褂肁M來折疊數(shù)據(jù)的時間維度,使用FFNs而不是RNNs來解決順序數(shù)據(jù)問題鳍怨。在這個場景中鹅髓,AM被用來從可變長度的輸入序列中產(chǎn)生一個固定長度的上下文向量,這個向量可以作為FFN的輸入京景。

參考文獻(xiàn)

????[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
????[2] Colin Raffel and Daniel PW Ellis. Feed-forward networks with attention can solve some long-term memory problems. arXiv preprint arXiv:1512.08756, 2015.

Attention的可解釋性

???? 受到模型的性能以及透明度和公平性的推動,人工智能模型的可解釋性引起了人們的極大興趣骗奖。然而确徙,神經(jīng)網(wǎng)絡(luò),特別是深度學(xué)習(xí)架構(gòu)因其缺乏可解釋性而受到廣泛的吐槽执桌。
????從可解釋性的角度來看鄙皇,建模注意力機(jī)制特別有用,因?yàn)樗试S我們直接檢查深度學(xué)習(xí)架構(gòu)的內(nèi)部工作仰挣。假設(shè)注意力權(quán)重的重要性與序列中每個位置的輸出的預(yù)測和輸入的特定區(qū)域的相關(guān)程度高度相關(guān)伴逸。這可以通過可視化一組輸入和輸出對的注意權(quán)重來輕松實(shí)現(xiàn)。Li等人[1]堅持把注意力作為解釋神經(jīng)模型內(nèi)部工作的重要途徑之一膘壶。

????如圖4(a)所示错蝴,Bahdanau等[2],盡管主謂名詞的位置因語言而異,但在法語和英語中颓芭,視覺化的注意權(quán)重清楚地顯示句子的自動對齊顷锰。特別地,注意模型通過將 environnement marin 與 marin environnement 正確地對齊來顯示非單調(diào)對齊亡问。圖4(b)顯示注意權(quán)重有助于識別用戶的興趣官紫。用戶1似乎更喜歡“卡通”視頻,而用戶2更喜歡“動物”視頻[3]州藕。最后束世,徐等人[4]提提供對圖像字幕任務(wù)中生成的文本有顯著影響的相關(guān)圖像區(qū)域(即高度關(guān)注權(quán)重)的大量可視化列表(如圖4(c)所示)。

參考文獻(xiàn)

????[1] Jiwei Li, Will Monroe, and Dan Jurafsky. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220, 2016.
????[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
????[3] Xiangnan He, Zhankui He, Jingkuan Song, Zhenguang Liu, YuGang Jiang, and Tat-Seng Chua. Nais: Neural attentive item similarity model for recommendation. IEEE TKDE, 30(12):2354– 2366, 2018.
????[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.

Attention 的應(yīng)用

????注意力模型由于其直觀性床玻、通用性和可解釋性毁涉,已成為研究的一個活躍領(lǐng)域。注意力模型的變體已經(jīng)被用來處理不同應(yīng)用領(lǐng)域的獨(dú)特特征笨枯,如總結(jié)薪丁、閱讀理解遇西、語言建模、解析等严嗜。這里主要討論三個應(yīng)用領(lǐng)域的注意建模:(i)自然語言生成(NLG)粱檀,(ii)分類和(iii)推薦系統(tǒng)
???? NLGNLG任務(wù)包括生成自然語言文本作為輸出。一些NLG應(yīng)用程序從合并AM中受益漫玄,包括機(jī)器翻譯(MT)茄蚯、問答(QA)和多媒體描述(MD)。
???? MT機(jī)器翻譯使用算法將文本或語音從一種語言翻譯到另一種語言睦优。針對機(jī)器翻譯的神經(jīng)技術(shù)中的注意力建纳#可以更好地對齊不同語言中的句子,這是機(jī)器翻譯中的一個關(guān)鍵問題汗盘。在翻譯較長的句子時皱碘,注意力模型的優(yōu)勢也變得更加明顯[1],使用注意力可以改善機(jī)器翻譯的性能隐孽。
???? QA問答利用注意力(i)通過關(guān)注問題的相關(guān)部分來更好地理解問題癌椿;(ii)使用內(nèi)存網(wǎng)絡(luò)存儲大量信息以幫助找到答案;(iii)通過使用共同注意對輸入中的多模態(tài)進(jìn)行建模,提高視覺質(zhì)量保證任務(wù)的性能
???? MD多媒體描述是生成多媒體輸入序列的自然語言文本描述的任務(wù)睦疫,可以是演講廊遍、圖像和視頻。與QA類似,這里attention在語音輸入或圖像輸入的相關(guān)部分中查找相關(guān)聲學(xué)信號,以預(yù)測標(biāo)題中的下一個單詞。此外琳钉,Li等人[1]利用視頻的時空結(jié)構(gòu),將多層次注意力用于視頻字幕任務(wù)蛛倦。較低的抽象層在一個框架內(nèi)提取特定的區(qū)域槽卫,較高的抽象層有選擇地集中在框架的小子集上。
???? 文本分類主要是使用 self-attention 來構(gòu)建更有效的文檔表示胰蝠。Keila等人[2]提出一個多表征的自我注意模型歼培。
???? 情感分析在情緒分析任務(wù)中,self-attention 有助于關(guān)注對確定輸入情緒很重要的詞茸塞;Ma等人[3]將相關(guān)概念的額外知識納入模型躲庄,并將注意力用于適當(dāng)權(quán)衡內(nèi)容本身之間的關(guān)系。
???? 推薦系統(tǒng)將注意力權(quán)重分配給用戶的交互項(xiàng)目以更有效的方式捕獲長期和短期利益钾虐。例如以更有效的方式將注意力權(quán)重分配給用戶的交互項(xiàng)目噪窘,以獲取長期和短期興趣。這只是直觀的效扫,因?yàn)橛脩舻乃薪换ザ寂c項(xiàng)目的推薦無關(guān)倔监,用戶的興趣是短暫的直砂,并且在長時間和短時間內(nèi)都會發(fā)生變化。多篇論文使用自我關(guān)注機(jī)制來尋找用戶歷史上最相關(guān)的條目浩习,以改進(jìn)條目推薦静暂,或者使用協(xié)作過濾框架[4],或者在用于順序推薦的編碼器架構(gòu)內(nèi)[5]谱秽。
????近年來洽蛀,人們的注意力以新穎的方式被利用,為研究開辟了新的途徑疟赊。一些有趣的方向包括更平滑地整合外部知識庫郊供、訓(xùn)練前嵌入和多任務(wù)學(xué)習(xí)、無監(jiān)督的代表性學(xué)習(xí)近哟、稀疏性學(xué)習(xí)和原型學(xué)習(xí)驮审,即樣本選擇。

參考文獻(xiàn)

????[1] Xuelong Li, Bin Zhao, Xiaoqiang Lu, et al. Mam-rnn: Multi-level attention model based rnn for video captioning. In IJCAI, pages 2208–2214, 2017.
????[2] Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In EMNLP, pages 1466–1477, 2018.
????[3] Yukun Ma, Haiyun Peng, and Erik Cambria. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive lstm. In AAAI, 2018.
????[4] Min Yang Baocheng Li Qiang Qu Jialie Shen Shuai Yu, Yongbo Wang. Nairs: A neural attentive interpretable recommendation system. The Web Conference(WWW), 2019.
????[5] Chang Zhou, Jinze Bai, Junshuai Song, Xiaofei Liu, Zhengchao Zhao, Xiusi Chen, and Jun Gao. Atrank: An attention-based user behavior modeling framework for recommendation. In AAAI, 2018.

Attention

更多自然語言處理相關(guān)知識吉执,還請關(guān)注AINLPer公眾號头岔,極品干貨即刻送達(dá)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鼠证,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子靠抑,更是在濱河造成了極大的恐慌量九,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件颂碧,死亡現(xiàn)場離奇詭異荠列,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)载城,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門肌似,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人诉瓦,你說我怎么就攤上這事川队。” “怎么了睬澡?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵固额,是天一觀的道長。 經(jīng)常有香客問我煞聪,道長斗躏,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任昔脯,我火速辦了婚禮啄糙,結(jié)果婚禮上笛臣,老公的妹妹穿的比我還像新娘。我一直安慰自己隧饼,他們只是感情好沈堡,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著桑李,像睡著了一般踱蛀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贵白,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天率拒,我揣著相機(jī)與錄音,去河邊找鬼禁荒。 笑死猬膨,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呛伴。 我是一名探鬼主播勃痴,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼热康!你這毒婦竟也來了沛申?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤姐军,失蹤者是張志新(化名)和其女友劉穎铁材,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奕锌,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡著觉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了惊暴。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片饼丘。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辽话,靈堂內(nèi)的尸體忽然破棺而出肄鸽,到底是詐尸還是另有隱情,我是刑警寧澤油啤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布贴捡,位于F島的核電站,受9級特大地震影響村砂,放射性物質(zhì)發(fā)生泄漏烂斋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望汛骂。 院中可真熱鬧罕模,春花似錦、人聲如沸帘瞭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蝶念。三九已至抛腕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間媒殉,已是汗流浹背担敌。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留廷蓉,地道東北人全封。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像桃犬,于是被迫代替她去往敵國和親刹悴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344