Attention的可解釋性及其在網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用

來源: AINLPer 微信公眾號（每日更新...）
編輯: ShuYini
校稿: ShuYini
時間: 2020-06-18

引言

???? 本文首先討論了使用注意力的關(guān)鍵神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)仑嗅；接著討論了在神經(jīng)網(wǎng)絡(luò)中加入注意力是如何帶來顯著的性能提高的烤宙，通過Attention的可解釋性炬守，對神經(jīng)網(wǎng)絡(luò)內(nèi)部工作的有了更深入的了解妄田；最后討論了三個應(yīng)用領(lǐng)域的注意建模的應(yīng)用砍艾。

Attention在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用

????面將介紹三種與注意力機(jī)制結(jié)合使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：
????（1）編碼器-解碼器框架
????（2）將注意力機(jī)制擴(kuò)展到單個輸入序列之外的存儲網(wǎng)絡(luò)
????（3）利用注意力機(jī)制繞過遞歸模型的序列處理。

Attention在編解碼器框架下的使用

???? 最早的注意力機(jī)制作為基于RNN的編碼器-解碼器框架的一部分來編碼長輸入語句。在此以后，這種體系結(jié)構(gòu)得到了最廣泛的應(yīng)用林束。在解碼之前，AM可以接受任何輸入表示并將其處理成單個固定長度的上下文向量稽亏。因此壶冒，它可以將輸入表示與輸出表示分離。人們可以利用這一優(yōu)勢引入混合編碼器-解碼器截歉，最流行的是卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為編碼器胖腾，RNN或長短期存儲器（LSTM）作為解碼器。這種體系結(jié)構(gòu)特別適用于許多多模式任務(wù)怎披，如圖像和視頻字幕胸嘁、可視問答和語音識別。
????然而采用上述方式并不能解決所有的問題（例如排序或旅行推銷員問題）凉逛，因?yàn)椴⒎撬休斎牒洼敵龆际沁B續(xù)數(shù)據(jù)性宏。指針網(wǎng)絡(luò)就是一類具有輸入輸出兩個差異的神經(jīng)模型，（1）輸出是離散的状飞，指向輸入序列中的位置（因此稱為指針網(wǎng)絡(luò)）毫胜，（2）輸出的每一步目標(biāo)類的數(shù)量取決于輸入的長度(因此變量)书斜。這不能通過使用傳統(tǒng)的編碼器-解碼器框架來實(shí)現(xiàn)，因?yàn)檩敵鲎值涫窍闰?yàn)的（例如酵使，在自然語言建模的情況下）荐吉。作者利用注意力機(jī)制權(quán)值來模擬在每個輸出位置選擇第i個輸入符號作為所選符號的概率。該方法可應(yīng)用于離散優(yōu)化問題口渔，如旅行售貨員問題和排序問題样屠。

Attention在內(nèi)存網(wǎng)絡(luò)中的應(yīng)用

????像問答和聊天機(jī)器人這樣的應(yīng)用程序需要利用知識庫中的信息進(jìn)行學(xué)習(xí)。網(wǎng)絡(luò)的輸入是一個請求以及與請求相關(guān)的知識缺脉。端到端內(nèi)存網(wǎng)絡(luò)使用一組內(nèi)存塊存儲知識痪欲，當(dāng)使用attention回復(fù)查詢請求時，在內(nèi)存中會為每個知識建立關(guān)聯(lián)模型攻礼。通過目標(biāo)連續(xù)业踢、反向傳播的進(jìn)行端到端的訓(xùn)練，attention還具有計算優(yōu)勢礁扮。端到端內(nèi)存網(wǎng)絡(luò)可以看作是AM的一種泛化知举，它不是只在單個序列上建模注意力，而是在一個包含大量序列(事實(shí))的知識庫上建模注意力機(jī)制太伊。

Attention繞過遞歸順序處理

????遞歸結(jié)構(gòu)依賴于編碼階段對輸入順序的處理雇锡，此時處理不能并行化，這會導(dǎo)致計算效率低下倦畅。為了解決這個問題遮糖，作者[1]提出了一種Transformer結(jié)構(gòu)，其中編碼器和解碼器由兩個子層相同的堆棧組成：位置定向前饋網(wǎng)絡(luò)（FFN）層和多頭自注意層叠赐。
????位置定向前饋網(wǎng)絡(luò)FFN：輸入是順序的欲账，要求模型利用輸入時間方面的信息，而不使用捕捉該位置信息的組件（即RNNs/CNNs）芭概。為了解釋這一點(diǎn)赛不，在Transformer編碼器階段，使用按位置的FFN為輸入序列的每個令牌生成內(nèi)容嵌入與位置編碼罢洲。
????多頭自注意力：在每一子層中使用自注意來關(guān)聯(lián)標(biāo)記其在同一輸入序列中的位置踢故。由于多個注意層是平行疊加的，對相同的輸入進(jìn)行不同的線性變換惹苗，所以我們稱之為多頭注意殿较。這有助于模型捕獲輸入的各個方面，并提高其性能桩蓉。
???? Transformer結(jié)構(gòu)實(shí)現(xiàn)了并行處理淋纲，訓(xùn)練時間短，翻譯精度高院究，無需任何重復(fù)的組件洽瞬，具有顯著的優(yōu)勢本涕。然而，位置編碼包含的位置信息較少伙窃，可能不適用于對位置變化更敏感的問題菩颖。
????此外，還有一些更直接的方法可以中斷輸入處理順序为障。Raffel和Ellis[2]提出的前饋?zhàn)⒁饬δＰ突奕颍麄兪褂肁M來折疊數(shù)據(jù)的時間維度，使用FFNs而不是RNNs來解決順序數(shù)據(jù)問題鳍怨。在這個場景中鹅髓，AM被用來從可變長度的輸入序列中產(chǎn)生一個固定長度的上下文向量，這個向量可以作為FFN的輸入京景。

參考文獻(xiàn)

????[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
????[2] Colin Raffel and Daniel PW Ellis. Feed-forward networks with attention can solve some long-term memory problems. arXiv preprint arXiv:1512.08756, 2015.

Attention的可解釋性

???? 受到模型的性能以及透明度和公平性的推動，人工智能模型的可解釋性引起了人們的極大興趣骗奖。然而确徙，神經(jīng)網(wǎng)絡(luò)，特別是深度學(xué)習(xí)架構(gòu)因其缺乏可解釋性而受到廣泛的吐槽执桌。
????從可解釋性的角度來看鄙皇，建模注意力機(jī)制特別有用，因?yàn)樗试S我們直接檢查深度學(xué)習(xí)架構(gòu)的內(nèi)部工作仰挣。假設(shè)注意力權(quán)重的重要性與序列中每個位置的輸出的預(yù)測和輸入的特定區(qū)域的相關(guān)程度高度相關(guān)伴逸。這可以通過可視化一組輸入和輸出對的注意權(quán)重來輕松實(shí)現(xiàn)。Li等人[1]堅持把注意力作為解釋神經(jīng)模型內(nèi)部工作的重要途徑之一膘壶。

????如圖4（a）所示错蝴，Bahdanau等[2],盡管主謂名詞的位置因語言而異，但在法語和英語中颓芭，視覺化的注意權(quán)重清楚地顯示句子的自動對齊顷锰。特別地，注意模型通過將 environnement marin 與 marin environnement 正確地對齊來顯示非單調(diào)對齊亡问。圖4（b）顯示注意權(quán)重有助于識別用戶的興趣官紫。用戶1似乎更喜歡“卡通”視頻，而用戶2更喜歡“動物”視頻[3]州藕。最后束世，徐等人[4]提提供對圖像字幕任務(wù)中生成的文本有顯著影響的相關(guān)圖像區(qū)域(即高度關(guān)注權(quán)重)的大量可視化列表（如圖4（c）所示）。

參考文獻(xiàn)

????[1] Jiwei Li, Will Monroe, and Dan Jurafsky. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220, 2016.
????[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
????[3] Xiangnan He, Zhankui He, Jingkuan Song, Zhenguang Liu, YuGang Jiang, and Tat-Seng Chua. Nais: Neural attentive item similarity model for recommendation. IEEE TKDE, 30(12):2354– 2366, 2018.
????[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.

Attention 的應(yīng)用

????注意力模型由于其直觀性床玻、通用性和可解釋性毁涉，已成為研究的一個活躍領(lǐng)域。注意力模型的變體已經(jīng)被用來處理不同應(yīng)用領(lǐng)域的獨(dú)特特征笨枯，如總結(jié)薪丁、閱讀理解遇西、語言建模、解析等严嗜。這里主要討論三個應(yīng)用領(lǐng)域的注意建模：（i）自然語言生成（NLG）粱檀，（ii）分類和（iii）推薦系統(tǒng)
???? NLG：NLG任務(wù)包括生成自然語言文本作為輸出。一些NLG應(yīng)用程序從合并AM中受益漫玄，包括機(jī)器翻譯（MT）茄蚯、問答（QA）和多媒體描述（MD）。
???? MT：機(jī)器翻譯使用算法將文本或語音從一種語言翻譯到另一種語言睦优。針對機(jī)器翻譯的神經(jīng)技術(shù)中的注意力建纳＃可以更好地對齊不同語言中的句子，這是機(jī)器翻譯中的一個關(guān)鍵問題汗盘。在翻譯較長的句子時皱碘，注意力模型的優(yōu)勢也變得更加明顯[1]，使用注意力可以改善機(jī)器翻譯的性能隐孽。
???? QA：問答利用注意力（i）通過關(guān)注問題的相關(guān)部分來更好地理解問題癌椿；（ii）使用內(nèi)存網(wǎng)絡(luò)存儲大量信息以幫助找到答案；（iii）通過使用共同注意對輸入中的多模態(tài)進(jìn)行建模，提高視覺質(zhì)量保證任務(wù)的性能。
???? MD：多媒體描述是生成多媒體輸入序列的自然語言文本描述的任務(wù)睦疫，可以是演講廊遍、圖像和視頻。與QA類似，這里attention在語音輸入或圖像輸入的相關(guān)部分中查找相關(guān)聲學(xué)信號，以預(yù)測標(biāo)題中的下一個單詞。此外琳钉，Li等人[1]利用視頻的時空結(jié)構(gòu)，將多層次注意力用于視頻字幕任務(wù)蛛倦。較低的抽象層在一個框架內(nèi)提取特定的區(qū)域槽卫，較高的抽象層有選擇地集中在框架的小子集上。
???? 文本分類：主要是使用 self-attention 來構(gòu)建更有效的文檔表示胰蝠。Keila等人[2]提出一個多表征的自我注意模型歼培。
???? 情感分析：在情緒分析任務(wù)中，self-attention 有助于關(guān)注對確定輸入情緒很重要的詞茸塞；Ma等人[3]將相關(guān)概念的額外知識納入模型躲庄，并將注意力用于適當(dāng)權(quán)衡內(nèi)容本身之間的關(guān)系。
???? 推薦系統(tǒng)：將注意力權(quán)重分配給用戶的交互項(xiàng)目以更有效的方式捕獲長期和短期利益钾虐。例如以更有效的方式將注意力權(quán)重分配給用戶的交互項(xiàng)目噪窘，以獲取長期和短期興趣。這只是直觀的效扫，因?yàn)橛脩舻乃薪换ザ寂c項(xiàng)目的推薦無關(guān)倔监，用戶的興趣是短暫的直砂，并且在長時間和短時間內(nèi)都會發(fā)生變化。多篇論文使用自我關(guān)注機(jī)制來尋找用戶歷史上最相關(guān)的條目浩习，以改進(jìn)條目推薦静暂，或者使用協(xié)作過濾框架[4]，或者在用于順序推薦的編碼器架構(gòu)內(nèi)[5]谱秽。
????近年來洽蛀，人們的注意力以新穎的方式被利用，為研究開辟了新的途徑疟赊。一些有趣的方向包括更平滑地整合外部知識庫郊供、訓(xùn)練前嵌入和多任務(wù)學(xué)習(xí)、無監(jiān)督的代表性學(xué)習(xí)近哟、稀疏性學(xué)習(xí)和原型學(xué)習(xí)驮审，即樣本選擇。

參考文獻(xiàn)

????[1] Xuelong Li, Bin Zhao, Xiaoqiang Lu, et al. Mam-rnn: Multi-level attention model based rnn for video captioning. In IJCAI, pages 2208–2214, 2017.
????[2] Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In EMNLP, pages 1466–1477, 2018.
????[3] Yukun Ma, Haiyun Peng, and Erik Cambria. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive lstm. In AAAI, 2018.
????[4] Min Yang Baocheng Li Qiang Qu Jialie Shen Shuai Yu, Yongbo Wang. Nairs: A neural attentive interpretable recommendation system. The Web Conference(WWW), 2019.
????[5] Chang Zhou, Jinze Bai, Junshuai Song, Xiaofei Liu, Zhengchao Zhao, Xiusi Chen, and Jun Gao. Atrank: An attention-based user behavior modeling framework for recommendation. In AAAI, 2018.

Attention

更多自然語言處理相關(guān)知識吉执，還請關(guān)注AINLPer公眾號头岔，極品干貨即刻送達(dá)。