人類的注意力是有限的,以視覺為例,在同一時(shí)刻出現(xiàn)在眼前的物體被認(rèn)為是互相競(jìng)爭(zhēng)注意力的政冻,這個(gè)可以參照論文 "Visual Attention is Beyond One Single Saliency Map" 中的圖示牢硅,它表明了隨著時(shí)間變化蒙谓,注意力的遷移過程胸竞,如下所示
那么是否可以讓機(jī)器理解和學(xué)習(xí)這種注意力機(jī)制以提高工作效率呢围苫?答案是可以的
注意力模型其實(shí)之前就有,但在2017年由谷歌提出 Self-Attention 后撤师,隨著2018年刷新11項(xiàng) NLP 記錄的 BERT 誕生開始大紅大紫,Attention也被認(rèn)為是效果超過 LSTM 的最佳特征提取器
其論文是:《Attention is All You Need》
參考資料:
https://zhuanlan.zhihu.com/p/37601161(張俊林博士的經(jīng)典知乎答案拧揽,淺顯直白的語言描述了attention原理和發(fā)展過程剃盾,適合入門)
https://jalammar.github.io/illustrated-transformer/(jay alammar用可視化的方式解析 attentionModel,絕對(duì)的經(jīng)典淤袜,搜狐的技術(shù)公眾號(hào)有其文章的中文翻譯版本)
http://nlp.seas.harvard.edu/2018/04/03/attention.html(哈佛大學(xué)原理+代碼解析 attentionModel)
https://kexue.fm/archives/4765(挺不錯(cuò)的原理解析 + 代碼)
https://zhuanlan.zhihu.com/p/32544778(還可以的一個(gè)原理解析)
Paper 輔助:
http://tongtianta.site/paper/203(英中雙文Paper)