一劳淆、Transformer
(一)更改連接方式
How Does Selective Mechanism Improve Self-Attention Networks?
哈工大劉挺組
選擇機制如何改善自我注意網(wǎng)絡(luò)?
- 背景:
這是一篇解釋性的文章逛万。 - 動機:
近年來弟疆,在自注意力網(wǎng)絡(luò)引入選擇機制使得模型關(guān)注其中重要的輸入元素已經(jīng)取得很好的效果戚长。但是,對于選擇機制取得這樣結(jié)果的原因尚不清楚怠苔。本文提出一個通用的基于選擇機制的自注意力網(wǎng)絡(luò)同廉。傳統(tǒng)的自注意力網(wǎng)絡(luò)在順序編碼以及結(jié)構(gòu)信息建模能力存在一些不足,而本文針對其提出相應(yīng)的假設(shè)柑司,并在實驗中驗證假設(shè)的正確性迫肖。 - 模型:
選擇性的自注意力網(wǎng)絡(luò):增加一個選擇器,篩選出真正對當前詞很重要的詞攒驰,然后做Self-Attention蟆湖。(這個思想和Reformer的出發(fā)點有點像-去關(guān)注真正值得關(guān)注的東西)
- 結(jié)果:
作者設(shè)計了幾個實驗,來探究SAN和SSAN的區(qū)別玻粪。
實驗分析發(fā)現(xiàn)隅津,將選擇機制引入自注意力網(wǎng)絡(luò)的好處在于:
(1) 其更多關(guān)注周圍詞的信息,從而對周圍詞序的變化比較敏感劲室,使得其更好對順序進行編碼伦仍;
(2)其對于樹結(jié)構(gòu)重要成分關(guān)注度更高,從而其擁有更強的捕捉結(jié)構(gòu)信息的能力很洋。
Highway Transformer: Self-Gating Enhanced Self-Attentive Networks
中科院
- 動機:
Self-Attention更關(guān)注任意兩個詞之間的注意力分布充蓝,而忽略了單個詞特征信息的基本重要性。想法類似于把LSTM中的控制門引入到Transformer結(jié)構(gòu)中蹲缠,以補充個體表示的多維潛在空間中的內(nèi)部語義重要性棺克。加入的SDU門允許通過跳過連接的調(diào)控潛在嵌入的信息流,讓模型包含更多詞本身的信息线定。并且作者分析了這樣做可以讓梯度下降算法具有更明顯的收斂速度。 - 模型:
SDU(Self-Dependency Units):該組件中的門通常設(shè)為tanh函數(shù)确买,類似于LSTM中的調(diào)控門保留多少信息留下多少信息傳遞下去斤讥。
SDU-augmented Transformer:SDU可以被視作為一種具有動態(tài)適應(yīng)能力的自依賴非線性激活函數(shù)。
- 結(jié)果:
和Transformer湾趾、R-Transformer芭商、Transformer-XL做了比較,在一些任務(wù)上均有一定提升搀缠。
Improving Transformer Models by Reordering their Sublayers
Allen AI與Facebook團隊
通過子層重新排序改進Transformer
- 動機:
考慮的角度有些獨特铛楣,Transformer中包含兩個子層:Self-Attention層(s)和前饋網(wǎng)絡(luò)層(f),本文考慮將這兩個子層調(diào)換順序后性能是否有提升艺普。作者隨機生成不同子層排列順序的Transformer簸州,然后發(fā)現(xiàn)底部有更多自注意力層和頂部有更多前饋網(wǎng)絡(luò)層的模型具有更好的效果鉴竭,于是設(shè)計了三明治結(jié)構(gòu)的Transformer。
- 模型:
實驗中作者探討了兩點:一個是s和f層的數(shù)量比例的問題岸浑,實驗中發(fā)現(xiàn)二者數(shù)量均衡的效果要更好一些搏存;另一個是s和f層排列先后的問題,實驗中發(fā)現(xiàn)s越在底層f越在頂層效果越好矢洲。
雖然作者沒法解釋這一原因璧眠,但是針對這些現(xiàn)象設(shè)計了表現(xiàn)更好的三明治Transformer。底層和頂層部分是純s和f读虏,中間s和f交錯排列成為三明治夾心责静,這種結(jié)構(gòu)的效果最好。 - 結(jié)果:
作者根據(jù)不同任務(wù)進行了實驗盖桥,每個任務(wù)表現(xiàn)最好的結(jié)構(gòu)不固定泰演,但是這種調(diào)整子層的思想可以在設(shè)計模型的時候不額外增加參數(shù)而獲得一定提升。
(二)更改位置編碼
FLAT: Chinese NER Using Flat-Lattice Transformer
復(fù)旦邱錫鵬組
平面格結(jié)構(gòu)的Transformer
- 背景:漢字格(Lattice)結(jié)構(gòu)被證明是一種有效的中文命名實體識別方法葱轩,格子結(jié)構(gòu)被證明對利用詞信息和避免分詞的錯誤傳播有很大的好處睦焕。我們可以將一個句子與一個詞典進行匹配,得到其中的潛詞靴拱,獲得一個類似Lattice的結(jié)構(gòu):不僅考慮句子中的單個字垃喊,還考慮每個字可能組成的詞組。Lattice是一個有向無環(huán)圖袜炕,詞匯的開始和結(jié)束字符決定了其位置本谜。
Lattice LSTM是中文NER的開山之作,融合了詞匯信息到原生的LSTM中:
動機:
(1)Lattice-LSTM和LR-CNN采取的RNN和CNN結(jié)構(gòu)無法捕捉長距離依賴偎窘,而動態(tài)的Lattice結(jié)構(gòu)也不能充分進行GPU并行乌助。
(2)而CGN和LGN采取的圖網(wǎng)絡(luò)雖然可以捕捉對于NER任務(wù)至關(guān)重要的順序結(jié)構(gòu),但這兩者之間的gap是不可忽略的陌知。其次他托,這類圖網(wǎng)絡(luò)通常需要RNN作為底層編碼器來捕捉順序性,通常需要復(fù)雜的模型結(jié)構(gòu)仆葡。模型:
FLAT設(shè)計了一種巧妙position encoding來融合Lattice 結(jié)構(gòu)赏参。對于每一個字符和詞匯都構(gòu)建兩個head position encoding 和 tail position encoding,可以證明沿盅,這種方式可以重構(gòu)原有的Lattice結(jié)構(gòu)把篓。也正是由于此,F(xiàn)LAT可以直接建模字符與所有匹配的詞匯信息間的交互腰涧,例如韧掩,字符 [藥] 可以匹配詞匯 [人和藥店] 和 [藥店]。因此窖铡,我們可以將Lattice結(jié)構(gòu)展平疗锐,將其從一個有向無環(huán)圖展平為一個平面的Flat-Lattice Transformer結(jié)構(gòu)坊谁,由多個span構(gòu)成:每個字符的head和tail是相同的,每個詞匯的head和tail是skipped的窒悔。
同時作者提到呜袁,絕對位置編碼并不適用于NER任務(wù),采用了XLNet中的相對位置編碼計算attention score简珠,論文提出四種相對距離表示xi和xj之間的關(guān)系阶界,同時也考慮字符和詞匯之間的關(guān)系:
- 結(jié)果:
該模型能夠并行化在GPU上訓(xùn)練,訓(xùn)練效率大大高于原有模型聋庵。
Self-Attention with Cross-Lingual Position Representation
悉尼大學(xué)+騰訊
融入跨語言位置表示的Self-Attention
- 動機:由于原始的Self-Attention確實刻畫序列先后次序的信息膘融,因此位置編碼(PE)對Self-Attention很重要。然而目前無論是絕對位置編碼(APE祭玉,Transformer中提出的)還是相對位置編碼(RPE)氧映,對源語言和目標語言都是獨立建模的并且是固定的奠骄。由于不同語言中的詞序差異约谈,建立跨語言位置關(guān)系可能有助于SANs更好的學(xué)習(xí)到跨語言的信息。
- 模型:
(1)不同語言的詞序如何對應(yīng)起來队魏?作者使用了基于BTG的重排序模型振峻,根據(jù)對應(yīng)目標句的詞序生成一個重排序的源句臼疫,然后得到重排序后的單詞索引PE_XL。
(2)融入重排后的單詞索引PE_XL扣孟。作者提出了兩種融入方法烫堤。一種在輸出層融入-與絕對位置編碼結(jié)合作為新的位置編碼;一種在自注意力層中的Head中融入-不同的Head輸入包含不同的位置編碼凤价。
(三)根據(jù)不同任務(wù)增加組件
Hooks in the Headline: Learning to Generate Headlines with Controlled Styles
MIT鸽斟、Amazon等
生成指定風格的標題
- 動機:
目前的摘要系統(tǒng)只產(chǎn)生簡單、真實的標題利诺,但不能滿足創(chuàng)建令人難忘的標題以增加曝光率的實際需要富蓄。我們提出了一個新的任務(wù),文本標題生成(SHG)立轧,以豐富三種風格(幽默格粪,浪漫和點擊誘餌)的標題,以吸引更多的讀者氛改。
- 模型:
數(shù)據(jù)集S(包含新聞文本A和對應(yīng)標題H),T(帶有風格的文本T比伏,不一定是標題胜卤,因為帶有風格的標題數(shù)據(jù)集很昂貴)
模型整體為一個Transformer結(jié)構(gòu),分為encoder和decoder赁项。采用了多任務(wù)學(xué)習(xí)的框架葛躏,同時進行:文本總結(jié)(在S上澈段,根據(jù)新聞文本A生成對應(yīng)標題,有監(jiān)督學(xué)習(xí))舰攒;帶有風格的文本重構(gòu)(在T上败富,輸入為亂序和mask的句子,目標是還原生成原句t)
由于兩部分數(shù)據(jù)集和任務(wù)都是獨立的摩窃,為了將二者融合兽叮,達到在總結(jié)文本的時候帶有風格的目標,作者設(shè)計了參數(shù)共享的策略:模型黃色的部分全部參數(shù)貢獻猾愿,紅色和綠色的部分不參數(shù)貢獻鹦聪。共享部分很好理解,就是在總結(jié)文本信息時將風格融入蒂秘;不共享的地方泽本,旨在得到不同風格的層歸一化后的輸入和查詢
- 結(jié)果:
模型生成標題的吸引力得分超過了最新的摘要模型的9.68%,甚至超過了人工編寫的reference姻僧。
二规丽、BERT
(一)應(yīng)用
增加隱變量
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
百度
包含離散隱變量的預(yù)訓(xùn)練對話生成模型
視頻講解:https://mp.weixin.qq.com/s/w1oMnYDql09EVBbmIV6cSg
- 背景:
隱變量較為普遍地在VAE、CVAE等技術(shù)中使用撇贺,但在論文中赌莺,作者們首次提出將離散的隱變量結(jié)合Transformer結(jié)構(gòu),應(yīng)用到通用的對話領(lǐng)域显熏。通過引入離散隱變量雄嚣,可以對上文與回復(fù)之間的“一對多”關(guān)系進行有效建模。 - 動機:
本文研究開放領(lǐng)域的對話機器人喘蟆。目前存在兩個比較大的挑戰(zhàn):一是大規(guī)模開放域多輪對話數(shù)據(jù)匱乏缓升; 二是對話中涉及常識、領(lǐng)域知識和上下文蕴轨,因此在對話回復(fù)時港谊,存在“一對多”問題。例如橙弱,當人說“外面正在下雪”歧寺,回答“去堆雪人怎么樣?”或者“太冷了棘脐,好想念夏天斜筐。”在不同場景下都是合理的蛀缝。也就是說:一個對話的上文(Context)顷链,往往可以對應(yīng)多個不同回復(fù)(Response)的方向。這些不同的回復(fù)隨著不同的人屈梁,不同的背景和環(huán)境可能有所不同嗤练,但都是合理的回復(fù)榛了。經(jīng)典的深度學(xué)習(xí)模型目前都能比較好解決一對一的問題,例如Seq2Seq煞抬。
為了解決這2個問題霜大,本文通過大規(guī)模數(shù)據(jù)進行預(yù)訓(xùn)練,然后首次在Transformer結(jié)構(gòu)中引入離散隱變量革答,對上文與回復(fù)之間的“一對多”關(guān)系進行有效建模战坤。
- 模型:
在PLATO中,離散隱變量可以有K個取值蝗碎,它的每個取值湖笨,是與一個回復(fù)中的意圖相對應(yīng)的,或者可以理解為多樣化的對話的動作(Action)蹦骑。
在PLATO的訓(xùn)練中慈省,有2個任務(wù)同步進行-回復(fù)生成(Response Generation)和隱變量識別(Latent Act Recognition)∶吖剑回復(fù)生成任務(wù)中(灰色箭頭):給定上文和離散隱變量的取值(即確定了回復(fù)中的意圖边败,向量中綠色的點),盡可能生成綠色那句的話捎废。識別任務(wù)(藍色箭頭)盡量估計給定上文和目標回復(fù)對應(yīng)的隱變量取值笑窜。顯然,隱變量的準確識別登疗,可以進一步提升回復(fù)生成的質(zhì)量排截。
模型網(wǎng)絡(luò)架構(gòu)由Transformer Blocks組成,整個模型對兩個任務(wù)是共享參數(shù)的辐益。在回復(fù)生成任務(wù)中断傲,PLATO借鑒UniLM使用了靈活的注意力機制:對上文進行了雙向編碼,充分利用和理解上文信息智政;對回復(fù)進行了單向解碼认罩,適應(yīng)回復(fù)生成的Autoregressive特性。在隱變量識別任務(wù)中续捂,PLATO使用特殊符號[M]作為隱變量的輸入垦垂,對上文和回復(fù)進行雙向編碼,盡可能收集更多的信息牙瓢,更準確估計回復(fù)意圖(即離散隱變量的取值)劫拗。
針對多輪對話的輸入的表示方法,PLATO也進行了獨特的設(shè)計矾克,每個token的Input Embedding是由對應(yīng)的token杨幼、role、turn和position embedding相加得到聂渊。
- 結(jié)果:
在三個公開對話數(shù)據(jù)集上的評測差购,PLATO 都取得了新的最優(yōu)效果。
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
吉林大學(xué)
一種用于關(guān)系三元組抽取的級聯(lián)二進制標記框架
參考:https://www.zhihu.com/question/385259014/answer/1141621197
- 背景:
關(guān)系三元組抽取(Relational Triple Extraction, RTE)汉嗽,也叫實體-關(guān)系聯(lián)合抽取欲逃,是信息抽取領(lǐng)域中的一個經(jīng)典任務(wù),旨在從文本中抽取出結(jié)構(gòu)化的關(guān)系三元組(Subject, Relation, Object)用以構(gòu)建知識圖譜饼暑。 - 動機:
隨著NLP領(lǐng)域的不斷發(fā)展稳析,在簡單語境下(例如,一個句子僅包含一個關(guān)系三元組)進行關(guān)系三元組抽取已經(jīng)能夠達到不錯的效果弓叛。但在復(fù)雜語境下(一個句子中包含多個關(guān)系三元組彰居,有時甚至多達五個以上),尤其當多個三元組有重疊的情況時(如下圖所示)撰筷,現(xiàn)有SOTA模型的表現(xiàn)就顯得有些捉襟見肘了陈惰。
以往的方法大多將關(guān)系建模為實體対上的一個離散的標簽,這也是一種非常符合直覺的做法:首先通過命名實體識別(Named Entity Recognition, NER)確定出句子中所有的實體毕籽,然后學(xué)習(xí)一個關(guān)系分類器在所有的實體對上做RC抬闯,最終得到我們所需的關(guān)系三元組。然而這種Formulation在多個關(guān)系三元組有重疊的情況下會使得關(guān)系分類成為一個極其困難的不平衡多分類問題关筒,導(dǎo)致最終抽取出的關(guān)系三元組不夠全面和準確溶握。
-
模型:
CasRel框架最核心思想是,把關(guān)系(Relation)建模為將頭實體(Subject)映射到尾實體(Object)的函數(shù)袍榆,而不是將其視為實體對上的標簽胀屿。具體來說,我們不學(xué)習(xí)關(guān)系分類器
在本文中我們提出了一個新的Formulation,以一種新的視角來重新審視經(jīng)典的關(guān)系三元組抽取問題蒸播,并在此基礎(chǔ)上實現(xiàn)了一個不受重疊三元組問題困擾的CasRel標注框架(Cascade Binary Tagging Framework)來解決RTE任務(wù)睡榆。
(1)確定出句子中所有可能的頭實體劳曹;
(2)針對每個頭實體,使用關(guān)系特定的標注器來同時識別出所有可能的關(guān)系和對應(yīng)的尾實體琅摩。
- 結(jié)果:
(二)不同的預(yù)訓(xùn)練任務(wù)
SPECTER: Document-level Representation Learning using Citation-informed Transformers
Allen AI
使用引文信息的Transformer進行文檔級表示學(xué)習(xí)
背景:
這篇文章是將論文引用信息融入到預(yù)訓(xùn)練模型中去學(xué)習(xí)論文的表示铁孵。輸入為論文的title、abstract和citation information房资。動機:
現(xiàn)有語言模型多用來學(xué)習(xí)詞蜕劝、句子級別的表示,這種通過文檔內(nèi)部的信號去建模整個文檔表示具有局限性,在很多下游任務(wù)如論文分類或論文推薦方面表現(xiàn)并不好岖沛。引用關(guān)系作為一種自然發(fā)生的暑始、跨文檔的事件監(jiān)督信號,指示哪些文檔最相關(guān)婴削,因此本文考慮融入這種文檔間的信息來學(xué)習(xí)更好的文檔表示廊镜。模型:
用SciBERT模型去預(yù)訓(xùn)練文檔(論文的標題和摘要),然后用特殊標記CLS的表示作為最終的文檔輸出表示唉俗。
關(guān)鍵之處在于Loss的設(shè)計嗤朴。這里用了對比學(xué)習(xí)的思想,設(shè)計了一種三元Loss:選取查詢論文引用的論文為正例虫溜,未引用的論文為負例雹姊。選取負例時也有一些技巧,作者并不是直接在未引用的論文中隨機選出負例衡楞,而是把這樣的論文作為負例:P1引用了P2吱雏,P2引用了P3,但是P1沒有引用P3寺酪,這時把P3作為hard negatives的候選坎背。
本文的另一個貢獻是提出了論文表示預(yù)訓(xùn)練的框架和七個預(yù)訓(xùn)練任務(wù),還公布了一個新的包含論文標題寄雀、摘要和引用關(guān)系的數(shù)據(jù)集得滤。
- 結(jié)果:
SPECTER在七個任務(wù)上優(yōu)于其他基線。
(三)模型壓縮與加速
FastBERT: a Self-distilling BERT with Adaptive Inference Time
北大與騰訊
具有自適應(yīng)推理時間的自蒸餾BERT
- 背景:
- 動機:
雖然BERT類的預(yù)訓(xùn)練模型被證明非常有效盒犹,但它也存在模型大參數(shù)多等問題懂更。本文提出一種蒸餾后的BERT模型,期望在減小模型本身的同時保持推理的精度急膀。 - 模型:
模型的核心想法很簡單沮协,就是在每層Transformer后都增加一個分類器,去預(yù)測樣本標簽卓嫂,如果某樣本預(yù)測結(jié)果的置信度很高慷暂,就不用繼續(xù)計算了。(這個想法有點像ICLR 2019的Universal Transformer)
論文把這個邏輯稱為樣本自適應(yīng)機制(Sample-wise adaptive mechanism)晨雳,就是自適應(yīng)調(diào)整每個樣本的計算量行瑞,容易的樣本通過一兩層就可以預(yù)測出來,較難的樣本則需要走完全程餐禁。
- 結(jié)果:
論文比較了增加分類器后的模型計算成本要遠小于增加Transformer層血久。
模型在6個數(shù)據(jù)集上的表現(xiàn)還是不錯的,已經(jīng)十分接近BERT的效果了帮非。
(四)可解釋性
Finding Universal Grammatical Relations in Multilingual BERT
斯坦福Manning組
很有意思氧吐,但還沒完全看明白讹蘑,后續(xù)更~