綜述:自然語言處理的預(yù)訓(xùn)練模型

翻譯自Xipeng Qiu*,?School of Computer Science, Fudan University的論文冀墨,鏈接:https://arxiv.org/pdf/2003.08271.pdf

最近鳞溉,預(yù)訓(xùn)練模型(pre-trained models怠肋,PTMs)的出現(xiàn)將自然語言處理(NLP)帶入了一個(gè)新時(shí)代。在這項(xiàng)調(diào)查中,我們對(duì)NLP的PTMs進(jìn)行了全面審查奈虾。首先簡要介紹了語言表征學(xué)習(xí)(language representation learning)及其研究進(jìn)展。然后,我們系統(tǒng)地從四個(gè)不同的角度對(duì)現(xiàn)有的PTMs進(jìn)行分類肉微。接下來匾鸥,我們將描述如何將PTMs的知識(shí)應(yīng)用于后續(xù)任務(wù)。最后碉纳,我們概述了未來研究的一些潛在方向勿负。本調(diào)查旨在為理解、使用和開發(fā)用于各種NLP任務(wù)的PTMs提供實(shí)際指導(dǎo)劳曹。

Deep Learning, Neural Network, Natural Language Processing, Pre-trained Model, Distributed Representation, Word Embedding, Self-Supervised Learning, Language Modelling

1.介紹

隨著深度學(xué)習(xí)的發(fā)展奴愉,各種神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于解決自然語言處理(NLP)任務(wù),如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)铁孵、遞歸神經(jīng)網(wǎng)絡(luò)(neural networks, RNNs)锭硼、基于圖形的神經(jīng)網(wǎng)絡(luò)(graph-based neural networks, GNNs)和注意機(jī)制等。這些神經(jīng)模型的優(yōu)點(diǎn)之一是能夠緩解特征工程問題蜕劝。非神經(jīng)NLP方法通常嚴(yán)重依賴于離散的手工特征檀头,而神經(jīng)方法通常使用低維和密集的向量(又稱向量,分布式表示)隱式地表示語言的語法或語義特征。這些表示是在特定的NLP任務(wù)中學(xué)習(xí)的岖沛。因此暑始,神經(jīng)方法使人們更容易開發(fā)各種NLP系統(tǒng)。

盡管神經(jīng)模型在NLP任務(wù)中取得了成功烫止,但與計(jì)算機(jī)視覺(CV)領(lǐng)域相比蒋荚,性能改進(jìn)可能不那么顯著。主要原因是當(dāng)前用于大多數(shù)監(jiān)督的NLP任務(wù)的數(shù)據(jù)集相當(dāng)小(機(jī)器翻譯除外)馆蠕。深度神經(jīng)網(wǎng)絡(luò)通常具有大量的參數(shù)期升,這使得它們對(duì)這些小的訓(xùn)練數(shù)據(jù)過擬合,在實(shí)際應(yīng)用中不能很好地推廣互躬。因此播赁,許多NLP任務(wù)的早期神經(jīng)模型相對(duì)較淺,通常只包含1 ~ 3個(gè)神經(jīng)層吼渡。

最近容为,大量的工作表明,在大型語料庫上寺酪,預(yù)先訓(xùn)練的模型(PTMs)可以學(xué)習(xí)通用語言表示坎背,這對(duì)于后續(xù)的NLP任務(wù)是有益的,可以避免從零開始訓(xùn)練新模型寄雀。隨著計(jì)算能力的發(fā)展得滤,深層模型(即隨著訓(xùn)練技能的不斷提高,PTMs的體系結(jié)構(gòu)由淺向深推進(jìn)盒犹。第一代PTMs的目標(biāo)是學(xué)習(xí)好的詞嵌入懂更。由于這些模型本身不再被下游任務(wù)所需要眨业,它們通常對(duì)于計(jì)算效率來說是非常膚淺的,例如Skip-Gram和GloVe沮协。雖然這些預(yù)先訓(xùn)練好的嵌入可以捕獲單詞的語義含義龄捡,但它們是上下文無關(guān)的,不能捕獲上下文中的高級(jí)概念慷暂,如多義消歧聘殖、句法結(jié)構(gòu)、語義角色呜呐、回指等就斤。第二代PTMs主要學(xué)習(xí)上下文詞嵌入悍募,如CoVe蘑辑, ELMo, OpenAI GPT和BERT坠宴。這些學(xué)習(xí)過的編碼器仍然需要在上下文中通過下游任務(wù)來表示單詞洋魂。此外,還提出了各種預(yù)訓(xùn)練任務(wù)喜鼓,以學(xué)習(xí)不同目的的PTMs副砍。

這項(xiàng)調(diào)查的貢獻(xiàn)可以總結(jié)如下:

1. 全面回顧。我們提供了對(duì)NLP PTMs的全面回顧庄岖,包括背景知識(shí)豁翎、模型架構(gòu)、預(yù)訓(xùn)練任務(wù)隅忿、各種擴(kuò)展心剥、適應(yīng)方法和應(yīng)用。

2. 新的分類方法背桐。我們提出了一種NLP的PTMs分類方法优烧,它從四個(gè)不同的角度對(duì)現(xiàn)有的PTMs進(jìn)行了分類:1)表示類型;2)模型體系結(jié)構(gòu)链峭;3)預(yù)訓(xùn)練任務(wù)類型畦娄;4)特定類型場(chǎng)景的擴(kuò)展。

3.豐富的資源弊仪。我們收集了PTMs相關(guān)的豐富資源熙卡,包括PTMs的開源實(shí)現(xiàn)、可視化工具励饵、語料庫和論文列表驳癌。

4. 未來的發(fā)展方向。我們討論并分析了現(xiàn)有PTMs的局限性曲横。并提出未來可能的研究方向喂柒。

綜述的其余部分組織如下不瓶。第2節(jié)概述了PTMs的背景概念和常用符號(hào)。第3節(jié)簡要概述了PTMs并澄清了PTMs的分類灾杰。第4節(jié)提供了PTMs的擴(kuò)展蚊丐。第5節(jié)討論如何將PTMs的知識(shí)轉(zhuǎn)移到下游任務(wù)。第6節(jié)給出了關(guān)于PTMs的相關(guān)資源艳吠。第7節(jié)展示了跨各種NLP任務(wù)的應(yīng)用集合麦备。第8節(jié)討論了當(dāng)前的挑戰(zhàn)并提出了未來的方向。第9節(jié)總結(jié)全文昭娩。

2背景

2.1語言表征學(xué)習(xí)(Language Representation Learning)

正如Bengio所建議的凛篙,一個(gè)好的表示應(yīng)該表達(dá)general-purpose的先驗(yàn),這些先驗(yàn)不是特定于任務(wù)的栏渺,但可能對(duì)解決AI任務(wù)有用呛梆。當(dāng)涉及到語言時(shí),一個(gè)好的表現(xiàn)應(yīng)該捕捉隱藏在文本數(shù)據(jù)中的隱含的語言規(guī)則和常識(shí)知識(shí)磕诊,例如詞匯意義(lexical meanings)填物、句法結(jié)構(gòu)(syntactic structures)、語義角色(semantic roles)霎终,甚至語用學(xué)(pragmatics)滞磺。

分布式表示的核心思想是通過低維實(shí)值向量來描述文本的含義。而向量的每一個(gè)維度都沒有對(duì)應(yīng)的意義莱褒,而整體則代表了一個(gè)具體的概念击困。圖1展示了NLP的通用神經(jīng)架構(gòu)。詞的嵌入有兩種:非上下文嵌入和上下文嵌入广凸。它們之間的不同之處在于阅茶,單詞的嵌入是否會(huì)根據(jù)其出現(xiàn)的上下文動(dòng)態(tài)變化。

圖1:NLP的通用網(wǎng)絡(luò)架構(gòu)

非上下文嵌入表示炮障。表示語言的第一步是將離散的語言符號(hào)映射到分布式嵌入空間中目派。形式上,對(duì)于詞匯表V中的每個(gè)word(或sub-word)x胁赢,我們將其映射到向量ex,查找表E企蹭。這些嵌入和其他模型參數(shù)一起,根據(jù)任務(wù)數(shù)據(jù)進(jìn)行訓(xùn)練智末。

這種嵌入有兩個(gè)主要限制谅摄。第一個(gè)問題是嵌入是靜態(tài)的。無論上下文如何系馆,單詞的嵌入始終是相同的送漠。因此,這些非上下文嵌入無法對(duì)多義詞進(jìn)行建模由蘑。第二個(gè)問題是OOV(out-of-vocabulary)的問題闽寡。為了解決這個(gè)問題代兵,字符級(jí)的單詞表示或sub-word表示被廣泛應(yīng)用于許多NLP任務(wù)中,如CharCNN爷狈、FastText和Byte-Pair Encoding(BPE)植影。

上下文嵌入表示。為了解決詞的多義詞性和語境依賴性問題涎永,我們需要區(qū)分詞在不同語境中的語義思币。給定一個(gè)文本x1、x2羡微、···谷饿、xT,其中每個(gè)token xt∈V是一個(gè)單詞或sub-word妈倔,xt的上下文表示依賴于整個(gè)文本博投。[h1, h2, · · · , hT ] = fenc(x1, x2, · · · , xT ),其中fenc(.)是一個(gè)神經(jīng)編碼器(neural encoder),ht被稱為token xt的上下文嵌入(contextual embedding)或動(dòng)態(tài)嵌入(dynamical embedding)启涯,因?yàn)槠渲邪舷挛男畔ⅰ?/p>

2.2神經(jīng)上下文編碼器(Neural Contextual Encoders)

大多數(shù)神經(jīng)環(huán)境編碼器可以分為兩類:序列模型(sequence models)和基于圖的模型(graph-based models)贬堵。圖2說明了這些模型的體系結(jié)構(gòu)。

圖2:神經(jīng)上下文編碼器

2.2.1序列模型

序列模型通常按順序捕獲單詞的局部上下文(local?context)结洼。

卷積模型(Convolutional Models?)。卷積模型將單詞嵌入到input sentence中叉跛,然后通過卷積運(yùn)算將相鄰的local information聚集起來松忍,從而獲得單詞的表示。

個(gè)人筆記:卷積模型也是序列模型

遞歸模型(Recurrent Models)筷厘。遞歸模型可以捕獲短記憶(short memory)單詞的上下文表示鸣峭,如LSTMs和GRUs。在實(shí)踐中酥艳,雙向LSTMs或GRUs用于從單詞的兩邊收集信息摊溶,但其性能常常受到長時(shí)依賴(long-term dependency)問題的影響。

2.2.2非序列模型

非序列模型通過預(yù)先定義的詞與詞之間的樹或圖結(jié)構(gòu)(如句法結(jié)構(gòu)或語義關(guān)系)來學(xué)習(xí)上下文表示充石。一些流行的非序列模型包括遞歸神經(jīng)網(wǎng)絡(luò)(Recursive NN)莫换、TreeLSTM和GCN。

雖然具有l(wèi)inguistic-aware的圖結(jié)構(gòu)可以提供有用的歸納偏差(inductive bias)骤铃,但如何構(gòu)建一個(gè)良好的圖結(jié)構(gòu)也是一個(gè)具有挑戰(zhàn)性的問題拉岁。此外,該結(jié)構(gòu)嚴(yán)重依賴于專家知識(shí)或外部NLP工具惰爬,例如dependency parser喊暖。

全連接的自注意力機(jī)制模型(Fully-Connected Self-Attention Model)。

在實(shí)踐中撕瞧,更直接的方法是使用全連通圖(fully-connected graph)來建模詞與詞之間的關(guān)系陵叽,讓模型自己學(xué)習(xí)結(jié)構(gòu)狞尔。通常,連接權(quán)值由self-attention機(jī)制動(dòng)態(tài)計(jì)算巩掺,該機(jī)制隱式地表示單詞之間的連接沪么。全連通自注意模型的一個(gè)成功實(shí)例是Transformer,它還需要其他的補(bǔ)充模塊锌半,如位置嵌入(positional embeddings)禽车、層標(biāo)準(zhǔn)化(layer normalization)、殘差連接(residual connections)和位置前饋網(wǎng)絡(luò)(position-wise feed-forward network, FFN)層刊殉。

個(gè)人筆記:Transformer是一種?Fully-Connected Self-Attention Model殉摔,本質(zhì)是圖模型,從全連通圖中自學(xué)習(xí)圖結(jié)構(gòu)记焊,權(quán)重由self-attention計(jì)算逸月。

2.2.3分析

序列模型學(xué)習(xí)具有局部性偏差(locality bias)的單詞的上下文表示,很難捕捉單詞之間的長期交互遍膜。然而碗硬,序列模型通常很容易訓(xùn)練,并且對(duì)于各種NLP任務(wù)都能得到很好的結(jié)果瓢颅。

而Transformer作為一個(gè)實(shí)例化的全連接的self-attention模型恩尾,可以直接對(duì)序列中每兩個(gè)單詞之間的依賴關(guān)系進(jìn)行建模,這樣更強(qiáng)大挽懦,更適合對(duì)語言的長期依賴關(guān)系進(jìn)行建模翰意。然而,由于其結(jié)構(gòu)較重且模型偏差較小(less model bias)信柿,Transformer通常需要較大的訓(xùn)練語料庫冀偶,并且很容易在較小或中等大小的數(shù)據(jù)集上過擬合

目前渔嚷,Transformer以其強(qiáng)大的性能成為了PTMs的主流架構(gòu)进鸠。

2.3為什么要用預(yù)訓(xùn)練(Pre-training)?

隨著深度學(xué)習(xí)的發(fā)展,模型參數(shù)的數(shù)量迅速增加形病。需要更大的數(shù)據(jù)集來完全訓(xùn)練模型參數(shù)并防止過度擬合客年。但是,對(duì)于大多數(shù)NLP任務(wù)來說窒朋,構(gòu)建大規(guī)模的標(biāo)記數(shù)據(jù)集是一個(gè)巨大的挑戰(zhàn)搀罢,因?yàn)樽⑨尦杀痉浅8撸貏e是對(duì)于語法和語義相關(guān)的任務(wù)侥猩。

相比之下榔至,大規(guī)模的未標(biāo)記語料庫相對(duì)容易構(gòu)建。要利用巨大的未標(biāo)記文本數(shù)據(jù)欺劳,我們可以首先從它們那里學(xué)習(xí)良好的表示唧取,然后將這些表示用于其他任務(wù)铅鲤。最近的研究表明,借助從大型未注釋語料庫上的PTM中提取的表示枫弟,許多NLP任務(wù)的性能都有顯著提高邢享。

預(yù)訓(xùn)練的優(yōu)勢(shì)可以總結(jié)如下:

1. 對(duì)龐大的文本語料庫進(jìn)行預(yù)處理,可以學(xué)習(xí)通用語言表示淡诗,并幫助完成后續(xù)任務(wù)骇塘。

2. 預(yù)訓(xùn)練提供了更好的模型初始化,這通常會(huì)帶來更好的泛化性能并加速目標(biāo)任務(wù)的收斂韩容。

3.預(yù)訓(xùn)練可以看作是一種正則化方法款违,以避免對(duì)小數(shù)據(jù)的過度擬合。

2.4 NLP的PTMs簡史

預(yù)訓(xùn)練一直是學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)參數(shù)的有效策略群凶,然后對(duì)下游任務(wù)(downstream tasks)進(jìn)行微調(diào)(fine-tuned)插爹。早在2006年,深度學(xué)習(xí)的突破就伴隨著貪婪的分層無監(jiān)督預(yù)訓(xùn)練(greedy layer-wise unsupervised pre-training)请梢,緊隨其后的是監(jiān)督微調(diào)(supervised fine-tuning)赠尾。在CV中,在巨大的ImageNet語料庫上對(duì)模型進(jìn)行預(yù)訓(xùn)練毅弧,然后針對(duì)不同任務(wù)對(duì)更小的數(shù)據(jù)進(jìn)行進(jìn)一步的微調(diào)气嫁,這已經(jīng)在實(shí)踐中得到了應(yīng)用。這比隨機(jī)初始化要好得多形真,因?yàn)槟P涂梢詫W(xué)習(xí)一般的圖像特征杉编,然后在各種視覺任務(wù)中使用這些特征。

在NLP中咆霜,大型語料庫上的PTMs也被證明有利于NLP的下游任務(wù),從淺層的單詞嵌入到深層的神經(jīng)模型嘶朱。

2.4.1第一代PTMs:預(yù)訓(xùn)練詞嵌入(Pre-trained Word Embeddings)

將單詞表示為密集向量有很長的歷史蛾坯。在神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model ,NNLM)的開創(chuàng)性工作中,引入了‘現(xiàn)代的’單詞嵌入技術(shù)(Word Embedding)疏遏。Collobert等人表明脉课,在未標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練的單詞嵌入可以顯著改善許多NLP任務(wù)。為了解決計(jì)算復(fù)雜性财异,他們通過pairwise ranking?task來學(xué)習(xí)詞嵌入倘零,而不是語言建模。他們的工作是第一次嘗試從未標(biāo)記的數(shù)據(jù)中獲得對(duì)其他任務(wù)有用的通用詞嵌入戳寸。Mikolov等表明不需要深度神經(jīng)網(wǎng)絡(luò)來構(gòu)建良好的詞嵌入。他們提出了兩個(gè)淺層架構(gòu):Bag-of-Words (CBOW) 和 Skip-Gram (SG) 。盡管它們很簡單州邢,但它們?nèi)匀豢梢詫W(xué)習(xí)高質(zhì)量的詞嵌入,以捕捉詞之間潛在的語法和語義相似性司致。Word2vec是這些模型最流行的實(shí)現(xiàn)之一,它使預(yù)先訓(xùn)練好的word embeddings可用于NLP中的不同任務(wù)聋迎。此外脂矫,GloVe也是一種廣泛使用的獲取預(yù)訓(xùn)練詞嵌入的模型,該模型通過從一個(gè)大型語料庫中獲得全局詞-詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)(global word-word cooccurrence statistics )來計(jì)算霉晕。

盡管預(yù)先訓(xùn)練好的詞嵌入在NLP任務(wù)中已經(jīng)被證明是有效的庭再,但是它們是上下文獨(dú)立的,并且大部分是由淺模型訓(xùn)練的牺堰。當(dāng)用于下游任務(wù)時(shí)拄轻,整個(gè)模型的其余部分仍然需要從頭開始學(xué)習(xí)。

在同一時(shí)期萌焰,許多研究者也嘗試學(xué)習(xí)段落哺眯、句子或文檔的嵌入,如段落向量(paragraph vector)扒俯、Skip-thought vectors奶卓、Context2Vec等。這些句子嵌入模型試圖將輸入的句子編碼為一個(gè)固定維的向量表示撼玄,而不是每個(gè)token的上下文表示夺姑。

2.4.2第二代PTMs:預(yù)訓(xùn)練的上下文編碼器(Pre-trained Contextual Encoders)

由于大多數(shù)NLP任務(wù)都超出了單詞級(jí)別,所以很自然地要在句子級(jí)別或更高的級(jí)別對(duì)神經(jīng)編碼器進(jìn)行預(yù)訓(xùn)練掌猛。神經(jīng)編碼器的輸出向量也稱為上下文詞嵌入盏浙,因?yàn)樗鼈兏鶕?jù)上下文表示詞的語義。

Dai和Le提出了第一個(gè)成功的PTM用于NLP的實(shí)例荔茬。他們使用語言模型(LM)或序列自動(dòng)編碼器對(duì)LSTMs進(jìn)行初始化废膘,發(fā)現(xiàn)預(yù)處理可以提高LSTMs在許多文本分類任務(wù)中的訓(xùn)練和泛化能力。Liu用LM預(yù)訓(xùn)練了一個(gè)shared LSTM encoder慕蔚,并在多任務(wù)學(xué)習(xí)(multi-task learning, MTL)框架下對(duì)其進(jìn)行了fine-tune丐黄。他們發(fā)現(xiàn),預(yù)訓(xùn)練和微調(diào)可以進(jìn)一步提高多任務(wù)學(xué)習(xí)框架下幾個(gè)文本分類任務(wù)中的表現(xiàn)孔飒。Ramachandran發(fā)現(xiàn)灌闺,Seq2Seq模型可以通過無監(jiān)督預(yù)訓(xùn)練(unsupervised pre-training)得到顯著改善。編碼器和解碼器的權(quán)值都是用兩種語言模型的預(yù)訓(xùn)練的權(quán)值初始化的坏瞄,然后用標(biāo)記的數(shù)據(jù)進(jìn)行微調(diào)桂对。除了在LM中預(yù)訓(xùn)練上下文編碼器外,McCann等在機(jī)器翻譯(MT)任務(wù)中的attentional sequence-to-sequence模型中鸠匀,預(yù)訓(xùn)練了一個(gè)deep?LSTM encoder蕉斜。通過預(yù)訓(xùn)練的編碼器輸出的上下文向量(context vectors,CoVe)可以提高各種常見NLP任務(wù)的性能。

相比于先前的PTM蛛勉,現(xiàn)在的PTM通常使用更大的語料庫鹿寻、更強(qiáng)大或更深入的架構(gòu)(例如Transformer)和新的預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練。

個(gè)人筆記:PTM之間的區(qū)別在于:語料庫诽凌、架構(gòu)毡熏、預(yù)訓(xùn)練任務(wù)

Peters等人采用雙向語言模型(bidirectional language model,BiLM)預(yù)訓(xùn)練2層的LSTM編碼器侣诵,由前向LM和后向LM組成痢法。預(yù)訓(xùn)練后的BiLM輸出的上下文表示?ELMo(Embeddings from Language Models),可以在廣泛的NLP任務(wù)上帶來巨大的改進(jìn)杜顺。Akbik等人字符級(jí)LM預(yù)訓(xùn)練的contextual string embeddings捕獲單詞含義财搁。然而,這兩個(gè)PTM通常被用作一個(gè)特征提取器(feature extractor)來生成上下文單詞嵌入躬络,這些嵌入被輸入到主模型中以執(zhí)行下游任務(wù)尖奔。它們的參數(shù)是固定的,主模型的其余參數(shù)仍然從零開始訓(xùn)練穷当。ULMFiT (Universal Language Model Fine-tuning)試圖fine-tune預(yù)訓(xùn)練好的LM來行文本分類(text classification, TC)提茁,并在6個(gè)廣泛使用的TC數(shù)據(jù)集上取得了SOTA的結(jié)果。ULMFiT包括三個(gè)階段:1)在通用域數(shù)據(jù)上進(jìn)行LM預(yù)訓(xùn)練馁菜;2)在目標(biāo)數(shù)據(jù)集上fine-tuning?LM茴扁;3)在目標(biāo)任務(wù)上進(jìn)行fine-tuning。ULMFiT還研究了一些有效的fine-tuning策略汪疮,包括區(qū)分微調(diào)(discriminative fine-tuning)峭火、傾斜三角形學(xué)習(xí)率(slanted triangular learning rates)和逐步解凍(gradual unfreezing)。

最近智嚷,結(jié)構(gòu)非常深的 PTM顯示了它們?cè)趯W(xué)習(xí)通用語言表示方面的強(qiáng)大能力:例如OpenAI GPT(Generative Pre-training)和BERT (Bidirectional Encoder Representation from Transformer)卖丸。除了LM之外,越來越多的自監(jiān)督任務(wù)(self-supervised tasks)被提出盏道,以使PTMs從大規(guī)模文本語料庫中獲取更多的知識(shí)坯苹。

自ULMFiT和BERT以來,fine-tuning已經(jīng)成為使PTMs適應(yīng)下游任務(wù)的主流方法摇天。

3 PTMs概述

PTMs之間的主要區(qū)別在于上下文編碼器的使用、預(yù)訓(xùn)練任務(wù)任務(wù)和目的恐仑。

我們?cè)?.2節(jié)中簡要介紹了上下文編碼器的體系結(jié)構(gòu)泉坐。在本節(jié)中,我們將重點(diǎn)介紹預(yù)訓(xùn)練任務(wù)的描述裳仆,并給出PTMs的分類腕让。

3.1預(yù)訓(xùn)練任務(wù)

預(yù)訓(xùn)練任務(wù)對(duì)于學(xué)習(xí)語言的普遍表征是至關(guān)重要的。通常,這些預(yù)訓(xùn)練任務(wù)應(yīng)該是具有挑戰(zhàn)性的纯丸,并且有大量的訓(xùn)練數(shù)據(jù)偏形。在本節(jié)中,我們將預(yù)訓(xùn)練任務(wù)歸納為三類:監(jiān)督學(xué)習(xí)(supervised)觉鼻、無監(jiān)督學(xué)習(xí)(unsupervised)和自監(jiān)督學(xué)習(xí)(self-supervised)俊扭。

1. 監(jiān)督學(xué)習(xí)(Supervised learning, SL)是基于?input-output對(duì)組成的訓(xùn)練數(shù)據(jù),學(xué)習(xí)將輸入映射到輸出的函數(shù)坠陈。

2. 無監(jiān)督學(xué)習(xí)(UL)是從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)一些內(nèi)在的知識(shí)萨惑,如簇(clusters)、密度(densities)仇矾、潛在表示(latent representation)庸蔼。

3.自監(jiān)督學(xué)習(xí)(SSL)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的混合。SSL的學(xué)習(xí)模式與監(jiān)督學(xué)習(xí)完全相同贮匕,但是訓(xùn)練數(shù)據(jù)的標(biāo)簽是自動(dòng)生成的姐仅。SSL的關(guān)鍵思想是以某種形式從其他部分輸入預(yù)測(cè)任一部分的輸入。例如刻盐,掩蔽語言模型(masked language model掏膏,MLM)是一個(gè)自監(jiān)督的任務(wù),它嘗試通過一個(gè)句子中其余詞去預(yù)測(cè)被MASK的詞隙疚。

個(gè)人筆記:自監(jiān)督學(xué)習(xí)的關(guān)鍵思想是以某種形式從其他部分輸入預(yù)測(cè)任一部分的輸入壤追,例如masked language model是通過一個(gè)句子中其余詞去預(yù)測(cè)被MASK的詞。

在CV中供屉,許多PTM都是在像ImageNet這樣的大型監(jiān)督訓(xùn)練集上進(jìn)行訓(xùn)練的行冰。然而,在NLP中伶丐,大多數(shù)監(jiān)督任務(wù)的數(shù)據(jù)集都不夠大悼做,不足以訓(xùn)練一個(gè)好的PTM。唯一的例外是機(jī)器翻譯(MT)哗魂。WMT 2017是一個(gè)大型的MT數(shù)據(jù)集肛走,由超過700萬對(duì)句子組成。此外录别,MT是NLP中最具挑戰(zhàn)性的任務(wù)之一朽色,對(duì)MT進(jìn)行預(yù)訓(xùn)練的編碼器可以使各種下游NLP任務(wù)受益。CoVe是一種成功的PTM组题,它是一種針對(duì)MT任務(wù)進(jìn)行預(yù)訓(xùn)練的編碼器葫男,可以改進(jìn)各種常見的NLP任務(wù):情感分析分析(SST、IMDb)崔列、問題分類(TREC)梢褐、蘊(yùn)涵(SNLI)和問答(SQuAD)。

在本節(jié)中,我們將介紹一些在現(xiàn)有PTMs中廣泛使用的預(yù)訓(xùn)練任務(wù)盈咳。我們可以把這些任務(wù)看作是自監(jiān)督學(xué)習(xí)耿眉。表1總結(jié)了它們的損失函數(shù)。

表1:預(yù)訓(xùn)練任務(wù)的損失函數(shù)

3.1.1語言模型(LM)

NLP中最常見的無監(jiān)督任務(wù)是概率語言建模(LM)鱼响,這是一個(gè)經(jīng)典的概率密度估計(jì)問題鸣剪。雖然LM是一個(gè)通用概念,但在實(shí)踐中热押,LM通常特指自回歸LM(auto-regressive LM)或單向LM(unidirectional LM)西傀。

給定文本序列x1:T = [x1, x2,···桶癣,xT]拥褂,其聯(lián)合概率p(x1:T)可分解為:

文本序列的聯(lián)合概率

其中x0是表示序列開始的特殊token。

條件概率p(xt|x0:t?1)可以通過給定語言上下文x0:t?1的詞匯上的概率分布來建模牙寞。采用神經(jīng)編碼器fenc(·)對(duì)上下文x0:t?1建模饺鹃,條件概率為:

條件概率

其中g(shù)LM(·)是預(yù)測(cè)層。

給定一個(gè)巨大的語料庫间雀,我們可以用極大似然估計(jì)(MLE)訓(xùn)練整個(gè)網(wǎng)絡(luò)悔详。

單向LM的一個(gè)缺點(diǎn)是,每個(gè)token的表示只對(duì)左邊的上下文token和自身進(jìn)行編碼惹挟。然而茄螃,更好的文本上下文表示應(yīng)該從兩個(gè)方向?qū)ι舷挛男畔⑦M(jìn)行編碼。一種改進(jìn)的解決方案是雙向LM (BiLM)连锯,它由兩個(gè)單向LM組成:一個(gè)向前的從左到右LM和一個(gè)向后的從右到左LM归苍。對(duì)于BiLM, Baevski提出了一個(gè)雙塔模型(two-tower model),forward tower操作從左到右的LM运怖,backward tower操作從右到左的LM拼弃。

3.1.2掩碼語言建模(MLM)

掩蔽語言建模(Masked language modeling, MLM)最早是由Taylor在提出,他將其稱為完形填空任務(wù)摇展。Devlin等人將此任務(wù)改編為一種新的預(yù)訓(xùn)練任務(wù)吻氧,以克服標(biāo)準(zhǔn)單向LM的缺點(diǎn)。簡單地說咏连,MLM首先從輸入語句中屏蔽掉一些token盯孙,然后訓(xùn)練模型用其他token來預(yù)測(cè)被屏蔽的token。但是祟滴,這種預(yù)訓(xùn)練方法將在預(yù)訓(xùn)練階段和微調(diào)階段之間產(chǎn)生不匹配镀梭,因?yàn)檠诖a標(biāo)記[MASK]在微調(diào)階段沒有出現(xiàn)。經(jīng)驗(yàn)上踱启,Devlin等人使用如下策略來對(duì)一個(gè)token執(zhí)行掩蔽:80%的時(shí)間用[MASK],10%的時(shí)間用隨機(jī)的token,10%的時(shí)間用原始token埠偿。

個(gè)人筆記:1透罢、采用80%,10%冠蒋,10%的掩蔽策略的主要原因是:在后續(xù)微調(diào)任務(wù)中語句中并不會(huì)出現(xiàn) [MASK] 這個(gè)token羽圃,采用這樣的隨機(jī)策略可以緩解這一不一致問題,只是能緩解抖剿,并不能消除朽寞。2、采用這種策略的另一個(gè)好處是:預(yù)測(cè)一個(gè)詞匯時(shí)斩郎,模型并不知道輸入對(duì)應(yīng)位置的詞匯是否為正確的詞匯( 有10% 概率脑融,80%+10%的概率不是),這就迫使模型更多地依賴于上下文信息去預(yù)測(cè)詞匯缩宜,并且賦予了模型一定的糾錯(cuò)能力(10%是隨機(jī)替換的錯(cuò)詞)肘迎。但是這種測(cè)了有一個(gè)缺點(diǎn):每批次數(shù)據(jù)中只有 15% 的標(biāo)記被預(yù)測(cè),這意味著模型可能需要更多的預(yù)訓(xùn)練步驟來收斂锻煌。

序列到序列掩蔽語言模型(Seq2Seq MLM)妓布。MLM通常作為分類問題來解決。我們將掩蔽序列提供給一個(gè)神經(jīng)編碼器宋梧,其輸出向量被進(jìn)送入一個(gè)softmax分類器來預(yù)測(cè)被掩蔽的token匣沼。或者捂龄,我們可以使用編碼-解碼器(sequence-to-sequence)架構(gòu)來做MLM释涛,將掩蔽序列送入編碼器,解碼器以auto-regression的方式序列產(chǎn)生被掩蔽的token跺讯。我們把這種sequence-to-sequence MLM(Seq2Seq?MLM)用于MASS和T5枢贿。Seq2Seq MLM可以使Seq2Seq風(fēng)格的下游任務(wù)受益,例如問答刀脏、摘要和機(jī)器翻譯局荚。

個(gè)人筆記:掩蔽語言模型MLM,可以用兩種方式來學(xué)習(xí)愈污,分別是分類和序列預(yù)測(cè)耀态。分類是將masked token位置輸出的final hidden vectors送入softmax,來預(yù)測(cè)masked token暂雹。序列預(yù)測(cè)是用encoder-decoder架構(gòu)首装,預(yù)測(cè)被掩蔽的token序列。

增強(qiáng)的掩蔽語言建模(Enhanced Masked Language Modeling杭跪,E-MLM)仙逻。有多個(gè)研究提出了不同的增強(qiáng)版本的MLM驰吓,以進(jìn)一步改進(jìn)BERT。RoBERTa通過動(dòng)態(tài)掩蔽改進(jìn)了BERT系奉,而不是靜態(tài)掩蔽檬贰。

個(gè)人筆記:BERT在整個(gè)訓(xùn)練過程,這15%的Tokens一旦被選擇就不再改變缺亮,也就是說從一開始隨機(jī)選擇了這15%的Tokens翁涤,之后的N個(gè)epoch里都不再改變了。這就叫做靜態(tài)Masking萌踱。而RoBERTa一開始把預(yù)訓(xùn)練的數(shù)據(jù)復(fù)制10份葵礼,每一份都隨機(jī)選擇15%的Tokens進(jìn)行Masking,也就是說并鸵,同樣的一句話有10種不同的mask方式鸳粉。然后每份數(shù)據(jù)都訓(xùn)練N/10個(gè)epoch。這就相當(dāng)于在這N個(gè)epoch的訓(xùn)練中能真,每個(gè)序列的被mask的tokens是會(huì)變化的赁严。這就叫做動(dòng)態(tài)Masking。

UniLM將掩碼預(yù)測(cè)任務(wù)擴(kuò)展到三種類型的語言建模任務(wù):單向粉铐、雙向和序列到序列預(yù)測(cè)疼约。XLM在平行雙語句子對(duì)的串聯(lián)上執(zhí)行MLM,稱為翻譯語言建模(TLM)蝙泼。SpanBERT用隨機(jī)連續(xù)字掩蔽(Random Contiguous Words Masking)和跨邊界目標(biāo)(Span Boundary Objective程剥,SBO)取代了MLM,將結(jié)構(gòu)信息集成到預(yù)訓(xùn)練中汤踏,這要求系統(tǒng)基于span邊界來預(yù)測(cè)被掩蔽的span织鲸。此外,StructBERT還引入了Span Order Recovery task進(jìn)一步合并語言結(jié)構(gòu)溪胶。

個(gè)人筆記:Bert把MLM看作是完形填空任務(wù)搂擦,分別有分類和序列預(yù)測(cè)兩種方式來完成這一任務(wù)。也有人把MLM看作是語言建模任務(wù)哗脖,還有預(yù)測(cè)連續(xù)字符掩蔽的瀑踢。

豐富MLM的另一個(gè)方法是吸收外部知識(shí)。

3.1.3 排列語言模型 (Permuted Language Modeling才避,PLM)

盡管MLM任務(wù)在預(yù)訓(xùn)練被廣泛使用橱夭,但Yang等人聲稱,當(dāng)將模型應(yīng)用于下游任務(wù)時(shí)桑逝,MLM預(yù)訓(xùn)練使用的一些特殊token(如[MASK])不存在棘劣,導(dǎo)致了預(yù)訓(xùn)練前和微調(diào)之間的差距。為了克服這個(gè)問題楞遏,提出用PLM來替代MLM做為一個(gè)預(yù)訓(xùn)練目標(biāo)茬暇。

簡而言之首昔,PLM是一種基于輸入序列隨機(jī)排列的語言建模任務(wù)。從所有可能的排列中隨機(jī)抽取排列而钞。然后沙廉,將排列序列中的一些token選為目標(biāo),并訓(xùn)練模型去預(yù)根據(jù)其余的token和與目標(biāo)token之間的自然位置臼节,來預(yù)測(cè)這些目標(biāo)token。注意珊皿,這種排列不影響序列的自然位置网缝,只定義token預(yù)測(cè)的順序。在實(shí)踐中蟋定,由于收斂速度慢粉臊,只能預(yù)測(cè)置換序列中的最后幾個(gè)標(biāo)記。引入了two-stream self-attention用于target-aware representations驶兜。

3.1.4去噪自編碼器(Denoising Autoencoder扼仲,DAE)

去噪自編碼器(DAE)部分破壞輸入,目的是恢復(fù)原始輸入抄淑。在語言任務(wù)上就是屠凶,用序列到序列模型(如標(biāo)準(zhǔn)的Transformer)來重構(gòu)原始文本。有幾種方法可以破壞文本:

(1) Token Masking:從輸入中隨機(jī)抽取token并用[MASK]元素替換它們肆资。

(2)Token刪除:從輸入中隨機(jī)刪除Token矗愧。與?Token Masking不同,模型需要確定缺失輸入的位置郑原。

(3)文本填充:像SpanBERT一樣唉韭,對(duì)一些文本span進(jìn)行采樣,并用一個(gè)[MASK] token替換犯犁。每個(gè)span的長度服從泊松分布(λ= 3)属愤。模型需要預(yù)測(cè)一個(gè)span中有多少tokens缺失。

(4)句子排列:依句號(hào)將一個(gè)文檔分成若干個(gè)句子酸役,并將這些句子按照隨機(jī)順序排列住诸。

(5)文檔旋轉(zhuǎn):隨機(jī)均勻地選擇一個(gè)token,并旋轉(zhuǎn)文檔簇捍,使其以該token開始只壳。模型需要識(shí)別文檔的實(shí)際開始位置。

3.1.5對(duì)比學(xué)習(xí)(Contrastive Learning, CTL)

對(duì)比學(xué)習(xí)假設(shè)觀察到的文本對(duì)的語義相似度高于隨機(jī)抽樣組成的文本對(duì)暑塑。通過最小化如下的目標(biāo)函數(shù)來學(xué)習(xí)文本對(duì)(x, y)的得分函數(shù)s(x, y):

學(xué)習(xí)文本對(duì)得分函數(shù)的損失函數(shù)

其中?(x, y+)代表相似的文本對(duì)吼句,(x, y-)代表不相似的文本對(duì)。評(píng)分函數(shù)s(x, y)通常由一個(gè)可學(xué)習(xí)的神經(jīng)編碼器以兩種方式計(jì)算:

評(píng)分函數(shù)計(jì)算

CTL背后的理念是“通過比較來學(xué)習(xí)”事格。與LM相比惕艳,CTL通常具有較少的計(jì)算復(fù)雜度搞隐,因此是PTMs理想的替代訓(xùn)練標(biāo)準(zhǔn)

Collobert等人提出了pairwise ranking task來區(qū)分真假短語(real and fake phrases)远搪。該模型需要使得劣纲,預(yù)測(cè)得到的合法短語的得分高于用隨機(jī)詞替換核心詞得到的錯(cuò)誤短語的得分。Mnih和Kavukcuoglu使用噪聲對(duì)比估計(jì)(Noise-Contrastive Estimation谁鳍,NCE)有效地訓(xùn)練單詞嵌入癞季,訓(xùn)練一個(gè)二元分類器來區(qū)分真實(shí)樣本和虛假樣本。在眾所周知的word2vec嵌入中也使用了NCE的思想倘潜。

在下面的段落中绷柒,我們將簡要描述最近提出的一些CTL任務(wù)。

Deep InfoMax (DIM)涮因。Deep InfoMax (DIM)最初是針對(duì)圖像提出的废睦,它通過最大化整個(gè)圖像的表示和圖像局部區(qū)域的互信息來提高表示的質(zhì)量。Kong等將DIM應(yīng)用于語言的表征學(xué)習(xí)养泡。序列x的全局表示被定義為第一個(gè)token(句子符號(hào)的特殊開始)的隱藏狀態(tài)嗜湃,由上下文編碼器fenc(x)計(jì)算的。DIM的目的是fenc(xi: j) fenc(x?i: j) 比fenc(x?i: j) fenc(x?i: j)得到更高的得分澜掩,其中xi: j代表的x中i到j(luò)的n-gram span购披,x?i: j代表一個(gè)位置i到j(luò)被mask的句子,x?i: j代表語料庫中隨機(jī)采樣的的n-gram输硝,負(fù)樣本今瀑。

被替換的token檢測(cè)(Replaced Token Detection ,RTD)点把。替換token檢測(cè)(RTD)與NCE相同橘荠,但是根據(jù)周圍的上下文來預(yù)測(cè)一個(gè)token是否被替換。

帶負(fù)采樣的CBOW (CBOW with negative sampling郎逃,CBOW- ns)可以看作是RTD的一個(gè)簡單版本哥童,即從詞匯表中隨機(jī)抽取負(fù)樣本。

ELECTRA改進(jìn)RTD褒翰,使用生成器替換序列的token贮懈。

RTD也是mismatch問題的一種替代解決方案。網(wǎng)絡(luò)在訓(xùn)練前就能看到[MASK]优训,但在下游任務(wù)中進(jìn)行微調(diào)時(shí)就看不到了朵你。

類似地,WKLM替換了實(shí)體級(jí)別上的單詞揣非,而不是token級(jí)別上的單詞抡医。具體來說刻蟹,WKLM用相同類型的其他實(shí)體的名稱替換實(shí)體名扣汪,并訓(xùn)練模型來區(qū)分實(shí)體是否被替換。

下一句預(yù)測(cè)(Next Sentence Prediction仲锄,NSP)膨桥。標(biāo)點(diǎn)是文本數(shù)據(jù)的自然分隔符材失。因此蓝角,利用這些方法來構(gòu)建訓(xùn)練前方法是合理的径簿。NSP就是一個(gè)很好的例子。顧名思義俘种,NSP訓(xùn)練模型從訓(xùn)練語料庫中區(qū)分兩個(gè)輸入句子是否是連續(xù)的片段秤标。具體來說,在為每個(gè)訓(xùn)練前的例子選擇句子對(duì)時(shí)宙刘,50%的時(shí)間抛杨,第二個(gè)句子是第一個(gè)句子的實(shí)際下一個(gè)句子,50%的時(shí)間荐类,它是從語料庫中隨機(jī)抽取的一個(gè)句子。通過這樣做茁帽,它能夠教會(huì)模型理解兩個(gè)輸入句子之間的關(guān)系玉罐,從而有利于對(duì)該信息敏感的后續(xù)任務(wù),例如問答和自然語言推理潘拨。

然而吊输,NSP任務(wù)的必要性受到后續(xù)工作的質(zhì)疑。Yang等發(fā)現(xiàn)NSP任務(wù)的影響不穩(wěn)定铁追,而Joshi等發(fā)現(xiàn)沒有NSP損失的單句訓(xùn)練優(yōu)于有NSP損失的句子對(duì)訓(xùn)練季蚂。此外,Liu等對(duì)NSP任務(wù)進(jìn)行了進(jìn)一步的分析琅束,結(jié)果表明扭屁,當(dāng)使用來自單個(gè)文檔的文本塊進(jìn)行訓(xùn)練時(shí),消除NSP損失匹配或略微提高了下游任務(wù)的性能涩禀。

句子順序預(yù)測(cè)(Sentence Order Prediction料滥,SOP)。?為了更好地模擬句子間連貫性艾船,ALBERT用SOP損失代替了NSP損失葵腹。正如Lan等人所推測(cè)的那樣,NSP將主題預(yù)測(cè)(topic prediction) ??和相關(guān)性預(yù)測(cè)(coherence prediction)合并到一個(gè)任務(wù)中屿岂。因此践宴,該模型可能只依靠其中較簡單的任務(wù)-主題預(yù)測(cè)來進(jìn)行學(xué)習(xí)。SOP與NSP不同爷怀,SOP使用同一文檔中的兩個(gè)連續(xù)段作為正例阻肩,相同的兩個(gè)連續(xù)段但順序互換作為反例。因此霉撵,ALBERT在各種下游任務(wù)上的表現(xiàn)一直都比BERT好磺浙。StructBERT和BERTje也將SOP作為他們的自主學(xué)習(xí)任務(wù)洪囤。

個(gè)人筆記:下一句預(yù)測(cè)任務(wù)的必要性。下一句預(yù)測(cè)實(shí)際上包含了主題預(yù)測(cè)和相關(guān)性預(yù)測(cè)撕氧,由于主題預(yù)測(cè)更為簡單瘤缩,所以可能模型只會(huì)根據(jù)主題預(yù)測(cè)任務(wù)去學(xué)習(xí),并沒有學(xué)習(xí)到相關(guān)性伦泥。句子順序預(yù)測(cè)簡化了任務(wù)剥啤,兩個(gè)樣本對(duì)用的是同樣的連續(xù)文本,只是交換了順序做為正負(fù)樣本不脯,更好的學(xué)習(xí)相關(guān)性府怯。ALBERT是基于句子順序預(yù)測(cè)去學(xué)習(xí)的。

3.1.6其他

除了上述任務(wù)外防楷,還有許多其他輔助的預(yù)訓(xùn)練任務(wù)被用來合并?factual knowledge(參見4.1節(jié))牺丙、改進(jìn)跨語言(cross-lingual?)任務(wù)(參見4.2節(jié))、多模態(tài)(multi-modal)應(yīng)用(參見4.3節(jié))或其他特定任務(wù)(參見4.4節(jié))复局。

3.2 PTMs的分類

為了明確NLP現(xiàn)有PTMs之間的關(guān)系冲簿,我們構(gòu)建了PTMs的分類,從四個(gè)不同的角度對(duì)現(xiàn)有PTMs進(jìn)行了分類:

1. 表示類型:根據(jù)用于下游任務(wù)的表示亿昏,我們可以將PTM分為非上下文(non-contextual)和上下文(contextual)模型峦剔。

2. 架構(gòu):PTMs使用的主干網(wǎng)絡(luò),包括LSTM角钩、Transformer encoder吝沫、Transformer decoder和Transformer?架構(gòu)〉堇瘢“Transformer”指的是標(biāo)準(zhǔn)的encoder-decoder?架構(gòu)惨险。“Transformer encoder”和“Transformer decoder”分別指標(biāo)準(zhǔn)Transformer 架構(gòu)的encoder部分和decoder部分宰衙。它們的不同之處在于平道,decoder部分使用帶三角矩陣的masked self-attention來防止tokens出現(xiàn)在它們未來的(right)位置。

3.預(yù)訓(xùn)練任務(wù)類型:PTMs使用的預(yù)訓(xùn)練任務(wù)類型供炼。我們已經(jīng)在3.1節(jié)中討論了它們一屋。

4. 擴(kuò)展:為各種場(chǎng)景設(shè)計(jì)的PTM,包括knowledge-enriched?PTM袋哼、多語言或特定某種語言(multilingual或language-specific)的PTM冀墨、multi-model的PTM、領(lǐng)域特定的PTM和壓縮的(compressed)PTM涛贯。我們將在第4節(jié)中特別介紹這些擴(kuò)展诽嘉。

圖3顯示了分類以及一些相應(yīng)的有代表性的PTMs。此外,表2對(duì)一些有代表性的PTMs做了更詳細(xì)的區(qū)分虫腋。


圖3:PTMs的分類和有代表性的例子
表2:有代表性的PTMS

3.3模型分析

由于PTMs的巨大成功骄酗,了解PTMs捕捉到了哪些知識(shí)以及如何從知識(shí)中歸納知識(shí)是非常重要的。有大量的literature analyzing linguistic knowledge和world knowledge存儲(chǔ)在預(yù)訓(xùn)練的non-contextual??embeddings和contextual embeddings中悦冀。

3.3.1無上下文嵌入

首先探討靜態(tài)詞嵌入的各種知識(shí)趋翻。Mikolov等發(fā)現(xiàn),通過神經(jīng)網(wǎng)絡(luò)語言模型學(xué)習(xí)的單詞表示能夠捕捉語言中的語言規(guī)律盒蟆,單詞之間的關(guān)系可以用關(guān)系特定的向量偏移量來表征踏烙。進(jìn)一步的類比實(shí)驗(yàn)表明,skip-gram模型生成的詞向量可以同時(shí)捕捉句法和語義的詞之間的關(guān)系历等,如vec(“中國”) - vec(“北京”) ≈ vec(“日本”) - vec(“東京”)讨惩。此外,他們還發(fā)現(xiàn)了詞向量的構(gòu)成屬性寒屯,例如vec(“德國”) + vec(“首都”)與vec(“柏林”)接近荐捻。Rubinstein等人受到這些研究的啟發(fā),發(fā)現(xiàn)distributional word representations能夠很好地預(yù)測(cè)分類學(xué)屬性(例如寡夹,狗是一種動(dòng)物)靴患,但卻無法學(xué)習(xí)自身屬性(例如,天鵝是白色的)要出。類似地,Gupta等人表明word2vec嵌入會(huì)隱式地編碼實(shí)體之間的引用屬性(referential attributes)农渊。distributed word vectors和一個(gè)簡單的監(jiān)督模型可以學(xué)習(xí)預(yù)測(cè)實(shí)體的數(shù)字和二進(jìn)制屬性(numeric and binary attributes)患蹂,具有一定的準(zhǔn)確性。

個(gè)人筆記:無上下文的靜態(tài)詞嵌入砸紊,擅長學(xué)習(xí)實(shí)體的某些屬性传于,如分類屬性(狗是一種動(dòng)物)、數(shù)字和二進(jìn)制屬性(numeric and binary attributes)等醉顽,但是不擅長學(xué)習(xí)實(shí)體的另一些屬性沼溜,如自身屬性(天鵝是白色的)等。

3.3.2上下文嵌入

大量的研究證明游添,上下文嵌入中包含不同類型的知識(shí)系草。一般來說,有兩種類型的知識(shí):linguistic knowledge和world knowledge唆涝。

linguistic knowledge:Tenney找都、Liu發(fā)現(xiàn)BERT在詞性標(biāo)注(part-of-speech tagging,POS)和成分標(biāo)注(constituent labeling)等句法任務(wù)上表現(xiàn)良好廊酣。然而能耻,與簡單的語法任務(wù)相比,BERT在語義和細(xì)粒度的語法任務(wù)方面做得還不夠好

此外晓猛,Tenney等分析了BERT的層在不同任務(wù)中的作用饿幅,發(fā)現(xiàn)BERT處理任務(wù)的順序與NLP pipelines中類似。此外戒职,還證實(shí)了BERT中包含主謂一致和語義角色的知識(shí)栗恩。此外,Hewitt等提出了幾種從BERT中提取依賴樹和依存樹(dependency trees and constituency)的方法帕涌,證明了BERT對(duì)句法結(jié)構(gòu)進(jìn)行編碼的能力摄凡。Reif等探究了BERT的內(nèi)部表示的幾何結(jié)構(gòu),并發(fā)現(xiàn)了一些證據(jù):1)linguistic features似乎是在單獨(dú)的語義(semantic)和句法(syntactic)子空間中表示的蚓曼;2) attention矩陣包含語法(grammatical)表征亲澡;3)BERT能很好地辨別詞義(word senses)。

World Knowledge:除了linguistic knowledge纫版,PTMs還可以存儲(chǔ)訓(xùn)練數(shù)據(jù)中呈現(xiàn)的world Knowledge床绪。探究world Knowledge的一個(gè)簡單方法是用‘完形填空’來詢問Bert,例如其弊,“但丁出生在[MASK]”癞己。Petroni等人從多個(gè)知識(shí)來源,手工創(chuàng)建了single-token完形填空梭伐,構(gòu)建了LAMA(Language Model Analysis)任務(wù)痹雅。他們的實(shí)驗(yàn)表明,BERT包含了與傳統(tǒng)信息提取方法相媲美的world Knowledge糊识。由于LAMA的查詢生成過程非常簡單绩社,Jiang等認(rèn)為LAMA只是測(cè)量了語言模型所知道的下限,并提出了更高級(jí)的方法來生成更高效的查詢赂苗。盡管LAMA有驚人發(fā)現(xiàn)愉耙,但它也受到了后續(xù)工作的質(zhì)疑。類似地拌滋,一些研究將BERT的相關(guān)知識(shí)(relational knowledge)和常識(shí)知識(shí)(commonsense knowledge)引入到下游任務(wù)中朴沿。

4 PTMs的擴(kuò)展

4.1Knowledge-Enriched PTMs

PTMs通常從通用的大型文本語料庫中學(xué)習(xí)通用語言表示,但缺乏領(lǐng)域特定的知識(shí)败砂。將來自外部知識(shí)庫的領(lǐng)域知識(shí)合并到PTM中已被證明是有效的赌渣。外部知識(shí)包括語言( linguistic),語義(semantic)昌犹,常識(shí)(commonsense)锡垄,事實(shí)(factual ),到領(lǐng)域特定知識(shí)(domain-specific knowledge)祭隔。

一方面货岭,外部知識(shí)可以在預(yù)訓(xùn)練時(shí)注入路操。早期的研究主要集中在knowledge graph embeddings和word embedding的學(xué)習(xí)上。自BERT以來千贯,一些輔助的預(yù)訓(xùn)練任務(wù)被設(shè)計(jì)用于將外部知識(shí)融入到深度PTMs中屯仗。LIBERT(linguistically-informed BERT)通過一個(gè)額外的語言約束任務(wù)(linguistic constraint task)整合了語言知識(shí)(linguistic knowledge)。Ke等人將每個(gè)詞的情感極性綜合起來搔谴,將MLM擴(kuò)展到Label-Aware MLM (LA-MLM)魁袜。因此,他們提出的模型SentiLR敦第,在sentence-level和aspect-level的情感分類任務(wù)都得到了SOTA的表現(xiàn)峰弹。Levine等人提出了SenseBERT算法,該算法經(jīng)過預(yù)訓(xùn)練芜果,不僅可以預(yù)測(cè)masked tokens鞠呈,還可以預(yù)測(cè)它們?cè)赪ordNet中的supersenses。ERNIE(THU)將預(yù)置在knowledge graph上的實(shí)體嵌入與文本中相應(yīng)的實(shí)體相集成右钾,以增強(qiáng)文本表示蚁吝。類似地,KnowBERT聯(lián)合訓(xùn)練BERT和一個(gè)entity linking model舀射,以端到端方式合并實(shí)體表示窘茁。Wang等提出了KEPLER,它聯(lián)合優(yōu)化了知識(shí)嵌入和語言建模目標(biāo)(language modeling)脆烟。這些工作通過實(shí)體嵌入注入知識(shí)圖的結(jié)構(gòu)信息山林。相反,K-BERT顯式地將從KG中提取的相關(guān)三元組注入到句子中邢羔,以獲得extended tree-form ?input 作為BERT的輸入捌朴。此外,Xiong等采用實(shí)體替代識(shí)別來鼓勵(lì)模型更多地意識(shí)到事實(shí)知識(shí)张抄。然而,這些方法大多在注入知識(shí)時(shí)更新了PTMs的參數(shù)洼怔,注入多種知識(shí)時(shí)可能會(huì)出現(xiàn)災(zāi)難性遺忘(catastrophic forgetting)署惯。為了解決這個(gè)問題,K-Adapter通過針對(duì)不同的預(yù)訓(xùn)練任務(wù)分別訓(xùn)練不同的適配器來注入多種知識(shí)镣隶,從而實(shí)現(xiàn)知識(shí)的持續(xù)灌輸极谊。

另一方面,可以將外部知識(shí)合并到預(yù)訓(xùn)練的模型中安岂,而無需從頭開始對(duì)其進(jìn)行重新訓(xùn)練轻猖。例如,K-BERT允許在下游任務(wù)的fine-tuning過程中注入事實(shí)知識(shí)域那。Guan等人使用常識(shí)知識(shí)庫咙边、ConceptNet和ATOMIC猜煮,來增強(qiáng)GPT-2,完成故事生成任務(wù)败许。Yang等提出了一種知識(shí)-文本融合模型(knowledge-text fusion model)王带,用于機(jī)器閱讀理解中獲取相關(guān)的語言和事實(shí)知識(shí)。

此外市殷,Logan IV等和Hayashi等人將語言模型分別擴(kuò)展到知識(shí)圖語言模型(knowledge graph language model愕撰,KGLM)和潛在關(guān)系語言模型(latent relation language model,LRLM)醋寝,兩者都允許以知識(shí)圖為條件進(jìn)行預(yù)測(cè)搞挣。這些新的kg條件語言模型顯示出了預(yù)訓(xùn)練的潛力。

個(gè)人筆記:知識(shí)融合的三種方式音羞。1囱桨、設(shè)計(jì)預(yù)訓(xùn)練任務(wù),聯(lián)合學(xué)習(xí)黄选。通過實(shí)體嵌入注入知識(shí)圖的結(jié)構(gòu)信息蝇摸,和Bert聯(lián)合訓(xùn)練;2办陷、顯式地將從KG中提取的相關(guān)三元組注入到句子中貌夕,bert的輸入結(jié)構(gòu)會(huì)變成extended tree-form ?input;3民镜、在下游任務(wù)的fine-tuning過程中注入事實(shí)知識(shí)啡专。

前2種都要更新PTMs的參數(shù),注入多種知識(shí)時(shí)可能會(huì)出現(xiàn)災(zāi)難性遺忘制圈,嘗試用K-Adapter通過針對(duì)不同的預(yù)訓(xùn)練任務(wù)分別訓(xùn)練不同的適配器來注入多種知識(shí)们童,從而實(shí)現(xiàn)知識(shí)的持續(xù)灌輸。

4.2多語種和特定語種的PTMs

4.2.1多語種PTMs

學(xué)習(xí)跨語種共享的多語種文本表示在跨語種NLP任務(wù)中發(fā)揮著重要作用鲸鹦。

Cross-Lingual Language Understanding (XLU)?早期大部分工作集中在學(xué)習(xí)多語種(multilingua)單詞嵌入慧库,在一個(gè)語義空間中表示來自多種語種的文本。然而馋嗜,這些方法語種間的對(duì)齊齐板。

多語種的BERT3 (mBERT)是以MLM為預(yù)訓(xùn)練任務(wù),基于維基百科前104種語言葛菇,共享詞表和權(quán)重訓(xùn)練的甘磨。每個(gè)訓(xùn)練樣本都是單語文檔,沒有專門設(shè)計(jì)跨語種目標(biāo)眯停,也沒有跨語種數(shù)據(jù)济舆。即便如此,mBERT的跨語言綜合能力也驚人地好莺债。K等表明滋觉,不同語種之間的詞匯重疊在跨語種任務(wù)的成功中的作用可以忽略不計(jì)签夭。

XLM通過合并跨語種任務(wù)、翻譯語言建模(TLM)來改進(jìn)mBERT, TLM在成對(duì)的雙語句子對(duì)的連接上執(zhí)行MLM椎瘟。Unicoder進(jìn)一步提出了三種新的跨語種預(yù)訓(xùn)練任務(wù)覆致,包括跨語種單詞恢復(fù)(word recovery)、跨語言釋義分類(paraphrase classification)和跨語言掩蔽語言模型(cross-lingual classification, XMLM)肺蔚。

XLM-RoBERTa (XLM-R)是一個(gè)scaled的多語種編碼器煌妈,預(yù)訓(xùn)練使用的數(shù)據(jù)量顯著增加,在100種不同的語言宣羊,2.5TB璧诵,干凈的 CommonCrawl 數(shù)據(jù)。XLM RoBERTa的預(yù)訓(xùn)練任務(wù)是單語的MLM仇冯。XLM-R在多種跨語種任務(wù)上取得了SOTA的效果之宿,包括XNLI、MLQA和NER苛坚。

Cross-Lingual Language Generation (XLG) 跨語種生成是從輸入語言生成不同語種文本的一種任務(wù)比被,如機(jī)器翻譯和跨語言摘要。

與多語言分類的PTM不同泼舱,跨域種生成的PTM需要對(duì)編碼器和解碼器進(jìn)行聯(lián)合預(yù)訓(xùn)練等缀,而不是只專注于編碼器。

MASS在多語種上用單語Seq2Seq MLM對(duì)Seq2Seq模型進(jìn)行了預(yù)訓(xùn)練娇昙,并對(duì)無監(jiān)督的NMT進(jìn)行了顯著改進(jìn)尺迂。XNLG為跨語種自然語言生成設(shè)計(jì)了兩個(gè)階段的預(yù)訓(xùn)練。第一階段用單語種MLM和跨語言MLM(XMLM)任務(wù)預(yù)訓(xùn)練編碼器冒掌。第二階段噪裕,固定編碼器,用單語種DAE和跨語自動(dòng)編碼(XAE)訓(xùn)練解碼器股毫。實(shí)驗(yàn)表明膳音,XNLG在跨語種問題生成和跨語種摘要方面具有優(yōu)勢(shì)。mBART是BART的跨語種擴(kuò)展铃诬,它在25種語言的大型單語語料庫上祭陷,在Seq2Seq去噪自動(dòng)編碼器(DAE)任務(wù)上,對(duì)編碼器和解碼器進(jìn)行聯(lián)合預(yù)訓(xùn)練氧急。實(shí)驗(yàn)表明,在各種機(jī)器翻譯(MT)任務(wù)中毫深,mBART可以顯著提高性能吩坝。

4.2.2 Language-Specific PTMs

雖然多語種PTMs在許多語言上表現(xiàn)良好,但最近的研究表明哑蔫,在單一語種上訓(xùn)練的PTMs的性能顯著優(yōu)于多語種钉寝。

中文弧呐,沒有明確單詞邊界,建模更大的粒度和多粒度的單詞表示取得了成功嵌纲。Kuratov和Arkhipov使用遷移學(xué)習(xí)技術(shù)將多語種PTM轉(zhuǎn)換為俄語單語PTM俘枫。此外,還為不同的語言發(fā)布了一些單語PTM逮走,例如CamemBERT和FlauBERT用于法語鸠蚪,F(xiàn)inBERT用于芬蘭語,BERTje和RobBERT用于荷蘭語师溅,AraBERT用于阿拉伯語茅信。

4.3 多模態(tài)(Multi-Modal)?PTMs

通過觀察PTMs在許多NLP任務(wù)中的成功,一些研究已經(jīng)集中于獲得一個(gè)PTMs的跨模態(tài)版本墓臭。這些模型中的絕大多數(shù)都是為視覺和語言的通用特征編碼而設(shè)計(jì)的蘸鲸。這些模型是在一些巨大的跨模態(tài)數(shù)據(jù)語料庫上進(jìn)行預(yù)訓(xùn)練的,如帶有spoken words的視頻或帶有字幕的圖像窿锉,結(jié)合擴(kuò)展的預(yù)訓(xùn)練任務(wù)酌摇,充分利用多模態(tài)特征。通常情況下嗡载,基于視覺的MLM(visual-based?MLM)窑多、掩蔽視覺特征建模(masked visual-feature modeling)和視覺語言匹配(visual-linguistic?matching?MLM)等任務(wù)在多模態(tài)預(yù)訓(xùn)練中得到了廣泛應(yīng)用,如VideoBERT鼻疮、VisualBERT怯伊、ViLBERT。

4.3.1Video-Text?PTMs

VideoBERT和CBT是視頻和文本的聯(lián)合模型判沟。為了獲得用于預(yù)訓(xùn)練的視覺和語言token序列耿芹,視頻分別由基于cnn的編碼器和現(xiàn)成的語音識(shí)別技術(shù)進(jìn)行預(yù)處理。單獨(dú)一個(gè)Transformer encoder對(duì)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練挪哄,以學(xué)習(xí)后續(xù)任務(wù)(如視頻字幕)的視覺語言表示吧秕。此外,UniViLM建議引入生成任務(wù)迹炼,進(jìn)一步預(yù)訓(xùn)練下游任務(wù)中要使用的解碼器砸彬。

4.3.2Image-Text PTMs

除了視頻語言預(yù)訓(xùn)練的方法外,一些作品還介紹了圖像-文本對(duì)上的PTMs斯入,旨在適用于后續(xù)任務(wù)砂碉,如視覺問題回答(VQA)和視覺常識(shí)推理(VCR)。一些模型采用兩個(gè)單獨(dú)的編碼器分別進(jìn)行圖像和文本表示刻两,如ViLBERT和LXMERT增蹭。而VisualBERT、B2T2磅摹、VLBERT滋迈、Unicoder-VL霎奢、UNITER等方法則提出了single-stream unified Transformer。雖然這些模型架構(gòu)不同饼灿,但這些方法中都引入了類似的預(yù)訓(xùn)練任務(wù)幕侠,例如MLM和image-text matching。為了更好地利用視覺元素碍彭,在用預(yù)訓(xùn)練好的Transformer編碼之前晤硕,先采用RoI或bounding box檢索技術(shù)將圖像轉(zhuǎn)換成sequences of regions。

4.3.3 Audio-Text PTMs

此外硕旗,還有幾種方法探索了在音頻-文本對(duì)上使用PTMs的可能性窗骑,如SpeechBERT。試圖通過一個(gè)單獨(dú)的Transformer?encoder對(duì)語音和文本進(jìn)行編碼漆枚,建立一個(gè)端到端的語音問題回答(Speech Question Answering创译,SQA)模型,其中Transformer?encoder利用MLM對(duì)語音和文本語料庫進(jìn)行預(yù)訓(xùn)練得到墙基,并在問答中進(jìn)行微調(diào)软族。

4.4 Domain-Specific and Task-Specific PTMs

大多數(shù)公開可用的PTM都是在通用領(lǐng)域語料庫(如Wikipedia)上訓(xùn)練的,該語料庫將其應(yīng)用限制在特定領(lǐng)域或任務(wù)上残制。最近立砸,一些研究提出了以專業(yè)語料庫為訓(xùn)練對(duì)象的PTMs,如BioBERT用于生物醫(yī)學(xué)文本初茶,SciBERT用于科學(xué)文本颗祝,ClinicalBERT用于臨床文本。

除了對(duì)特定領(lǐng)域的PTM進(jìn)行預(yù)訓(xùn)練外恼布,還有一些工作嘗試將現(xiàn)有的預(yù)訓(xùn)練模型應(yīng)用于目標(biāo)應(yīng)用螺戳,如生物醫(yī)學(xué)實(shí)體規(guī)范化(biomedical entity normalization)、專利分類(patent classification)折汞、進(jìn)展說明分類(progress notes classification)和關(guān)鍵字提取(keyword extraction)倔幼。

還提出了一些面向任務(wù)的預(yù)訓(xùn)練任務(wù),如用于情感分析的SentiLR中的sentiment Label-Aware MLM爽待,用于文本摘要的間隙句生成(Gap Sentence Generation, GSG)鳍刷,以及用于語句不流暢檢測(cè)的嘈雜詞檢測(cè)(disfluency detection)谍咆。

4.5 Model Compression

由于PTMs通常至少包含數(shù)億個(gè)參數(shù)御雕,因此很難在在線服務(wù)和資源受限的設(shè)備上部署它們灌具。模型壓縮是一種減小模型尺寸、提高計(jì)算效率的潛在方法何什。

有五種方法來壓縮PTMs:(1)模型修剪(model pruning)组哩,刪除不重要的參數(shù);(2)權(quán)重量化(weight quantization),它使用更少的比特位來存儲(chǔ)參數(shù)禁炒;(3)參數(shù)共享(parameter sharing),在相似模型單元之間共享參數(shù)霍比;(4)知識(shí)蒸餾(knowledge distillation)幕袱,從原始模型的中間輸入中學(xué)習(xí),訓(xùn)練一個(gè)較小的學(xué)生模型(student model)悠瞬;(5)模塊替換(module replacing)们豌,用更簡單的模塊替代原始PTM模塊。

表3給出了一些有代表性的壓縮PTMs的比較浅妆。

PTMs壓縮

4.5.1模型修剪

模型剪枝是指去除部分神經(jīng)網(wǎng)絡(luò)(如權(quán)值望迎、神經(jīng)元、layers凌外、channels辩尊、attention heads),從而達(dá)到減小模型大小康辑、加快推理時(shí)間的效果摄欲。

Gordon等人研究了模型修剪的時(shí)機(jī)(例如,在預(yù)訓(xùn)練時(shí)修剪疮薇,在下游微調(diào)后剪枝)胸墙,以及剪枝的方法。Michel和Voita試圖修剪transformer中的整個(gè)self-attention heads按咒。

4.5.2Quantization

量化是指將精度較高的參數(shù)壓縮到精度較低的參數(shù)迟隅。Shen和Zafrir的工作只關(guān)注這一領(lǐng)域。請(qǐng)注意励七,量化通常需要兼容的硬件智袭。

4.5.3參數(shù)共享

另一種眾所周知的減少參數(shù)數(shù)量的方法是參數(shù)共享,它廣泛應(yīng)用于CNNs呀伙、RNNs和Transformer补履。ALBERT采用跨層參數(shù)共享和factorized embedding parameterization來減少PTMs的參數(shù)。ALBERT雖大大減少了參數(shù)的數(shù)量剿另,但訓(xùn)練和推理時(shí)間比標(biāo)準(zhǔn)BERT還要長箫锤。通常情況下,參數(shù)共享并不能提高推理階段的計(jì)算效率雨女。

4.5.4知識(shí)蒸餾

知識(shí)蒸餾(KD)是一種壓縮技術(shù)谚攒,通過訓(xùn)練一個(gè)稱為student model的小模型來重現(xiàn)一個(gè)稱為teacher model的大模型。在這里氛堕,教師模型可以是許多模型的集合馏臭,通常都經(jīng)過了良好的預(yù)訓(xùn)練。與模型壓縮(compression)不同,精餾技術(shù)通過一些優(yōu)化目標(biāo)從一個(gè)fixed教師模型學(xué)習(xí)一個(gè)小的學(xué)生模型括儒,而壓縮技術(shù)的目標(biāo)是搜索一個(gè)更稀疏的體系結(jié)構(gòu)(searching a sparser architecture)绕沈。

一般來說,蒸餾的機(jī)制可以分為三種:(1)從soft target probabilities中蒸餾帮寻;(2)從其他知識(shí)中蒸餾乍狐;(3)蒸餾成其他結(jié)構(gòu):

(1)從soft target probabilities中蒸餾。Bucilua等人的研究表明固逗,當(dāng)學(xué)生模型與教師模型相似浅蚪,可以將知識(shí)從教師傳遞給學(xué)生。通常的方法是近似教師模型的對(duì)數(shù)(logits)烫罩。DistilBERT用基于教師模型的soft target probabilities作為蒸餾目標(biāo)惜傲,訓(xùn)練學(xué)生模型:

蒸餾損失

其中ti和si分別是教師模型和學(xué)生模型估計(jì)的概率。

從soft target probabilities中提取的信息也可以用于特定任務(wù)模型中贝攒,如信息檢索和序列標(biāo)記盗誊。

(2)從其他知識(shí)中提煉。從soft target probabilities中蒸餾模型將教師模型視為黑盒隘弊,只關(guān)注其輸出浊伙。除此之外,分解教師模型长捧,提取更多的知識(shí)嚣鄙,可以改善學(xué)生模型。

TinyBERT利用embedding outputs串结、hidden states和self-attention distributions進(jìn)行分層蒸餾哑子。MobileBERT對(duì)soft target probabilities、hidden states和self-attention?distributions進(jìn)行分層蒸餾肌割。MiniLM從教師模型中提取出self-attention distributions和self-attention之間的value relation卧蜓。

此外,其他模型通過許多方法提取知識(shí)把敞。Sun介紹了一種“patient”師生機(jī)制弥奸,Liu利用KD改進(jìn)了預(yù)訓(xùn)練的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)。

(3)蒸餾成其他結(jié)構(gòu)奋早。一般來說盛霎,學(xué)生模型的結(jié)構(gòu)和教師模型是一樣的,只是層的尺寸更小耽装,隱藏的尺寸也更小愤炸。然而,從Transformer到RNN或CNN掉奄,不僅可以減少參數(shù)规个,還可以簡化模型結(jié)構(gòu),降低計(jì)算復(fù)雜度。

4.5.5 Module Replacing

模塊替換是一種有趣而簡單的減小模型大小的方法诞仓,它用更簡潔的模塊代替了原來PTMs的大模塊缤苫。Xu提出了Theseus Compression,這是由著名的思維實(shí)驗(yàn)“忒修斯之船”(Ship of Theseus)所啟發(fā)的墅拭,該實(shí)驗(yàn)用參數(shù)較少的模塊逐步替代源模型中的模塊榨馁。與KD不同,Theseus壓縮只需要一個(gè) task-specific的損失函數(shù)帜矾。壓縮后的模型BERT-of-Theseus,比原是模型快1.94倍屑柔,同時(shí)保留超過98%的性能屡萤。

4.5.6其他

除了減小模型大小之外,還有其他方法可以在資源有限的實(shí)際場(chǎng)景中提高PTMs的計(jì)算效率掸宛。Liu提出了一種實(shí)用的速調(diào)BERT(speed-tunable BERT)死陆,即FastBERT,它可以通過樣本自適應(yīng)機(jī)制動(dòng)態(tài)減少計(jì)算步驟唧瘾。

5 PTMs適應(yīng)下游任務(wù)

雖然PTMs從一個(gè)大型語料庫中獲取通用的語言知識(shí)措译,但是如何有效地使他們的適應(yīng)下游任務(wù)仍然是一個(gè)關(guān)鍵問題。

5.1 遷移學(xué)習(xí)

遷移學(xué)習(xí)是將知識(shí)從源任務(wù)(或領(lǐng)域)轉(zhuǎn)化到目標(biāo)任務(wù)(或領(lǐng)域)饰序。圖4給出了遷移學(xué)習(xí)的一個(gè)例子领虹。

遷移學(xué)習(xí)

自然語言處理中的遷移學(xué)習(xí)有許多類型,如領(lǐng)域適應(yīng)(domain adaptation)求豫、跨語種學(xué)習(xí)(cross-lingual learning)塌衰、多任務(wù)學(xué)習(xí)(multi-task learning)等。PTMs適應(yīng)下游任務(wù)是一種序列遷移學(xué)習(xí)的任務(wù)(sequential transfer?learning task)蝠嘉,序列話學(xué)習(xí)任務(wù)最疆,目標(biāo)任務(wù)有標(biāo)簽數(shù)據(jù)。

5.2 如何遷移?

為了將PTM的知識(shí)轉(zhuǎn)移到下游的NLP任務(wù)中蚤告,我們需要考慮以下問題:

5.2.1選擇合適的預(yù)訓(xùn)練任務(wù)努酸、模型架構(gòu)和語料庫

不同的PTM通常對(duì)相同的下游任務(wù)有不同的效果,因?yàn)檫@些PTM是使用各種不同的預(yù)訓(xùn)練任務(wù)杜恰、模型體系結(jié)構(gòu)和語料庫進(jìn)行訓(xùn)練的获诈。

(1)目前,語言模型是最受歡迎的預(yù)訓(xùn)練任務(wù)心褐,能更有效地解決各種NLP問題烙荷。然而,不同的預(yù)訓(xùn)練任務(wù)有自己的bias檬寂,對(duì)不同的任務(wù)有不同的效果终抽。例如,NSP任務(wù)使PTM理解兩個(gè)句子之間的關(guān)系。因此昼伴,PTM可以為后續(xù)任務(wù)帶來好處匾旭,比如問答(QA)和自然語言推理(NLI)。

(2)PTM的架構(gòu)對(duì)于下游任務(wù)也很重要圃郊。例如价涝,盡管BERT幫助完成大多數(shù)自然語言理解任務(wù),但是自然語言生成是困難的持舆。

(3)下游任務(wù)的數(shù)據(jù)分布應(yīng)近似于PTMs色瘩。目前,有大量現(xiàn)成的PTM逸寓,它們可以方便地用于各種特定于領(lǐng)域或特定于語言的下游任務(wù)居兆。

因此,對(duì)于給定的目標(biāo)任務(wù)竹伸,應(yīng)選擇經(jīng)過適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)泥栖、體系結(jié)構(gòu)和語料庫訓(xùn)練的PTMs。

5.2.2選擇合適的層

給定一個(gè)預(yù)訓(xùn)練好的深度模型勋篓,不同的層應(yīng)該捕獲不同種類的信息吧享,例如詞性標(biāo)記(POS tagging)、解析(parsing)譬嚣、長期依賴(long-term dependencies)钢颂、語義角色(semantic roles)、指代關(guān)系(coreference)拜银。對(duì)于基于RNN的模型甸陌,Belinkov和Melamud表明,從多層LSTM編碼器的不同層學(xué)習(xí)的表示有益于不同的任務(wù)(例如盐股,預(yù)測(cè)POS標(biāo)記和理解word sense)钱豁。Tenney發(fā)現(xiàn),對(duì)于基于transformer-based?PTMs, BERT代表了傳統(tǒng)NLP?pipeline的步驟:基本的語法信息在網(wǎng)絡(luò)中出現(xiàn)得更早疯汁,而高級(jí)語義信息則出現(xiàn)在更高層牲尺。

設(shè)H(l)(1<=l<= l)表示含有L層的預(yù)訓(xùn)練模型的第l層表示,g(·)表示用于目標(biāo)任務(wù)的task-specific model幌蚊。

三種方式選擇representation:

a) 只要Embedding谤碳。一種方法是只選擇預(yù)訓(xùn)練好的靜態(tài)Embedding,而模型的其余部分仍然需要為新的目標(biāo)任務(wù)從零開始進(jìn)行訓(xùn)練溢豆。

它們不能捕獲可能更有用的高級(jí)信息蜒简。詞嵌入僅用于捕獲詞的語義含義,但我們還需要理解更高級(jí)的概念漩仙,如word sense搓茬。

b)?Top Layer犹赖。最簡單和有效的方法是將頂層的representation提供給task-specific model g(H(L))。

c)?所有層卷仑。一個(gè)更靈活的方法是自動(dòng)選擇最好的層峻村,像ELMo:

自動(dòng)選擇最好的層

其中,αl是l層的softmax-normalized weight锡凝,γ是一個(gè)scalar粘昨,用來scale預(yù)訓(xùn)練模型的輸出向量〈芫猓混合表示形式被輸入到task-specific model g(r(t))张肾。

5.2.3 微調(diào)或不微調(diào)?

目前,模型遷移有兩種常見的方法:特征提取(FE锚扎,feature extraction吞瞪,預(yù)訓(xùn)練的參數(shù)被凍結(jié))、微調(diào)(FT工秩,?fine-tuning,不凍結(jié)預(yù)訓(xùn)練的參數(shù)进统,可微調(diào))助币。

在特征提取的方法中,預(yù)訓(xùn)練好的模型被認(rèn)為是現(xiàn)成的特征提取器螟碎。此外眉菱,公開internal layers很重要,因?yàn)樗鼈兺ǔ>幋a最可轉(zhuǎn)移的表示(most transferable representations)掉分。

盡管這兩種方法都能顯著地使大多數(shù)NLP任務(wù)受益俭缓,但針對(duì)特定任務(wù),特征提取方法需要更復(fù)雜的體系結(jié)構(gòu)酥郭。因此华坦,微調(diào)方法通常比特征提取方法更通用,更便于處理許多不同的下游任務(wù)不从。

表4給出了一些常見adapting?PTMs的組合惜姐。

常見adapting?PTMs的組合

5.3 Fine-Tuning策略

隨著PTMs深度的增加,它們所捕獲的representation使下游任務(wù)更加容易椿息。因此歹袁,真?zhèn)€模型的task-specific層比較簡單。自ULMFit和BERT以來寝优,微調(diào)已成為PTMs的主要適應(yīng)方法条舔。然而,微調(diào)的過程往往是脆弱的:即使有相同的超參數(shù)值乏矾,不同的隨機(jī)種子可以導(dǎo)致實(shí)質(zhì)上不同的結(jié)果孟抗。

除了標(biāo)準(zhǔn)微調(diào)之外迁杨,還有一些有用的微調(diào)策略。

Two-stage fine-tuning夸浅。另一種解決方案是兩階段遷移( two-stage?transfer)仑最,它引入了一個(gè)介于預(yù)訓(xùn)練和微調(diào)之間的中間階段。在第一個(gè)階段帆喇,PTM被遷移到一個(gè)由中間任務(wù)或語料庫微調(diào)的模型中警医。在第二階段,將遷移的模型微調(diào)到目標(biāo)任務(wù)坯钦。Sun等表明预皇,對(duì)相關(guān)域(related-domain)語料進(jìn)行“進(jìn)一步的預(yù)訓(xùn)練”可以進(jìn)一步提高BERT的能力,并在8個(gè)被廣泛研究的文本分類數(shù)據(jù)集上取得了SOTA的性能婉刀。Phang等和Garg等人引入了與目標(biāo)任務(wù)相關(guān)的中間監(jiān)督任務(wù)吟温,這給BERT、GPT和ELMo帶來了很大的改進(jìn)突颊。Li等也在故事結(jié)局預(yù)測(cè)任務(wù)上采用了兩階段遷移鲁豪。提出的TransBERT(transferable BERT)不僅可以從大規(guī)模的未標(biāo)記數(shù)據(jù)中遷移學(xué)習(xí)通用的語言知識(shí),還可以從各種語義相關(guān)的監(jiān)督任務(wù)中遷移學(xué)習(xí)到特定種類的知識(shí)律秃。

Multi-task fine-tuning爬橡。Liu等在多任務(wù)學(xué)習(xí)框架下對(duì)BERT進(jìn)行了微調(diào),證明了多任務(wù)學(xué)習(xí)和預(yù)訓(xùn)練是互補(bǔ)的技術(shù)棒动。

Fine-tuning with extra adaptation modules糙申。fine-tuning的主要缺點(diǎn)是其參數(shù)效率低下:每個(gè)下游任務(wù)都有自己的fine-tuning參數(shù)。因此船惨,更好的解決方案是在原始參數(shù)不變的情況下柜裸,向PTMs注入一些可fine-tuning的自適應(yīng)模塊。Stickland和Murray為單個(gè)可共享的BERT模型配備了額外的小的task-specific適應(yīng)模塊粱锐,即映射注意力層(projected attention layers疙挺,PALs)。與PALs共享的BERT比單獨(dú)fine-tuned的模型少了7倍參數(shù)怜浅,但在GLUE在GLUE benchmark上表現(xiàn)相當(dāng)衔统。類似地,Houlsby等人通過添加適配器模塊修改了預(yù)訓(xùn)練BERT的架構(gòu)海雪。適配器模塊提供了一個(gè)緊湊且可擴(kuò)展的模型;它們只為每個(gè)任務(wù)添加幾個(gè)可訓(xùn)練的參數(shù)锦爵,并且可以添加新任務(wù),而不需要重新訪問以前的任務(wù)奥裸。原始網(wǎng)絡(luò)的參數(shù)保持不變险掀,實(shí)現(xiàn)了高度的參數(shù)共享。

Others湾宙。在廣泛使用的集成模型成功的激勵(lì)下樟氢,Xu等人利用自集成(self-ensemble)和自蒸餾(self-distillation)兩種有效機(jī)制改進(jìn)了BERT的fine-tuning冈绊,在不利用外部資源或顯著降低訓(xùn)練效率的情況下,提高了BERT在下游任務(wù)中的表現(xiàn)埠啃。他們把集成和蒸餾整合在一個(gè)單獨(dú)的訓(xùn)練過程中死宣。教師模型是一種集成模型,它的參數(shù)是以前的時(shí)間步中幾個(gè)學(xué)生模型的參數(shù)的平均碴开。

漸進(jìn)式解凍(gradual unfreezing)不是同時(shí)對(duì)所有層進(jìn)行微調(diào)毅该,而是從頂層開始逐漸解凍預(yù)訓(xùn)練層的一種有效方法。Chronopoulou等人提出了一種更簡單的解凍方法——順序解凍( sequential unfreezing)潦牛,先對(duì)task-specific?layers隨機(jī)初始化的參數(shù)進(jìn)行微調(diào)眶掌,然后對(duì)PTM的hidden layers 進(jìn)行解凍,最后對(duì)embedding?layer進(jìn)行解凍巴碗。

Li和Eisner使用variational information bottleneck朴爬,在保留有利于目標(biāo)任務(wù)的信息的同時(shí),壓縮ELMo embeddings橡淆。

總的來說召噩,上述工作表明,更好的微調(diào)策略可以進(jìn)一步激發(fā)PTMs的效用逸爵。

6 PTMs資源

網(wǎng)上有很多關(guān)于PTMs的相關(guān)資源具滴。表5提供了一些流行的存儲(chǔ)庫,包括第三方實(shí)現(xiàn)痊银、論文列表抵蚊、可視化工具和PTMs的其他相關(guān)資源施绎。

PTMs資源

7 應(yīng)用

在本節(jié)中溯革,我們將總結(jié)PTMs在幾個(gè)經(jīng)典NLP任務(wù)中的一些應(yīng)用。

7.1一般評(píng)價(jià)基準(zhǔn)

對(duì)于NLP社區(qū)來說谷醉,一個(gè)重要的問題是我們?nèi)绾斡靡粋€(gè)可比較的度量來評(píng)估PTMs致稀。因此,large scale的benchmark是必要的俱尼。

通用語言理解評(píng)價(jià)(General Language Understanding Evaluation抖单,GLUE)基準(zhǔn)是9個(gè)自然語言理解任務(wù)的集合,包括單句分類任務(wù)(CoLA和SST-2)遇八、成對(duì)文本分類任務(wù)(MNLI矛绘、RTE、WNLI刃永、QQP和MRPC)货矮、文本相似性任務(wù)(STSB)和相關(guān)性排序任務(wù)(QNLI)。GLUE基準(zhǔn)用于評(píng)估模型的魯棒性和泛化性斯够。GLUE不為測(cè)試集提供標(biāo)簽囚玫,而是設(shè)置一個(gè)評(píng)估服務(wù)器喧锦。

然而,由于近年來技術(shù)的進(jìn)步大大削弱了在GLUE基準(zhǔn)上的進(jìn)步空間抓督,提出了一種新的基準(zhǔn)燃少,稱為SuperGLUE。與GLUE相比铃在,SuperGLUE具有更具挑戰(zhàn)性的任務(wù)和更多樣化的任務(wù)格式(例如阵具,指代消解coreference resolution和問答question answer)。

最先進(jìn)的PTMs被列在相應(yīng)的排行榜上涌穆。

https://gluebenchmark.com/

https://super.gluebenchmark.com/

7.2 問答Question Answering

問答(QA)或更窄的概念機(jī)器閱讀理解(machine?reading comprehension怔昨,?MRC)是NLP社區(qū)中的一個(gè)重要應(yīng)用。從簡單到困難宿稀,有三種類型的QA任務(wù):單輪抽取QA (SQuAD)趁舀、多輪生成QA (CoQA)和multi-hop?QA (HotpotQA)。

BERT創(chuàng)造性地將抽取式QA任務(wù)轉(zhuǎn)換為范圍預(yù)測(cè)任務(wù)(spans prediction task)祝沸,預(yù)測(cè)答案的起始span和結(jié)束span矮烹。在此之后,PTM作為spans預(yù)測(cè)的編碼器已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)力的baseline罩锐。對(duì)于抽取式QA, Zhang等人提出了回溯式閱讀器框架(retrospective reader architecture)奉狈,并使用PTM(如ALBERT)對(duì)編碼器進(jìn)行初始化。對(duì)于多輪生成式QA, Ju等提出了“PTM+對(duì)抗訓(xùn)練+基本原理標(biāo)記+知識(shí)蒸餾”的模型(PTM+Adversarial Training+Rationale?Tagging+Knowledge Distillation)涩惑。對(duì)于multi-hopQA, Tu等提出了一種可解釋的“選擇仁期、回答和解釋”(Select, Answer, Explain,SAE)系統(tǒng)竭恬,PTM作為選擇模塊中的編碼器跛蛋。

通常,所提到的QA模型中的編碼器參數(shù)是通過PTM初始化的痊硕,其他參數(shù)是隨機(jī)初始化的赊级。

7.3 情感分析Sentiment Analysis

BERT在情感分析數(shù)據(jù)集SST-2上進(jìn)行微調(diào),超越了之前的SOTA模型岔绸。Bataa和Wu利用BERT的遷移學(xué)習(xí)技術(shù)理逊,在日語情感分析中達(dá)到了SOTA。

盡管他們?cè)诤唵蔚那榫w分析上取得了成功盒揉,但是直接將BERT應(yīng)用到aspect-based的情緒分析(aspect-based sentiment analysis晋被,ABSA,這是一項(xiàng)細(xì)粒度的SA任務(wù))上刚盈,卻沒有顯著的改善羡洛。為了更好地利用BERT的強(qiáng)大表示,Sun等將ABSA從單一的句子分類任務(wù)轉(zhuǎn)化為句子對(duì)分類任務(wù)扁掸,構(gòu)造了一個(gè)輔助句翘县。Xu等提出post-training最域,使得BERT從其原始域和原始任務(wù)適應(yīng)到ABSA域和任務(wù)。Karimi等研究表明锈麸,通過對(duì)抗訓(xùn)練可以進(jìn)一步提高BERT的post-training表現(xiàn)镀脂。Song等增加了一個(gè)額外的pooling 模塊(可以用LSTM或注意機(jī)制實(shí)現(xiàn)),以利用BERT中間層進(jìn)行ABSA忘伞。此外薄翅,Li等聯(lián)合學(xué)習(xí)了aspect detection和sentiment classification,端到端完成ABSA氓奈。SentiLR從SentiWordNet中獲取詞性標(biāo)簽(POS)和先前的情感極性翘魄,采用標(biāo)簽感知MLM(Label-Aware) ? ?來利用引入的語言知識(shí),捕捉句子級(jí)情感標(biāo)簽與詞級(jí)情感轉(zhuǎn)移之間的關(guān)系舀奶。在多句子級(jí)別和aspect級(jí)別的情感分類任務(wù)中暑竟,SentiLR實(shí)現(xiàn)了SOTA。

For?sentiment transfer育勺,Wu基于BERT提出了“Mask and Infill”但荤。在Mask步驟,模型通過mask情感標(biāo)記將情感從內(nèi)容中分離出來涧至。在Infill步驟中腹躁,它使用BERT和目標(biāo)情緒嵌入(target sentiment?embedding)來填充被mask的位置。

7.4 命名實(shí)體識(shí)別 Named Entity Recognition

命名實(shí)體識(shí)別(NER)在信息提取中起著重要作用南蓬,在許多NLP下游任務(wù)中起著重要作用纺非。在深度學(xué)習(xí)中,大部分的NER方法都是在序列標(biāo)注(sequence-labeling)框架中赘方。句子中的實(shí)體信息將被轉(zhuǎn)換成標(biāo)簽序列烧颖,一個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)單詞。該模型用于預(yù)測(cè)每個(gè)單詞的標(biāo)簽蒜焊。由于ELMo和BERT已經(jīng)在NLP中展示了他們的力量倒信,關(guān)于NER的預(yù)訓(xùn)練模型有很多工作要做科贬。

Akbik等人使用預(yù)訓(xùn)練的character-level語言模型為NER生成word-level嵌入泳梆。TagLM和ELMo使用預(yù)訓(xùn)練語言模型的最后一層輸出和每一層輸出的加權(quán)和作為單詞嵌入的一部分。Liu等利用layer-wise pruning和dense connection加速了ELMo對(duì)NER的推理榜掌。Devlin等人使用第一個(gè)BPE(Byte-Pair Encoding)的BERT表示來預(yù)測(cè)沒有CRF的每個(gè)單詞的標(biāo)簽优妙。Pires等通過多語言BERT實(shí)現(xiàn)了zero-shot NER。Tsai等人利用知識(shí)蒸餾在單個(gè)CPU上為NER運(yùn)行一個(gè)小BERT憎账。此外套硼,BERT也用于領(lǐng)域特定的NER,如生物醫(yī)學(xué)領(lǐng)域等胞皱。

7.5 Machine Translation

機(jī)器翻譯(MT)是自然語言處理領(lǐng)域的一項(xiàng)重要工作邪意,吸引了眾多研究者的關(guān)注九妈。幾乎所有的神經(jīng)機(jī)器翻譯(NMT)模型都共享encoder-decoder框架,該框架首先將輸入標(biāo)記編碼到編碼器的隱藏表示中雾鬼,然后將目標(biāo)語言中的輸出標(biāo)記從解碼器解碼萌朱。Ramachandran等發(fā)現(xiàn),通過使用兩種語言模型預(yù)訓(xùn)練的權(quán)重來初始化encoder和decoder策菜,可以顯著改進(jìn)encoder-decoder模型晶疼。Edunov等人使用ELMo在NMT模型中設(shè)置word embedding層,通過使用預(yù)訓(xùn)練的語言模型來初始化source word?embedding又憨,在English-Turkish和English-German 機(jī)器翻譯模型上獲得性能提升翠霍。

鑒于BERT在其他NLP任務(wù)上的卓越性能,研究如何將BERT合并到NMT模型中是很自然的事情蠢莺。Conneau試圖用多語種預(yù)訓(xùn)練Bert模型來初始化整個(gè)encoder和decoder寒匙,可以在無監(jiān)督的MT和有監(jiān)督的English-Romanian翻譯任務(wù)上取得極大提升。同樣,Clinchant設(shè)計(jì)了一系列不同的實(shí)驗(yàn)躏将,來測(cè)試在MT的encoder上使用Bert的最佳策略蒋情,使用BERT初始化encoder實(shí)現(xiàn)了一些改進(jìn)。此外耸携,他們發(fā)現(xiàn)這些模型可以在out-of-domain數(shù)據(jù)集上獲得更好的性能棵癣。Imamura提出了一種兩階段BERT微調(diào)NMT的方法。在第一階段,encoder由預(yù)訓(xùn)練的BERT模型初始化夺衍,只訓(xùn)練decoder狈谊。在第二個(gè)階段,對(duì)的整個(gè)NMT模型進(jìn)行fine-tuned沟沙。通過實(shí)驗(yàn),他們認(rèn)為這種方法優(yōu)于one stage fine-tuning河劝。除此之外,Zhu等人建議使用預(yù)訓(xùn)練好的BERT作為extra memory來促進(jìn)NMT模型。具體來說赋焕,它們首先用一個(gè)預(yù)訓(xùn)練好的BERT對(duì)input tokens進(jìn)行編碼雷则,然后將最后一層的輸出作為extra memory。然后务甥,NMT模型可以通過encoder和decoder每層中的一個(gè)extra attention module來訪問memory。它們發(fā)現(xiàn)這種策略在監(jiān)督喳篇、半監(jiān)督和非監(jiān)督的MT方面都有顯著的改善敞临。

MASS (Masked?Sequence-to-Sequence pre-training)利用Seq2Seq MLM對(duì)encoder和decoder進(jìn)行聯(lián)合預(yù)訓(xùn)練,而不是僅僅對(duì)encoder進(jìn)行預(yù)訓(xùn)練麸澜。在實(shí)驗(yàn)中,這種方法在無監(jiān)督的MT和English-Romanian有監(jiān)督MT上挺尿,可以超越Conneau提出的BERT-style預(yù)訓(xùn)練。與MASS不同的是,mBART(bert的多語言擴(kuò)展)在大規(guī)模的跨25種語言的單語語料庫上编矾,通過Seq2Seq去噪編碼任務(wù)(Seq2Seq denoising auto-encoder )熟史,聯(lián)合預(yù)訓(xùn)練了encoder和decoder。實(shí)驗(yàn)表明窄俏,mBART可以在sentence level 和document level上以故,顯著提高有監(jiān)督和無監(jiān)督機(jī)器翻譯的表現(xiàn)。

7.6 摘要Summarization

摘要是近年來自然語言處理界關(guān)注的一個(gè)問題裆操,其目的是產(chǎn)生一個(gè)更短的文本怒详,以最大限度的保留長文本的意思。自從PTM的廣泛使用以來踪区,這項(xiàng)任務(wù)得到了顯著的改進(jìn)昆烁。Zhong等引入可轉(zhuǎn)移知識(shí)(如BERT)進(jìn)行文本摘要,并超越了以往的模型缎岗。Zhang等人試圖預(yù)訓(xùn)練一個(gè)document-level模型静尼,該模型預(yù)測(cè)句子而不是單詞,然后將其應(yīng)用于后續(xù)任務(wù)传泊,如摘要鼠渺。更詳細(xì)地說,Zhang設(shè)計(jì)了一個(gè)用于預(yù)訓(xùn)練的間隙句生成任務(wù)(Gap Sentence Generation, GSG)眷细,其目標(biāo)包括從輸入生成類似摘要的文本拦盹。此外,Liu和Lapata提出了BERTSUM溪椎。BERTSUM包括一個(gè)新的document-level encoder普舆,以及一個(gè)可用于抽取式摘要(extractive summarization)和抽象式摘要(abstractive summarization)的通用框架。在編碼框架中校读,BERTSUM通過插入多個(gè)[CLS]標(biāo)記來擴(kuò)展BERT沼侣,以學(xué)習(xí)句子表示。對(duì)于抽取式摘要歉秫,BERTSUM?stack了幾個(gè)inter-sentence Transformer層蛾洛。對(duì)于抽象式摘要,BERTSUM提出了two-staged fine-tuning雁芙。Zhong提出了一種新的summary-level框架MATCHSUM轧膘,并將抽取式摘要概念化為一個(gè)語義文本匹配問題。他們提出了一個(gè)Siamese-BERT架構(gòu)來計(jì)算源文檔和候選摘要之間的相似性却特,僅使用base?BERT扶供,就在CNN/DailyMail數(shù)據(jù)集上獲得了SOTA筛圆。

7.7 對(duì)抗檢測(cè)和防御 Adversarial Attacks and Defenses

深層神經(jīng)模型易受對(duì)抗樣本的攻擊裂明,這些樣本可能會(huì)誤導(dǎo)模型,使其在原始輸入中產(chǎn)生難以察覺的擾動(dòng),從而產(chǎn)生特定的錯(cuò)誤預(yù)測(cè)闽晦。在CV中扳碍,對(duì)抗攻擊和防御被廣泛研究。然而仙蛉,由于語言的離散性笋敞,文本仍然具有挑戰(zhàn)性。為文本生成對(duì)抗性樣本需要具備以下特征:(1)不易被human judge?察覺荠瘪,但對(duì)神經(jīng)模型有誤導(dǎo)作用;(2)語法流利夯巷,語義與原輸入一致。Jin等人用對(duì)抗樣本成功攻擊了基于BERT實(shí)現(xiàn)的文本分類和文本蘊(yùn)涵哀墓。Wallace等人定義了通用的adversarial?triggers?趁餐,當(dāng)連接到任何輸入時(shí),它可以誘導(dǎo)模型產(chǎn)生specific-purpose的預(yù)測(cè)篮绰。有些triggers甚至?xí)?dǎo)致GPT-2模型生成種族主義文本后雷。Sun等人表明,BERT對(duì)拼寫錯(cuò)誤并不魯棒吠各。

PTMs還可以生成對(duì)抗樣本臀突。Li等提出了BERT-Attack,在成功率和擾動(dòng)百分比上都超過了SOTA的攻擊策略贾漏,而生成的對(duì)抗性樣本則是流暢且語義保留的候学。

此外,PTMs的對(duì)抗防御也很有前途纵散,它提高了PTMs的魯棒性盒齿,使其對(duì)對(duì)抗攻擊免疫。

對(duì)抗訓(xùn)練的目的是通過最小化embedding空間中l(wèi)abel-preserving擾動(dòng)的最大風(fēng)險(xiǎn)來提高泛化能力(minimizes the maximal risk for label-preserving perturbations in embedding space)困食。最近的研究表明边翁,對(duì)抗預(yù)訓(xùn)練或fine-tuning可以提高NLP PTMs的泛化能力和魯棒性。

8 Future Directions

盡管PTMs已經(jīng)證明了它在各種NLP任務(wù)中的強(qiáng)大功能硕盹,但是由于語言的復(fù)雜性符匾,它仍然存在挑戰(zhàn)。在本節(jié)中瘩例,我們提出了未來PTMs的五個(gè)方向啊胶。

(1) Upper Bound of PTMs

目前,PTMs還沒有達(dá)到其上限垛贤。目前大多數(shù)的PTMs可以通過更多的訓(xùn)練步驟和更大的語料庫來進(jìn)一步改進(jìn)焰坪。增加模型模型深度可以在NLP上達(dá)到SOTA的效果,如Megatron-LM(8.3 billion parameters, 72 Transformer layers with a hidden size of 3072 and 32 attention heads)和Turing-NLG9)(17 billion parameters, 78 Transformer layers with a hidden size of 4256 and 28 attention heads )聘惦。

通用型PTMs一直是我們學(xué)習(xí)語言固有的普遍知識(shí)(甚至是世界知識(shí))的追求某饰。然而,這類PTMs通常需要更深入的體系結(jié)構(gòu)、更大的語料庫以及具有挑戰(zhàn)性的預(yù)訓(xùn)練任務(wù)黔漂,這進(jìn)一步導(dǎo)致了更高的訓(xùn)練成本诫尽。然而,訓(xùn)練大模型也是一個(gè)具有挑戰(zhàn)性的問題炬守,需要更復(fù)雜牧嫉、更高效的訓(xùn)練技術(shù),如分布式訓(xùn)練减途、混合精度酣藻、梯度累積等。因此鳍置,更實(shí)際的方向是使用現(xiàn)有的硬件和軟件設(shè)計(jì)更有效的模型架構(gòu)臊恋、自監(jiān)督的預(yù)訓(xùn)練任務(wù)、優(yōu)化器和訓(xùn)練技能墓捻。ELECTRA是這個(gè)方向的一個(gè)很好的解決方案抖仅。

(2) Architecture of PTMs

Transformer已被證明是一種有效的用于預(yù)訓(xùn)練的體系結(jié)構(gòu)。然而砖第,Transformer的主要限制是其計(jì)算復(fù)雜度撤卢,是輸入長度的2倍。由于受到gpu內(nèi)存的限制梧兼,大多數(shù)當(dāng)前的PTM不能處理長度超過512個(gè)token的序列放吩。打破這一限制需要改進(jìn)Transformer的架構(gòu),比如Transformer-XL羽杰。因此渡紫,為PTMs搜索更有效的模型體系結(jié)構(gòu)對(duì)于捕獲更長期的上下文信息非常重要。

深度架構(gòu)的設(shè)計(jì)具有挑戰(zhàn)性考赛,我們可以從一些自動(dòng)化方法中尋求幫助惕澎,如神經(jīng)架構(gòu)搜索(neural?architecture search,NAS)颜骤。

(3) Task-oriented Pre-training and Model Compression?面向任務(wù)的預(yù)訓(xùn)練和模型壓縮

在實(shí)踐中唧喉,不同的下游任務(wù)需要不同的PTMs能力。PTMs和下游任務(wù)之間的差異通常存在于兩個(gè)方面:模型體系結(jié)構(gòu)和數(shù)據(jù)分布忍抽。更大的差異可能導(dǎo)致PTMs的好處可能是微不足道的八孝。例如,文本生成通常需要一個(gè)特定的任務(wù)來預(yù)訓(xùn)練編碼器和解碼器鸠项,而文本匹配則需要為句子對(duì)設(shè)計(jì)預(yù)訓(xùn)練任務(wù)干跛。

此外,盡管較大的PTM通乘畎恚可以帶來更好的性能楼入,但一個(gè)實(shí)際問題是如何在特殊場(chǎng)景(如low-capacity devices和low-latency應(yīng)用)中利用這些大PTM哥捕。因此,我們可以為下游任務(wù)精心設(shè)計(jì)具體的模型架構(gòu)和預(yù)訓(xùn)練任務(wù)浅辙,或者從現(xiàn)有的任務(wù)中提取部分特定于任務(wù)的知識(shí)扭弧。

與從零開始訓(xùn)練面向任務(wù)的PTM不同阎姥,我們可以通過使用模型壓縮等技術(shù)记舆,用現(xiàn)有的通用PTM來教授它們。雖然在CV中對(duì)CNNs的模型壓縮進(jìn)行了廣泛的研究呼巴,但對(duì)NLP的PTMs的壓縮才剛剛開始泽腮。Transformer 的全連接結(jié)構(gòu)也使模型壓縮更具挑戰(zhàn)性。

(4) Knowledge Transfer Beyond Fine-tuning ??Fine-tuning之外的知識(shí)轉(zhuǎn)移

目前衣赶,將PTMs的知識(shí)轉(zhuǎn)移到下游任務(wù)的主要方法是fine-tuning诊赊,但其缺點(diǎn)是參數(shù)效率低下:每個(gè)下游任務(wù)都有自己的fine-tuning參數(shù)。一種改進(jìn)的解決方案是固定PTMs的原始參數(shù)府瞄,并通過為特定任務(wù)添加小型可調(diào)自適應(yīng)模塊碧磅。因此,我們可以使用一個(gè)共享的PTM來服務(wù)多個(gè)下游任務(wù)遵馆。事實(shí)上鲸郊,從PTMs中挖掘知識(shí)可以更加靈活,如特征提取货邓、知識(shí)提取秆撮、數(shù)據(jù)擴(kuò)充等,利用PTMs作為外部知識(shí)换况。

(5) Interpretability and Reliability of PTMs ?PTMs的可解釋性和可靠性

雖然PTMs的性能令人印象深刻职辨,但其深度非線性的體系結(jié)構(gòu)使得決策過程高度不透明。

近年來戈二,可解釋人工智能(explainable artificial intelligence舒裤,XAI)已成為人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。與圖像的CNNs不同觉吭,由于類似Transformer的體系結(jié)構(gòu)和語言的復(fù)雜性惭每,對(duì)PTMs的解釋更加困難。已經(jīng)進(jìn)行了大量的工作來分析PTMs中包含的語言和世界知識(shí)亏栈,這有助于我們以某種程度的透明性理解這些PMTs台腥。然而,大量的模型分析工作依賴于注意機(jī)制绒北,但是注意力機(jī)制有效性的可解釋性有效性仍存在爭(zhēng)議黎侈。

此外,PTMs也容易受到對(duì)抗攻擊闷游。隨著PTMs在生產(chǎn)系統(tǒng)中的廣泛應(yīng)用峻汉,PTMs的可靠性也成為一個(gè)備受關(guān)注的問題贴汪。對(duì)PTM的對(duì)抗攻擊的研究通過完全暴露它們的弱點(diǎn)來幫助我們了解它們的能力。PTMs的對(duì)抗防御也很有前途休吠,它可以提高PTMs的健壯性并使其對(duì)對(duì)抗攻擊免疫扳埂。

總的來說,作為許多NLP應(yīng)用中的關(guān)鍵組件瘤礁,PTMs的可解釋性和可靠性在許多方面還有待進(jìn)一步探索阳懂,這有助于我們理解PTMs是如何工作的,并為更好地使用和進(jìn)一步改進(jìn)提供指導(dǎo)柜思。

9 Conclusion

在本次調(diào)查中岩调,我們對(duì)NLP的PTMs進(jìn)行了全面的概述,包括背景知識(shí)赡盘、模型架構(gòu)号枕、培訓(xùn)前任務(wù)、各種擴(kuò)展陨享、適應(yīng)方法葱淳、相關(guān)資源和應(yīng)用程序∨坠茫基于現(xiàn)有的PTMs赞厕,我們從四個(gè)不同的角度提出了一種新的PTMs分類。并對(duì)今后的研究方向提出了一些建議途戒。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末坑傅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子喷斋,更是在濱河造成了極大的恐慌唁毒,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件星爪,死亡現(xiàn)場(chǎng)離奇詭異浆西,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)顽腾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門近零,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抄肖,你說我怎么就攤上這事久信。” “怎么了漓摩?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵裙士,是天一觀的道長。 經(jīng)常有香客問我管毙,道長腿椎,這世上最難降的妖魔是什么桌硫? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮啃炸,結(jié)果婚禮上铆隘,老公的妹妹穿的比我還像新娘。我一直安慰自己南用,他們只是感情好膀钠,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著训枢,像睡著了一般托修。 火紅的嫁衣襯著肌膚如雪忘巧。 梳的紋絲不亂的頭發(fā)上恒界,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音砚嘴,去河邊找鬼十酣。 笑死,一個(gè)胖子當(dāng)著我的面吹牛际长,可吹牛的內(nèi)容都是我干的耸采。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼工育,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼虾宇!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起如绸,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤嘱朽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后怔接,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體搪泳,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年扼脐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岸军。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瓦侮,死狀恐怖艰赞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肚吏,我是刑警寧澤方妖,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站须喂,受9級(jí)特大地震影響吁断,放射性物質(zhì)發(fā)生泄漏趁蕊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一仔役、第九天 我趴在偏房一處隱蔽的房頂上張望掷伙。 院中可真熱鬧,春花似錦又兵、人聲如沸任柜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宙地。三九已至,卻和暖如春逆皮,著一層夾襖步出監(jiān)牢的瞬間宅粥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工电谣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秽梅,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓剿牺,卻偏偏與公主長得像企垦,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子晒来,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345