知識增強的預(yù)訓練模型簡介

?NLP論文解讀?原創(chuàng)?作者?| 楊健

專欄系列概覽

該專欄主要介紹自然語言處理領(lǐng)域目前比較前沿的領(lǐng)域—知識增強的預(yù)訓練語言模型漆改。通過解讀該主題具備代表性的論文以及對應(yīng)的代碼,為大家揭示當前最新的發(fā)展狀況去扣。為了能夠和大家更好的分享自己的收獲,筆者將遵循下面幾個原則唆铐。

?1奔滑、理論講解盡量深入淺出,通過舉例子或者大白話講解論文王浴,而非僅針對原文翻譯梅猿。

2、針對論文中一些重要的術(shù)語袱蚓,適時的做出解釋喇潘。

3、理論和實踐相結(jié)合颖低,除了理論講解,還會加入部分重要代碼講解源武。并且分享個人認為重要的一些工程技巧想幻。

知識增強的預(yù)訓練模型

工欲善其事必先利其器脏毯。今天的文章主要介紹?是什么、它的背景知識以及分類食店。后續(xù)的文章將進一步深入,詳細介紹每一類知識增強的預(yù)訓練模型价认。

從哪里來

自從神經(jīng)網(wǎng)絡(luò)成為主流以來,自然語言理解等任務(wù)大多基于神經(jīng)網(wǎng)絡(luò)為各個下游場景單獨設(shè)計模型渠退。然而這類模型僅能夠適用于單一下游任務(wù)脐彩,通用性不足。

相比自然語言理解領(lǐng)域梅誓,由于圖像處理領(lǐng)域擁有大量的有標簽數(shù)據(jù)佛南,研究人員利用遷移學習的思想,在數(shù)年前就已經(jīng)能訓練出具備一般性圖像特征的大規(guī)模預(yù)訓練模型愧怜。

然而妈拌,一方面自然語言處理領(lǐng)域缺少足夠的標注數(shù)據(jù),另一方面循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)也遭受梯度爆炸的困擾猜惋,使得該領(lǐng)域的大規(guī)模預(yù)訓練模型遲遲未能出現(xiàn)培愁。

Transformer的出現(xiàn)為解決這一問題帶來了希望,一方面模型通過自注意力結(jié)構(gòu)和殘差鏈接解決了循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)梯度爆炸的問題谍咆,從而使模型得以堆疊多層神經(jīng)網(wǎng)絡(luò)私股,另一方面通過引入自監(jiān)督的預(yù)訓練任務(wù),也解決了標注數(shù)據(jù)不足的問題倡鲸。

基于Transformer的BERT和GPT模型更是在當時橫掃了各大榜單,在各個下游任務(wù)的表現(xiàn)遠超為特定任務(wù)而設(shè)計的模型,其中BERT模型更是成為了自然語言理解發(fā)展過程中的里程碑逼争。

在這一背景下劝赔,國內(nèi)外提出了各種預(yù)訓練語言模型,比如國外的RoBERTa罩阵、XLNet启摄、T5幽钢、BART,國內(nèi)智源提出的CPM蕾羊、華為的盤古模型帽驯、阿里的M6以及百度的ERNIE等等。

筆者在下文也會介紹預(yù)訓練語言模型的分類以及各自的特點利凑。

到哪里去

深度學習技術(shù)憑借神經(jīng)網(wǎng)絡(luò)的分布式表示能力和層次結(jié)構(gòu)泛化能力嫌术,實現(xiàn)了對大規(guī)模數(shù)據(jù)的學習和利用。

基于深度學習的預(yù)訓練模型能夠從大規(guī)模無監(jiān)督數(shù)據(jù)中學習蘊含在文本中詞法割按、語法磷籍、語義等信息,在自然語言領(lǐng)域中的下游任務(wù)中取得了重大突破弛矛。

然而預(yù)訓練模型也面臨著以下的問題比然,一是預(yù)訓練模型基于統(tǒng)計的方法建模,根據(jù)共現(xiàn)信息學習文本中實體的隱式關(guān)聯(lián)扒寄,這造成了預(yù)訓練模型不具備深度理解和邏輯推理的能力。

其次该编,受到訓練數(shù)據(jù)長尾分布的影響课竣,預(yù)訓練模型魯棒性差,容易受到攻擊于樟,并被別有用心的人惡意使用迂曲。此外,預(yù)訓練模型缺乏常識知識路捧,阻礙了預(yù)訓練模型在實際應(yīng)用場景的大規(guī)模推廣杰扫。

知識能為預(yù)訓練模型提供更全面豐富的實體語義和實體關(guān)聯(lián)信息,通過提供常識和領(lǐng)域知識章姓,克服訓練數(shù)據(jù)長尾分布的限制,增強預(yù)訓練模型的魯棒性苍日。

不僅如此窗声,符號知識如知識圖譜,以三元組的形式表示拦耐,具有明確的語義见剩,為知識如何在使用場景中發(fā)揮作用引入了可解釋性苍苞。

在這個背景下狼纬,自然語言處理領(lǐng)域涌現(xiàn)出了許多知識與預(yù)訓練模型想結(jié)合的研究工作骂际,嘗試為預(yù)訓練模型注入知識,從而更好將預(yù)訓練模型應(yīng)用于知識驅(qū)動和語義理解任務(wù)盈简,這類模型也被稱之為知識增強的預(yù)訓練模型太示。

前行的途徑

什么才算是知識,如何定義知識呢臼勉?給定知識餐弱,又應(yīng)該如何注入到預(yù)訓練模型之中實現(xiàn)性能的提高呢?

維基百科將知識定義為對某個主題確信的認識,并且這些認識擁有潛在的能力為特定目的而使用速缆。Bloom等人[1]將知識分為四大類艺糜,分別是事實性知識、概念性知識破停、程序性知識和元認知知識真慢。

其中事實性知識指描述客觀事物的術(shù)語知識和具體細節(jié)及要素的知識,如事件黑界、地點朗鸠、人物、日期等烛占;

概念性知識指一個整體結(jié)構(gòu)基本要素間的關(guān)系,包括類別與分類的知識犹菇,原理與概括的知識项栏,理論、模式和結(jié)構(gòu)的知識沼沈;

程序性知識是指導行動的知識列另,一般與具體學科相關(guān)聯(lián),包括學科技能和算法知識页衙、學科技術(shù)與方法知識店乐、何時適當使用程序的知識;

元認知知識強調(diào)自我的主動性眨八,是對自我認知和認知任務(wù)的知識廉侧。

從表現(xiàn)形式上分,則可以分為顯性的符號知識和隱性的模型和向量知識闰蚕。比如知識圖譜连舍、語言知識這一類通過三元組和語法樹等方式表現(xiàn)的知識,就是顯性的符號知識诗鸭。

我們知道参滴,針對對文本進行預(yù)訓練獲得的模型如BERT、通過對三元組使用Trans系列的模型(TransE蝌箍、TransR等)生成的向量,都攜帶著語義信息杂拨,然而這類知識不如符號知識的直觀性強悯衬,我們將其歸類為隱性知識。這一系列主要介紹基于顯性知識增強的模型策橘。

考慮到符號知識主要以字符串的形式存在娜亿,而預(yù)訓練模型則基于神經(jīng)網(wǎng)絡(luò)。對符號知識的表示學習就成為了架接兩者的橋梁沛婴。

為此督赤,大多數(shù)知識增強的預(yù)訓練模型往往使用圖神經(jīng)網(wǎng)絡(luò)躲舌、知識圖譜的表示學習方法,如基于張量或者平移的模型孽糖、又或者Transformer對符號知識編碼办悟,將其轉(zhuǎn)換為表示向量(embedding)滩褥。

其次,知識的注入需要考慮預(yù)訓練的特性铺然,注入的方法大多從預(yù)訓練的語料酒甸、模型采用的預(yù)訓練任務(wù)、模型結(jié)構(gòu)沽瘦、擅長的場景等角度綜合考慮。

以清華提出的ERNIE和KnowBERT為例良哲,兩者都事先針對知識圖譜進行表示學習助隧。由于兩者都采用BERT作為基礎(chǔ)模型,就仍然使用Transformer的架構(gòu)作為編碼器編碼知識向量巍实,并且為了能夠和BERT在預(yù)訓練期間所使用的預(yù)訓練任務(wù)保持一致橘霎,這兩個模型都使用預(yù)測經(jīng)過掩碼的實體詞作為預(yù)訓練任務(wù)姐叁,以最大限度的利用模型已習得的能力。

再比如原环,BERT模型更擅長于語言理解任務(wù)处窥,而GPT系列更擅長于生成任務(wù),那么對于生成場景谒麦,為了讓模型生成具備常識的內(nèi)容哆致,就需要選擇使用自回歸方式進行預(yù)訓練,也就是GPT這類模型作為基礎(chǔ)模型注入知識耻蛇。

而對于實體分類胞此、關(guān)系分類這類側(cè)重于理解能力的任務(wù)而言漱牵,選擇BERT、RoBERTa則更加合適刁赦。具體的注入方式筆者將會在后續(xù)的文章中逐步介紹。

預(yù)訓練語言模型的分類

對于知識增強的預(yù)訓練模型而言趴荸,知識的注入和預(yù)訓練模型密切相關(guān)宦焦。因此,筆者先在這部分對各類預(yù)訓練模型做一個簡單的介紹酝豪。

預(yù)訓練模型的分類方式有多種精堕,推薦閱讀綜述論文[2-3]歹篓。筆者更傾向于從模型使用的架構(gòu)來分類,因為采用不同的架構(gòu)會影響模型能夠適用的場景背捌,這種分類方式更具有實踐意義洞斯。

從這一個角度,可以將其分為三類么抗,分別是采用Transformer的encoder架構(gòu)亚铁、采用decoder架構(gòu)刀闷、以及encoder-decoder架構(gòu)的預(yù)訓練模型仰迁。第一類的代表模型有BERT、RoBERTa施蜜,第二類代表模型則是GPT系列雌隅,最后一類的代表模型則有T5、BART等修械。

事實上肯污,encoder和decoder架構(gòu)之間的差異僅僅在于是否適用了掩碼矩陣,decoder架構(gòu)適用掩碼矩陣實現(xiàn)了下文的遮擋哄芜。

采用encoder架構(gòu)的預(yù)訓練模型由于在預(yù)訓練階段就看到了上下文信息柬唯,更擅長于理解型的任務(wù),然而對于無法看到下文信息的應(yīng)用場景而言失晴,由于和預(yù)訓練階段的訓練范式不一致拘央,效果就會大打折扣堪滨。采用decoder架構(gòu)僅僅利用上文預(yù)測,雖然能夠利用的信息更少遏乔,但適用的場景更多发笔。

而且,通過擴大參數(shù)量和訓練語料捻激,這類模型的理解能力也不弱于第一類模型前计。最近一篇基于Prompt的論文也證明了GPT模型具有很強的理解能力[4],筆者更傾向于這類模型丈屹。

最后一類模型則是采用挖取一小段文本(span)旺垒,打亂文字順序等方式來避免下文的泄露,如T5在encoder雖然能看到上下文骇钦,但是無法看到被挖取的部分文本竞漾,而這部分文本則需要decoder來預(yù)測。

這類模型能夠同時勝任語言理解和生成任務(wù)坦仍,但不足之處就是由于需要編碼器和解碼器,參數(shù)是前兩類模型的兩倍叨襟。

知識增強的預(yù)訓練模型分類

知識增強的預(yù)訓練模型可以從注入的知識以及粒度繁扎、以及注入的方法、應(yīng)用場景等角度分類糊闽。為了讓大家更具啟發(fā)梳玫,筆者在這里從知識的注入方法進行分類,將其分為基于知識向量融合的模型右犹、基于知識圖譜監(jiān)督的模型提澎、基于統(tǒng)一知識和文本結(jié)構(gòu)的模型以及基于聯(lián)合訓練的模型。

基于知識向量融合的模型對符號知識預(yù)先表示學習念链,然后針對文本中的指稱項(mention)對象的向量和實體向量加權(quán)求和盼忌、使用自注意機制等方式融合兩者掂墓。所謂指稱項可以理解為某一個實體非正式的別名谦纱。

基于圖譜監(jiān)督的模型則是通過從知識圖譜中獲取實體的語義、情感等作為模型的額外特征君编,又或者從中選擇同義跨嘉、反義詞等作為監(jiān)督語料,使預(yù)訓練模型學習顯式的實體關(guān)系吃嘿§裟耍基于統(tǒng)一結(jié)構(gòu)的模型則將符號知識和文本轉(zhuǎn)換為統(tǒng)一的結(jié)構(gòu),使用同一個編碼器兑燥,大多使用Transformer進行編碼亮瓷。

最后一類模型則通過為知識設(shè)計額外的預(yù)訓練任務(wù)實現(xiàn)知識的注入。

最后附上一張模型的分類圖贪嫂。

參考文獻:

[1]Taxonomy of educational objectives?

http://nancybroz.com/nancybroz/Literacy_I_files/Bloom%20Intro.doc

[2]Pre-trained models for natural language processing: A survey

https://www.researchgate.net/profile/Xipeng-Qiu/publication/340021796_Pre-trained_Models_for_Natural_Language_Processing_A_Survey/links/5e7b1a05299bf1f3873fd11a/Pre-trained-Models-for-Natural-Language-Processing-A-Survey.pdf

[3]Pre-Trained Models: Past, Present and Future

https://arxiv.org/pdf/2106.07139.pdf

[4]GPT Understands, Too

https://arxiv.org/pdf/2103.10385.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末寺庄,一起剝皮案震驚了整個濱河市艾蓝,隨后出現(xiàn)的幾起案子力崇,更是在濱河造成了極大的恐慌斗塘,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亮靴,死亡現(xiàn)場離奇詭異馍盟,居然都是意外死亡,警方通過查閱死者的電腦和手機茧吊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門贞岭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人搓侄,你說我怎么就攤上這事瞄桨。” “怎么了讶踪?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵芯侥,是天一觀的道長。 經(jīng)常有香客問我乳讥,道長柱查,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任云石,我火速辦了婚禮唉工,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘汹忠。我一直安慰自己淋硝,他們只是感情好,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布宽菜。 她就那樣靜靜地躺著奖地,像睡著了一般。 火紅的嫁衣襯著肌膚如雪赋焕。 梳的紋絲不亂的頭發(fā)上参歹,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天,我揣著相機與錄音隆判,去河邊找鬼犬庇。 笑死,一個胖子當著我的面吹牛侨嘀,可吹牛的內(nèi)容都是我干的臭挽。 我是一名探鬼主播,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼咬腕,長吁一口氣:“原來是場噩夢啊……” “哼欢峰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤纽帖,失蹤者是張志新(化名)和其女友劉穎宠漩,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體懊直,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡扒吁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了室囊。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雕崩。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖融撞,靈堂內(nèi)的尸體忽然破棺而出盼铁,到底是詐尸還是另有隱情,我是刑警寧澤尝偎,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布捉貌,位于F島的核電站,受9級特大地震影響冬念,放射性物質(zhì)發(fā)生泄漏趁窃。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一急前、第九天 我趴在偏房一處隱蔽的房頂上張望醒陆。 院中可真熱鬧,春花似錦裆针、人聲如沸刨摩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽澡刹。三九已至,卻和暖如春耘婚,著一層夾襖步出監(jiān)牢的瞬間罢浇,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工沐祷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留嚷闭,地道東北人。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓赖临,卻偏偏與公主長得像胞锰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子兢榨,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容