LERT-融入語(yǔ)言學(xué)特征的BER

論文鏈接:https://arxiv.org/pdf/2211.05344.pdf

模型鏈接:https://github.com/ymcui/LERT

TL;DR

本文在訓(xùn)練PLM模型時(shí)灸蟆,融入了POS寓免、NER、DEP等基礎(chǔ)語(yǔ)言學(xué)弱監(jiān)督特征數(shù)據(jù)囱井,與MLM任務(wù)共同完成多任務(wù)學(xué)習(xí)校辩,在中文NLU數(shù)據(jù)集中取得了不錯(cuò)的效果。

Abstract

大多數(shù)預(yù)訓(xùn)練模型都是在文本的表面形式上進(jìn)行語(yǔ)言不可知的預(yù)訓(xùn)練任務(wù),如掩碼語(yǔ)言模型(MLM)读规。為了進(jìn)一步賦予預(yù)訓(xùn)練模型更豐富的語(yǔ)言特征,在本文中燃少,作者提出一種簡(jiǎn)單有效的方法來(lái)為預(yù)訓(xùn)練模型學(xué)習(xí)語(yǔ)言特征--LERT掖桦。它使用語(yǔ)言學(xué)信息預(yù)訓(xùn)練(LIP)策略,根據(jù)三種類型的語(yǔ)言特征以及原始MLM預(yù)訓(xùn)練任務(wù)完成訓(xùn)練供汛。在10種中文NLU任務(wù)上進(jìn)行實(shí)驗(yàn)枪汪,帶來(lái)了不錯(cuò)的提升。此外怔昨,本文還進(jìn)行了各種語(yǔ)言學(xué)方面的分析實(shí)驗(yàn)雀久,結(jié)果證明了LERT的設(shè)計(jì)是有效的。

1.Introduction

MLM任務(wù)由于是隨機(jī)選擇的Mask字符趁舀,并沒(méi)有顯示使用語(yǔ)言學(xué)特征赖捌,因此它是一個(gè)非語(yǔ)言學(xué)的預(yù)訓(xùn)練任務(wù)。之前在預(yù)訓(xùn)練模型中融入語(yǔ)言學(xué)知識(shí)的工作大多數(shù)只專注于在PLM中包含幾個(gè)語(yǔ)言特征矮烹,而沒(méi)有仔細(xì)分析單個(gè)特征對(duì)整體性能的貢獻(xiàn)以及不同任務(wù)之間的關(guān)系越庇。此外,因?yàn)榻Y(jié)構(gòu)知識(shí)不能直接應(yīng)用到PLM中奉狈,代碼實(shí)現(xiàn)都相對(duì)復(fù)雜卤唉。

為了緩解上述問(wèn)題,在本文中仁期,作者利用傳統(tǒng)的NLP任務(wù)顯式地包含更多的語(yǔ)言知識(shí)桑驱,為模型預(yù)訓(xùn)練創(chuàng)建弱監(jiān)督數(shù)據(jù)。同時(shí)提出了LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer)跛蛋,LERT使用了多任務(wù)訓(xùn)練的模式熬的,包含詞性標(biāo)注(POS),命名實(shí)體識(shí)別(NER)赊级,依存句法分析(DEP)等任務(wù)押框。為了平衡每個(gè)預(yù)訓(xùn)練任務(wù)的學(xué)習(xí)速度,作者提出了一種LIP(linguistically-informed
pre-training)策略理逊,該策略能夠更快地學(xué)習(xí)基礎(chǔ)語(yǔ)言知識(shí)橡伞。

2.Related Work

  • LIMIT-BERT: 使用了5個(gè)語(yǔ)言學(xué)任務(wù):詞性標(biāo)注,成分與依賴解析挡鞍,片段骑歹,依存語(yǔ)義角色標(biāo)注。
  • LEBERT:將額外知識(shí)注入到BERT各層中墨微,用于解決中文序列標(biāo)注任務(wù)。
  • CK-BERT:使用語(yǔ)言感知的MLM任務(wù)與對(duì)比多跳關(guān)系模型用來(lái)做預(yù)訓(xùn)練扁掸。

3 LERT

3.1 Overview

image

首先翘县,對(duì)于給定的輸入最域,進(jìn)行分詞提取語(yǔ)言特征。分詞特征用于WWM與N-gram預(yù)訓(xùn)練任務(wù)锈麸,語(yǔ)言特征用于語(yǔ)言預(yù)訓(xùn)練任務(wù)镀脂,MLM任務(wù)與語(yǔ)言任務(wù) 共同進(jìn)行訓(xùn)練。

3.2 Linguistic Features

本文使用LTP完成POS忘伞、NER薄翅、DEP三種語(yǔ)言基礎(chǔ)特征的抽取。

  • POS有28種詞性類型氓奈。
  • NER利用BIEOS標(biāo)注模式翘魄,有13中類型。
  • DEP對(duì)輸入句子使用依存句法分析舀奶,對(duì)從屬關(guān)系的字符進(jìn)行打標(biāo)暑竟,共有14種類型。

3.3 Model Pre-training

LERT在MLM與3種語(yǔ)言學(xué)特征上共同完成多任務(wù)預(yù)訓(xùn)練育勺。

3.3.1 MLM Task

與其他預(yù)訓(xùn)練模型使用的MLM任務(wù)一樣但荤,也是預(yù)測(cè)被Mask掉位置的字符

3.3.2 Linguistic Tasks

本文將語(yǔ)言學(xué)任務(wù)視為分類任務(wù),每個(gè)字符被映射到它的POS涧至、NER腹躁、DEP三種標(biāo)簽,模型最終同樣使用全連接層去映射該字符的最終標(biāo)簽南蓬。

3.3.3 Linguistically-informed Pre-training

最終的Loss也是和大多數(shù)多任務(wù)學(xué)習(xí)一樣:


image

直觀上來(lái)看潜慎,MLM任務(wù)肯定是最重要的任務(wù),如何來(lái)確定每個(gè)語(yǔ)言學(xué)任務(wù)Loss的權(quán)重呢蓖康?

本文提出了LIP策略铐炫,仔細(xì)分析,NER特征依賴于POS蒜焊,DEP特征依賴于POS與NER倒信,因此POS特征為最基礎(chǔ)的語(yǔ)言學(xué)特征,NER泳梆、DEP次之鳖悠。根據(jù)它們的依賴性,本文為每個(gè)語(yǔ)言特征分配不同的學(xué)習(xí)速度优妙,從而NER和DEP更快地學(xué)習(xí)POS乘综。這與人類的學(xué)習(xí)類似,我們通常先學(xué)習(xí)基本知識(shí)套硼,然后學(xué)習(xí)依賴的高級(jí)知識(shí)卡辰。

不同任務(wù)的權(quán)重由當(dāng)前的訓(xùn)練步數(shù)來(lái)進(jìn)行決定,具體,如下公式:


image

本文中九妈,POS反砌、NER、DEP任務(wù)的T*分別為1/6萌朱、1/3宴树、1/2。在訓(xùn)練步數(shù)達(dá)到總步數(shù)一半時(shí)晶疼,各個(gè)任務(wù)的權(quán)重就相等了酒贬。因此,POS翠霍、NER锭吨、DEP任務(wù)的學(xué)習(xí)速率依次變快。


image
image

4. Experiments

具體訓(xùn)練模型的參數(shù)可以直接看原文壶运。作者提供了3種不同大小的模型耐齐,LERT small、LERT base蒋情、LERT large埠况。

在MRC(機(jī)器閱讀理解),TC(文本分類),NER(命名實(shí)體識(shí)別)任務(wù)上進(jìn)行實(shí)驗(yàn),下圖分別為不同任務(wù)的實(shí)驗(yàn)結(jié)果棵癣≡玻可以看出NER任務(wù)提升效果明顯。

image
image

5. Analysis

具體的消融與分析可以直接參考原文狈谊。

6.Conclusion

本文提出的LERT使用了POS喜命,NER,DEP等偏向?qū)W習(xí)語(yǔ)言特征的任務(wù)與MLM任務(wù)進(jìn)行多任務(wù)聯(lián)合訓(xùn)練河劝。為了更好讓模型獲得語(yǔ)言知識(shí)壁榕,本文還提出了一個(gè)有效的基于語(yǔ)言知識(shí)的預(yù)訓(xùn)練策略。在多項(xiàng)中文NLU實(shí)驗(yàn)中赎瞎,LERT均有了不錯(cuò)的提升牌里。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市务甥,隨后出現(xiàn)的幾起案子牡辽,更是在濱河造成了極大的恐慌,老刑警劉巖敞临,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件态辛,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡挺尿,警方通過(guò)查閱死者的電腦和手機(jī)奏黑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門炊邦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人攀涵,你說(shuō)我怎么就攤上這事铣耘∏⒐担” “怎么了以故?”我有些...
    開(kāi)封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)裆操。 經(jīng)常有香客問(wèn)我怒详,道長(zhǎng),這世上最難降的妖魔是什么踪区? 我笑而不...
    開(kāi)封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任昆烁,我火速辦了婚禮,結(jié)果婚禮上缎岗,老公的妹妹穿的比我還像新娘静尼。我一直安慰自己,他們只是感情好传泊,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布鼠渺。 她就那樣靜靜地躺著,像睡著了一般眷细。 火紅的嫁衣襯著肌膚如雪拦盹。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天溪椎,我揣著相機(jī)與錄音普舆,去河邊找鬼。 笑死校读,一個(gè)胖子當(dāng)著我的面吹牛沼侣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播歉秫,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蛾洛,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了端考?” 一聲冷哼從身側(cè)響起雅潭,我...
    開(kāi)封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎却特,沒(méi)想到半個(gè)月后扶供,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡裂明,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年椿浓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡扳碍,死狀恐怖提岔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情笋敞,我是刑警寧澤碱蒙,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站夯巷,受9級(jí)特大地震影響赛惩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜趁餐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一喷兼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧后雷,春花似錦季惯、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至惧辈,卻和暖如春琳状,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背盒齿。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工念逞, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人边翁。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓翎承,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親符匾。 傳聞我的和親對(duì)象是個(gè)殘疾皇子叨咖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容