論文鏈接:https://arxiv.org/pdf/2211.05344.pdf
模型鏈接:https://github.com/ymcui/LERT
TL;DR
本文在訓(xùn)練PLM模型時(shí)灸蟆,融入了POS寓免、NER、DEP等基礎(chǔ)語(yǔ)言學(xué)弱監(jiān)督特征數(shù)據(jù)囱井,與MLM任務(wù)共同完成多任務(wù)學(xué)習(xí)校辩,在中文NLU數(shù)據(jù)集中取得了不錯(cuò)的效果。
Abstract
大多數(shù)預(yù)訓(xùn)練模型都是在文本的表面形式上進(jìn)行語(yǔ)言不可知的預(yù)訓(xùn)練任務(wù),如掩碼語(yǔ)言模型(MLM)读规。為了進(jìn)一步賦予預(yù)訓(xùn)練模型更豐富的語(yǔ)言特征,在本文中燃少,作者提出一種簡(jiǎn)單有效的方法來(lái)為預(yù)訓(xùn)練模型學(xué)習(xí)語(yǔ)言特征--LERT掖桦。它使用語(yǔ)言學(xué)信息預(yù)訓(xùn)練(LIP)策略,根據(jù)三種類型的語(yǔ)言特征以及原始MLM預(yù)訓(xùn)練任務(wù)完成訓(xùn)練供汛。在10種中文NLU任務(wù)上進(jìn)行實(shí)驗(yàn)枪汪,帶來(lái)了不錯(cuò)的提升。此外怔昨,本文還進(jìn)行了各種語(yǔ)言學(xué)方面的分析實(shí)驗(yàn)雀久,結(jié)果證明了LERT的設(shè)計(jì)是有效的。
1.Introduction
MLM任務(wù)由于是隨機(jī)選擇的Mask字符趁舀,并沒(méi)有顯示使用語(yǔ)言學(xué)特征赖捌,因此它是一個(gè)非語(yǔ)言學(xué)的預(yù)訓(xùn)練任務(wù)。之前在預(yù)訓(xùn)練模型中融入語(yǔ)言學(xué)知識(shí)的工作大多數(shù)只專注于在PLM中包含幾個(gè)語(yǔ)言特征矮烹,而沒(méi)有仔細(xì)分析單個(gè)特征對(duì)整體性能的貢獻(xiàn)以及不同任務(wù)之間的關(guān)系越庇。此外,因?yàn)榻Y(jié)構(gòu)知識(shí)不能直接應(yīng)用到PLM中奉狈,代碼實(shí)現(xiàn)都相對(duì)復(fù)雜卤唉。
為了緩解上述問(wèn)題,在本文中仁期,作者利用傳統(tǒng)的NLP任務(wù)顯式地包含更多的語(yǔ)言知識(shí)桑驱,為模型預(yù)訓(xùn)練創(chuàng)建弱監(jiān)督數(shù)據(jù)。同時(shí)提出了LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer)跛蛋,LERT使用了多任務(wù)訓(xùn)練的模式熬的,包含詞性標(biāo)注(POS),命名實(shí)體識(shí)別(NER)赊级,依存句法分析(DEP)等任務(wù)押框。為了平衡每個(gè)預(yù)訓(xùn)練任務(wù)的學(xué)習(xí)速度,作者提出了一種LIP(linguistically-informed
pre-training)策略理逊,該策略能夠更快地學(xué)習(xí)基礎(chǔ)語(yǔ)言知識(shí)橡伞。
2.Related Work
- LIMIT-BERT: 使用了5個(gè)語(yǔ)言學(xué)任務(wù):詞性標(biāo)注,成分與依賴解析挡鞍,片段骑歹,依存語(yǔ)義角色標(biāo)注。
- LEBERT:將額外知識(shí)注入到BERT各層中墨微,用于解決中文序列標(biāo)注任務(wù)。
- CK-BERT:使用語(yǔ)言感知的MLM任務(wù)與對(duì)比多跳關(guān)系模型用來(lái)做預(yù)訓(xùn)練扁掸。
3 LERT
3.1 Overview
首先翘县,對(duì)于給定的輸入最域,進(jìn)行分詞提取語(yǔ)言特征。分詞特征用于WWM與N-gram預(yù)訓(xùn)練任務(wù)锈麸,語(yǔ)言特征用于語(yǔ)言預(yù)訓(xùn)練任務(wù)镀脂,MLM任務(wù)與語(yǔ)言任務(wù) 共同進(jìn)行訓(xùn)練。
3.2 Linguistic Features
本文使用LTP完成POS忘伞、NER薄翅、DEP三種語(yǔ)言基礎(chǔ)特征的抽取。
- POS有28種詞性類型氓奈。
- NER利用BIEOS標(biāo)注模式翘魄,有13中類型。
- DEP對(duì)輸入句子使用依存句法分析舀奶,對(duì)從屬關(guān)系的字符進(jìn)行打標(biāo)暑竟,共有14種類型。
3.3 Model Pre-training
LERT在MLM與3種語(yǔ)言學(xué)特征上共同完成多任務(wù)預(yù)訓(xùn)練育勺。
3.3.1 MLM Task
與其他預(yù)訓(xùn)練模型使用的MLM任務(wù)一樣但荤,也是預(yù)測(cè)被Mask掉位置的字符
3.3.2 Linguistic Tasks
本文將語(yǔ)言學(xué)任務(wù)視為分類任務(wù),每個(gè)字符被映射到它的POS涧至、NER腹躁、DEP三種標(biāo)簽,模型最終同樣使用全連接層去映射該字符的最終標(biāo)簽南蓬。
3.3.3 Linguistically-informed Pre-training
最終的Loss也是和大多數(shù)多任務(wù)學(xué)習(xí)一樣:
直觀上來(lái)看潜慎,MLM任務(wù)肯定是最重要的任務(wù),如何來(lái)確定每個(gè)語(yǔ)言學(xué)任務(wù)Loss的權(quán)重呢蓖康?
本文提出了LIP策略铐炫,仔細(xì)分析,NER特征依賴于POS蒜焊,DEP特征依賴于POS與NER倒信,因此POS特征為最基礎(chǔ)的語(yǔ)言學(xué)特征,NER泳梆、DEP次之鳖悠。根據(jù)它們的依賴性,本文為每個(gè)語(yǔ)言特征分配不同的學(xué)習(xí)速度优妙,從而NER和DEP更快地學(xué)習(xí)POS乘综。這與人類的學(xué)習(xí)類似,我們通常先學(xué)習(xí)基本知識(shí)套硼,然后學(xué)習(xí)依賴的高級(jí)知識(shí)卡辰。
不同任務(wù)的權(quán)重由當(dāng)前的訓(xùn)練步數(shù)來(lái)進(jìn)行決定,具體,如下公式:
本文中九妈,POS反砌、NER、DEP任務(wù)的T*分別為1/6萌朱、1/3宴树、1/2。在訓(xùn)練步數(shù)達(dá)到總步數(shù)一半時(shí)晶疼,各個(gè)任務(wù)的權(quán)重就相等了酒贬。因此,POS翠霍、NER锭吨、DEP任務(wù)的學(xué)習(xí)速率依次變快。
4. Experiments
具體訓(xùn)練模型的參數(shù)可以直接看原文壶运。作者提供了3種不同大小的模型耐齐,LERT small、LERT base蒋情、LERT large埠况。
在MRC(機(jī)器閱讀理解),TC(文本分類),NER(命名實(shí)體識(shí)別)任務(wù)上進(jìn)行實(shí)驗(yàn),下圖分別為不同任務(wù)的實(shí)驗(yàn)結(jié)果棵癣≡玻可以看出NER任務(wù)提升效果明顯。
5. Analysis
具體的消融與分析可以直接參考原文狈谊。
6.Conclusion
本文提出的LERT使用了POS喜命,NER,DEP等偏向?qū)W習(xí)語(yǔ)言特征的任務(wù)與MLM任務(wù)進(jìn)行多任務(wù)聯(lián)合訓(xùn)練河劝。為了更好讓模型獲得語(yǔ)言知識(shí)壁榕,本文還提出了一個(gè)有效的基于語(yǔ)言知識(shí)的預(yù)訓(xùn)練策略。在多項(xiàng)中文NLU實(shí)驗(yàn)中赎瞎,LERT均有了不錯(cuò)的提升牌里。