論文標(biāo)題:PERT PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL
論文鏈接:https://arxiv.org/abs/2203.06906
模型鏈接:https://github.com/ymcui/PERT
Abstract
本文提出了PERT,它主要用于NLU任務(wù)孵构,且是一個基于全排列的自編碼語言模型既绕。主要思路是對輸入文本的一部分進(jìn)行全排列赦政,訓(xùn)練目標(biāo)是預(yù)測出原始字符的位置璧瞬,同時也使用了WWM(全詞掩碼)與N-gram掩碼去提升PERT的性能。在中英文數(shù)據(jù)集上進(jìn)行了實驗沟沙,發(fā)現(xiàn)部分任務(wù)有明顯的提升嗡呼。
1.Introduction
預(yù)訓(xùn)練模型通常有兩種訓(xùn)練模式:以BERT為代表的自編碼方式和以GPT為代表的自回歸方式》磁ǎ基于MLM任務(wù)萌丈,有不少的改進(jìn)方式,比如WWM雷则,N-gram等辆雾,因此也誕生了ERNIE、RoBERTa月劈、ALBERT度迂、ELECTRA藤乙、MacBERT等模型。
本文探索了非MLM相關(guān)的預(yù)訓(xùn)練任務(wù)英岭,動機(jī)很有趣湾盒,很多諺語篡改幾個漢字不會影響你的閱讀。如圖1所示诅妹,打亂幾個字的順序罚勾,并不會改變?nèi)藗儗渥拥睦斫狻吭狡;诖讼敕庋辏疚奶岢隽艘粋€新的預(yù)訓(xùn)練任務(wù),permuted language model (PerLM)划煮,PerLM試圖從無序的句子中恢復(fù)字符的順序送丰,其目的是預(yù)測原始字符的位置。
2.Related Work
相關(guān)工作直接貼個原文表格吧弛秋,各種預(yù)訓(xùn)練模型的特點表格已基本說明器躏。
3.PERT
3.1 Overview
PERT的輸入為亂序的句子,訓(xùn)練目標(biāo)是預(yù)測原始字符的位置蟹略。
- PERT采用了和BERT一樣的切詞WordPiece登失、詞表等。
- PERT沒有[MASK]字符挖炬。
- 預(yù)測的空間是基于輸入的句子的揽浙,而不是整個詞表空間。
- 由于PERT的主體與BERT相同意敛,通過適當(dāng)?shù)奈⒄{(diào)馅巷,BERT可以直接被PERT取代。
3.2 PERMUTED LANGUAGE MODEL
本文沒有使用NSP任務(wù)草姻,僅用了PerLM任務(wù)钓猬。
- 本文使用了WWM與N-gram Mask進(jìn)行候選詞Mask的選擇,分別有40%撩独、30%敞曹、20%、10%的概率完成單字Mask到4-gram的Mask
- 在前面的工作之后跌榔,本文使用了15%的輸入詞來進(jìn)行Mask。
其中捶障,- 本文隨機(jī)選擇90%的字符并打亂它們的順序僧须。
- 對于其余10%的字符,保持不變项炼,將其視為負(fù)樣本担平。
PerLM與MLM相比的特性如下:
- PerLM沒有使用[MASK]字符示绊,緩解了預(yù)訓(xùn)練-微調(diào)之間的偏差問題。
- 相比MLM任務(wù)暂论,PerLM預(yù)測空間是句子面褐,而不是整個詞表,比MLM任務(wù)效率更高取胎。
3.3 PRE-TRAINING STAGE
給定句子A和句子B展哭,完成隨機(jī)字符打亂之后,拼接在一起輸入到PERT中闻蛀。
經(jīng)過Embedding層與L層的Transformer結(jié)構(gòu)
PERT只需要去預(yù)測所選定的位置匪傍,最后經(jīng)過一個FFN與LayerNorm,使用softmax輸出標(biāo)準(zhǔn)化之后的概率分布,損失函數(shù)為交叉熵觉痛。
3.4 FINE-TUNING STAGE
微調(diào)階段PERT與BERT相似役衡,可以進(jìn)行直接替換,當(dāng)然薪棒,微調(diào)階段是不需要打亂句子的順序的手蝎,直接輸入原始句子就可以。
4 EXPERIMENTS ON CHINESE TASKS
具體訓(xùn)練參數(shù)俐芯,可以參考原論文棵介。
本文PERT在閱讀理解MRC,文本分類TC泼各,命名實體識別NER等任務(wù)中進(jìn)行了實驗鞍时。
在MRC與NER任務(wù)上,PERT表現(xiàn)還是不錯的扣蜻,即使在英文數(shù)據(jù)集上也是如此逆巍。
7.Conclusion
與MLM訓(xùn)練任務(wù)不同,本文提出的PERT訓(xùn)練目標(biāo)是預(yù)測被打亂字符的原始位置莽使。該模型在MRC于NER相關(guān)任務(wù)上有了不錯的提升锐极,但是文本分類沒有明顯提升。
最后值得一提的是芳肌,PERT在文本糾錯與亂序任務(wù)上表現(xiàn)不錯灵再,當(dāng)然這也和它預(yù)訓(xùn)練-微調(diào)任務(wù)一致性有很大的關(guān)系。前段時間科大訊飛比賽的一個題目亿笤,僅用PERT就比BERT翎迁、RoBERTa等模型性能要高不少。