早上突然看到一篇“機(jī)器之心”的文章推送:百度最新提出NLP預(yù)訓(xùn)練語(yǔ)言模型 ERNIE(知識(shí)增強(qiáng)語(yǔ)義表示模型可缚,Enhanced Representation from kNowledge IntEgration),并聲稱全面超越 BERT,雖然習(xí)慣了標(biāo)題黨,但鑒于正致力于將BERT升級(jí)到項(xiàng)目組現(xiàn)有NLP算法能力中,還是忍不住好奇捺典,特地讀了一下這篇文章,記錄如下:
注:該工作的論文還未公開(kāi)从祝,只針對(duì)該推送文章揣測(cè)一二襟己,不足之處望指教引谜;待論文公開(kāi)之后再詳細(xì)補(bǔ)充拜讀記錄。
1. why ERNIE
ERNIE 認(rèn)為擎浴,BERT 在NLP各個(gè)應(yīng)用領(lǐng)域取得了不凡的成績(jī)员咽,主要得益于其使用了大量文本語(yǔ)料進(jìn)行了無(wú)監(jiān)督預(yù)訓(xùn)練:(a) Masked LM,(b) Next Sent Prediction贮预;但 BERT 仍然存在以下缺點(diǎn):
(1) Masked LM 的建模過(guò)程中是以字為單位的贝室,這使得模型很難學(xué)習(xí)到語(yǔ)義知識(shí)單元的完整語(yǔ)義表示,而這一缺點(diǎn)對(duì)于中文的 BERT 預(yù)訓(xùn)練模型與應(yīng)用而說(shuō)尤為明顯仿吞,文章舉例如下:
eg:對(duì)于乒 [mask] 球滑频,清明上 [mask] 圖,[mask] 顏六色這些詞唤冈,BERT 模型通過(guò)字的搭配峡迷,很容易推測(cè)出掩碼的字信息,但沒(méi)有顯式地對(duì)語(yǔ)義概念單元 (如乒乓球你虹、清明上河圖) 以及其對(duì)應(yīng)的語(yǔ)義關(guān)系進(jìn)行建模绘搞。
(2) 訓(xùn)練語(yǔ)料單一(百科類),且除 Masked LM 外只有 Next Sent Prediction 任務(wù)傅物,較為單一看杭。
2. How ERNIE
針對(duì) BERT 模型的不足,ERNIE 做了以下改進(jìn):
(1) ERNIE 模型通過(guò)建模海量數(shù)據(jù)中的實(shí)體概念等先驗(yàn)語(yǔ)義知識(shí)挟伙,學(xué)習(xí)完整概念的語(yǔ)義表示楼雹。即在 Masked LM 中通過(guò)對(duì)詞和實(shí)體概念等語(yǔ)義單元進(jìn)行 mask 來(lái)預(yù)訓(xùn)練模型,使得模型對(duì)語(yǔ)義知識(shí)單元的表示更貼近真實(shí)世界尖阔。
ps:文章表示:相較于 BERT 學(xué)習(xí)原始語(yǔ)言信號(hào)贮缅,ERNIE 模型在基于字特征輸入建模的同時(shí),直接對(duì)先驗(yàn)語(yǔ)義知識(shí)單元進(jìn)行建模介却,增強(qiáng)了模型語(yǔ)義表示能力谴供。(但如何在基于字特征輸入的情況下直接對(duì)先驗(yàn)語(yǔ)義知識(shí)單元進(jìn)行建模?這應(yīng)該是 ERNIE 模型的核心齿坷,文章并沒(méi)有給出介紹桂肌,這要期待baidu的論文發(fā)布后一探究竟了)
文章舉例如下:
(2) 引入多源數(shù)據(jù)語(yǔ)料訓(xùn)練 ERNIE。包括百科類永淌,新聞資訊類崎场、論壇對(duì)話類數(shù)據(jù)來(lái)訓(xùn)練模型。尤其是論壇對(duì)話語(yǔ)料的引入遂蛀,文章認(rèn)為谭跨,“對(duì)話數(shù)據(jù)的學(xué)習(xí)是語(yǔ)義表示的重要途徑,往往相同回復(fù)對(duì)應(yīng)的 Query 語(yǔ)義相似”◇χ妫基于該假設(shè)蛮瞄,ERINE 采用 DLM(Dialogue Language Model)建模 Query-Response 對(duì)話結(jié)構(gòu),將對(duì)話 Pair 對(duì)作為輸入谆扎,引入 Dialogue Embedding 標(biāo)識(shí)對(duì)話的角色挂捅,利用 Dialogue Response Loss 學(xué)習(xí)對(duì)話的隱式關(guān)系,通過(guò)該方法建模進(jìn)一步提升模型語(yǔ)義表示能力堂湖。
總結(jié)來(lái)說(shuō)闲先,ERNIE 優(yōu)勢(shì)在于:
(1) 對(duì)實(shí)體概念知識(shí)的學(xué)習(xí)來(lái)學(xué)習(xí)真實(shí)世界的完整概念的語(yǔ)義表示;
(2) 對(duì)訓(xùn)練語(yǔ)料的擴(kuò)展尤其是論壇對(duì)話語(yǔ)料的引入來(lái)增強(qiáng)模型的語(yǔ)義表示能力苗缩。
3. 實(shí)驗(yàn)結(jié)果
(1) 填空題實(shí)驗(yàn)
將 ERNIE 與 BERT 在填空題實(shí)驗(yàn)上進(jìn)行效果比較饵蒂,從實(shí)驗(yàn)結(jié)果來(lái)看,ERNIE 對(duì)實(shí)體概念的學(xué)習(xí)和推理能力更勝一籌:
(2) 多個(gè)公開(kāi)中文數(shù)據(jù)集
在語(yǔ)義相似度任務(wù)(LCQMC)酱讶,情感分析任務(wù)(ChnSentiCorp)退盯,命名實(shí)體識(shí)別(MSRA-NER),檢索問(wèn)答匹配(NLPCC-DBQA)上均較BERT有約0.3%~1.9%不等范圍的提高泻肯。
ERNIE Github 項(xiàng)目地址:
https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE
參考文獻(xiàn):