標(biāo)簽: Jd_Paperweekly
時(shí)間:2020.11.05
來(lái)源: COLING 2020
關(guān)鍵詞:預(yù)訓(xùn)練模型姆涩,knowledge-Enhanced NLP, Knowledge Embedding赁还,GNN
1.背景及問(wèn)題描述
之前的一些knowledge-Enhanced預(yù)訓(xùn)練語(yǔ)言模型冻璃,一般都是使用淺層的榨惠、靜態(tài)的并且獨(dú)立訓(xùn)練的實(shí)體embedding薪伏,如TransE等将鸵,直接融入到預(yù)訓(xùn)練模型中界赔,并且實(shí)體embedding也不參與訓(xùn)練,他們之間是天然存在gap的雏吭。而一些task锁施,比如實(shí)體鏈接、關(guān)系抽取杖们,通常把相關(guān)的結(jié)構(gòu)化知識(shí)放進(jìn)模型中悉抵,會(huì)有更好的表現(xiàn)。所以摘完,本文作者試圖同時(shí)預(yù)訓(xùn)練非結(jié)構(gòu)化文本和結(jié)構(gòu)化知識(shí)姥饰。作者提出了 Contextualized Language and Knowledge Embedding (CoLAKE),即在同一語(yǔ)境中,將文本孝治、實(shí)體和關(guān)系構(gòu)造成一個(gè)圖結(jié)構(gòu)列粪,然后使用MLM(Mask Language Model)來(lái)同時(shí)預(yù)訓(xùn)練文本和知識(shí)审磁。
2.已有的解決方案
- Knowledge Representation Learning.
Knowledge Embedding (KE),傳統(tǒng)的方法就是使用實(shí)體和關(guān)系的三元組(h,r,t)岂座,學(xué)習(xí)一個(gè)靜態(tài)的低維向量态蒂,比如TransE,TranR等费什。這些方法的思路即使用前件(h)和關(guān)系(r)向量之和來(lái)預(yù)測(cè)后件(t)向量钾恢,向量之和從某種程度是表示的是信息的疊加,但是實(shí)體和關(guān)系或許不僅僅是信息的疊加而已鸳址。
因此最近出現(xiàn)的一些方法瘩蚪,比如:K-adapter,KEPLER氯质,同樣也是這個(gè)領(lǐng)域較新的兩個(gè)模型募舟。開(kāi)始考慮引入語(yǔ)境信息,使用子圖或者路徑作為訓(xùn)練預(yù)料闻察,在一些KG任務(wù)上取得了SOTA的效果拱礁。
- Joint Language and Knowledge Models
ERNIE 中使用的entity-embedding是直接使用TransE的結(jié)果,是靜態(tài)的辕漂。KnowBert只得到語(yǔ)言模型沒(méi)有同時(shí)訓(xùn)練實(shí)體表示呢灶。KEPLER,也是聯(lián)合學(xué)習(xí)語(yǔ)言模型和知識(shí)表示钉嘹,但是 KEPLER 不是直接學(xué)習(xí)每個(gè)實(shí)體的表示鸯乃,而是從實(shí)體描述(entity descriptions)中使用語(yǔ)言模型學(xué)習(xí)實(shí)體表示。
重要的是跋涣,上面的方法都沒(méi)有利用語(yǔ)境知識(shí)(contextualized knowledge)的潛力缨睡,這也是與本文方法的最大不同。
3.解決方案概述
1.構(gòu)建word-knowledge graph
給定一段文本陈辱,首先對(duì)其分詞奖年,然后文本轉(zhuǎn)化為多個(gè)單詞節(jié)點(diǎn)全鏈接構(gòu)成的word graph。然后沛贪,我們其中的提及實(shí)體(mentions)的單詞節(jié)點(diǎn)替換成對(duì)應(yīng)的實(shí)體節(jié)點(diǎn)陋守,然后定義這類節(jié)點(diǎn)為anchor node。
然后以這個(gè)anchor node為中心可以從圖譜中抽取出一個(gè)子圖利赋,然后將這個(gè)子圖和word graph在anchor node的位置拼接成一個(gè)完整的大圖水评,就得到了WK graph。實(shí)際操作中媚送,最多選取15個(gè)實(shí)體和關(guān)系來(lái)構(gòu)建子圖中燥,并且只考慮anchor node作為三元組的head(subject)的情況,并且子圖中實(shí)體不可以重復(fù)關(guān)系可以重復(fù)塘偎。
2.在graph上構(gòu)建模型
構(gòu)建好WK graph之后褪那,送到transformer中解碼幽纷。在embedding-layer和最后的目標(biāo)函數(shù)相比較BERT有所改變:
1.Embedding Layer
模型的輸入層是三個(gè)embedding做拼接式塌。
- token embedding博敬,包含了詞、實(shí)體峰尝、關(guān)系三者偏窝,這也是本文模型可以直接學(xué)習(xí)entity-embedding和relation-embedding的設(shè)計(jì)。
- type embedding武学,就是用來(lái)區(qū)分詞祭往、實(shí)體、關(guān)系的類別火窒。
- position embedding硼补,這里作者采用soft-position,允許重復(fù)position的出現(xiàn),并且保證相同三元組的token在連續(xù)的位置熏矿。
2.Pre-Training Objective
- Masking word nodes已骇,與BERT的MLM相同,只是因?yàn)閷?shí)在WK graph上解碼票编,所以預(yù)測(cè)時(shí)褪储,除了有語(yǔ)境只是還可以應(yīng)用到實(shí)體和關(guān)系的知識(shí)。
- Masking entity nodes慧域,如果mask的是anchor node鲤竹,就是根據(jù)語(yǔ)境預(yù)測(cè)它,這樣可以把結(jié)構(gòu)知識(shí)和語(yǔ)境信息發(fā)給你在同一空間中學(xué)習(xí)昔榴。比如:圖中Harry_Potter實(shí)體的embedding與他的文本Harry Potter是相似的辛藻。如果不是anchor node,就是一些傳統(tǒng)的方法來(lái)學(xué)習(xí)entity-embedding互订。
- Masking relation nodes吱肌,如果遮擋的relation是兩個(gè)anchor node之間,這就是一個(gè)監(jiān)督式關(guān)系抽取任務(wù)屁奏。否則岩榆,就是預(yù)測(cè)兩個(gè)相鄰實(shí)體之間的關(guān)系,一些傳統(tǒng)的方法坟瓢。這個(gè)任務(wù)作用:(1)學(xué)習(xí)實(shí)體關(guān)系(2)學(xué)習(xí)語(yǔ)境相關(guān)的relation-embedding勇边。
4.結(jié)果分析
- 需要知識(shí)的下游文本任務(wù)上對(duì)CoLAKE進(jìn)行了測(cè)試,在Open Entity(Entity Typing), FewRel(Relation Extraction)等任務(wù)上都取得了不錯(cuò)的結(jié)果:
- 在GLUE任務(wù)上表現(xiàn)一般:
5.創(chuàng)新點(diǎn)或貢獻(xiàn)
- 在預(yù)訓(xùn)練語(yǔ)言模型的同時(shí)也學(xué)習(xí)一套知識(shí)表示折联,以在需要知識(shí)的下游文本任務(wù)上表現(xiàn)更好粒褒,例如實(shí)體鏈接、關(guān)系抽取等诚镰。
- 在加入實(shí)體的同時(shí)也加入它的上下文(context)奕坟,允許模型在不同語(yǔ)境下關(guān)注實(shí)體的不同鄰居祥款,同時(shí)學(xué)習(xí)文本和知識(shí)的上下文表示。
- 為了完成上述目標(biāo)月杉,作者提出來(lái)word-knowledge graph,提供了一種將文本和知識(shí)庫(kù)想結(jié)合表示成圖的思路刃跛,然后可以在圖上做MLM或者GNN的學(xué)習(xí)。
6.個(gè)人思考
- 提供了一種將文本結(jié)合結(jié)構(gòu)化知識(shí)來(lái)構(gòu)建圖的思路苛萎,可以在此基礎(chǔ)上構(gòu)建GNN網(wǎng)絡(luò)桨昙。可以試試在這種思路來(lái)構(gòu)建sku的sku graph腌歉。
- 這類knowledge-Enhanced的語(yǔ)言模型在GLUE任務(wù)上沒(méi)有明顯的提升蛙酪,我猜想是GLUE里的NLU任務(wù),對(duì)結(jié)構(gòu)化知識(shí)沒(méi)有那么依賴翘盖,更多需要是學(xué)習(xí)語(yǔ)境和推理的規(guī)律桂塞。