KE_PM

[TOC]

動(dòng)機(jī)

現(xiàn)有的 PTM 有以下缺點(diǎn):

  1. 以預(yù)訓(xùn)練的語(yǔ)言模型為例赵刑,
    它們很好地學(xué)習(xí)頻繁詞的語(yǔ)義,但在受長(zhǎng)尾數(shù)據(jù)分布限制的稀有詞上表現(xiàn)不佳。同樣亡蓉,這種數(shù)據(jù)分布也限制了 CV PTM 在具有長(zhǎng)尾類不平衡的實(shí)際應(yīng)用中的實(shí)用性。
  2. PTM 不擅長(zhǎng)推理喷舀。例如砍濒,預(yù)訓(xùn)練語(yǔ)言模型是統(tǒng)計(jì)模型,根據(jù)共現(xiàn)信號(hào)學(xué)習(xí)隱含關(guān)系硫麻,導(dǎo)致缺乏邏輯推理爸邢。盡管預(yù)訓(xùn)練的語(yǔ)言模型可以捕獲豐富的語(yǔ)言學(xué) [11]、語(yǔ)義 [12]拿愧、句法 [13] 甚至世界知識(shí) [14]杠河,
    但 Cao 等人。 [15]表明,預(yù)訓(xùn)練語(yǔ)言模型的下降事實(shí)知識(shí)提取性能主要?dú)w功于有偏見(jiàn)提示 biased prompts券敌。 [16] 中的實(shí)驗(yàn)還表明唾戚,預(yù)訓(xùn)練語(yǔ)言模型在需要推理的任務(wù)中表現(xiàn)不佳。同樣待诅,CV 的 PTM 無(wú)法提取檢測(cè)到的對(duì)象之間的語(yǔ)義關(guān)系颈走。

3.由于 PTM 在某些任務(wù)中的表現(xiàn)優(yōu)于人類,引發(fā)了倫理和社會(huì)問(wèn)題咱士。正如我們所觀察到的立由,預(yù)訓(xùn)練的語(yǔ)言模型缺乏常識(shí)知識(shí)并生成不合邏輯的句子 [17]。因此序厉,PTM 的可解釋性和問(wèn)責(zé)制對(duì)于普遍應(yīng)用它們變得至關(guān)重要锐膜。

神經(jīng)網(wǎng)絡(luò)和符號(hào)知識(shí)的結(jié)合揭示了這些問(wèn)題的可能解決方案。
一方面弛房,知識(shí)圖譜等符號(hào)知識(shí)對(duì)稀有詞的覆蓋率很高道盏,解決了缺乏文本監(jiān)督的問(wèn)題[18],[19]文捶。 除此之外荷逞,它們還為模型提供全面的關(guān)系信息 [20]、[21] 和/或顯式規(guī)則 [22]粹排,以增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的推理能力种远。
另一方面,符號(hào)知識(shí)提高了下游任務(wù)中知識(shí)使用的可解釋性[23]顽耳。
此外坠敷,對(duì)于特定的下游應(yīng)用程序 [24]、[25]射富,無(wú)需從頭開(kāi)始訓(xùn)練即可將知識(shí) 1 攝取到預(yù)訓(xùn)練的檢查點(diǎn)中是切實(shí)可行的膝迎。 因此,有希望將知識(shí)與預(yù)訓(xùn)練的語(yǔ)言模型相結(jié)合胰耗,以實(shí)現(xiàn)更通用的人工智能限次。

本次調(diào)查的貢獻(xiàn)可總結(jié)如下:
? 全面總結(jié)。我們對(duì) NLP 和 CV 中的預(yù)訓(xùn)練模型以及知識(shí)表示學(xué)習(xí)進(jìn)行了全面總結(jié)柴灯。

? 新分類法卖漫。我們提出了 KEPTM 的分類法,從知識(shí)的粒度弛槐、知識(shí)注入的方法和符號(hào)知識(shí)參數(shù)化的程度對(duì)現(xiàn)有的 KEPTM 進(jìn)行分類懊亡。

? 性能分析。我們從應(yīng)用場(chǎng)景的范圍乎串、知識(shí)注入的有效性店枣、知識(shí)的管理和可解釋性的角度分析了不同類別 PTM 的優(yōu)缺點(diǎn)速警。

? 未來(lái)發(fā)展方向。我們討論了現(xiàn)有 KEPTM 的挑戰(zhàn)鸯两,并提出了一些可能的未來(lái)研究方向闷旧。

調(diào)查的其余部分安排如下。
第 2 節(jié)概述了預(yù)訓(xùn)練模型和知識(shí)表示學(xué)習(xí)的進(jìn)展钧唐。
第 3 節(jié)介紹了分類原則和相應(yīng)的綜合分類法忙灼。
在第 3 節(jié)分類之后,第 4 節(jié)介紹了各種 KEPTM 的工作原理并分析了其優(yōu)缺點(diǎn)钝侠,并從不同維度比較了現(xiàn)有的 KEPTM该园。
第 5 節(jié)討論了當(dāng)前的挑戰(zhàn)并提出了未來(lái)的方向。

背景

預(yù)訓(xùn)練模型

預(yù)訓(xùn)練模型可以從大量原始感官數(shù)據(jù)中提取高級(jí)特征以獲得有效的表示帅韧,并在微調(diào)預(yù)訓(xùn)練模型后將其應(yīng)用于下游任務(wù)里初。
預(yù)訓(xùn)練模型的有效性很大程度上取決于模型編碼器的表示學(xué)習(xí)。
表示學(xué)習(xí)是指學(xué)習(xí)數(shù)據(jù)的表示忽舟,以便在構(gòu)建分類器或其他預(yù)測(cè)器時(shí)更容易提取有用的信息[26]双妨。表示學(xué)習(xí)社區(qū)中有兩種主流范式:概率圖形模型和神經(jīng)網(wǎng)絡(luò)。概率圖模型通過(guò)對(duì)樣本數(shù)據(jù)中潛在變量的后驗(yàn)分布進(jìn)行建模來(lái)學(xué)習(xí)特征表示叮阅,包括有向圖模型和無(wú)向圖模型刁品。
神經(jīng)網(wǎng)絡(luò)模型大多使用由編碼器和解碼器組成的自動(dòng)編碼器。編碼器負(fù)責(zé)特征提取浩姥,而解碼器通過(guò)應(yīng)用正則化重建目標(biāo)來(lái)重建輸入挑随。

與概率圖形模型相比,基于神經(jīng)網(wǎng)絡(luò)的模型具有以下優(yōu)點(diǎn)及刻。
首先镀裤,神經(jīng)網(wǎng)絡(luò)可以用分布式向量而不是稀疏向量來(lái)表達(dá)更多可能的特征竞阐。
其次缴饭,考慮到現(xiàn)有數(shù)據(jù)主要是多個(gè)潛在因素相互作用的結(jié)果,分布式向量可以通過(guò)設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表示不同的影響因素骆莹。
最后颗搂,深度神經(jīng)網(wǎng)絡(luò)的底層神經(jīng)層將從數(shù)據(jù)中學(xué)習(xí)到的具體特征轉(zhuǎn)換為上層的抽象特征,并隨著輸入數(shù)據(jù)的局部變化保持穩(wěn)定幕垦,增強(qiáng)了表示在許多下游任務(wù)中泛化的魯棒性丢氢。

遵循基于自動(dòng)編碼器的神經(jīng)模型,預(yù)訓(xùn)練模型設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)來(lái)編碼輸入數(shù)據(jù)先改,同時(shí)使用預(yù)訓(xùn)練任務(wù)來(lái)解碼學(xué)習(xí)表示疚察。經(jīng)過(guò)微調(diào)后,預(yù)訓(xùn)練模型可以輕松適應(yīng)各種 NLP 和 CV仇奶,甚至是跨模態(tài)任務(wù)貌嫡。
我們主要將模型分為預(yù)訓(xùn)練CV 和預(yù)訓(xùn)練語(yǔ)言模型。

預(yù)訓(xùn)練 CV 模型

預(yù)訓(xùn)練的 CV 模型已成為圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割的強(qiáng)大策略岛抄。
作為第一個(gè)探索用于通用目標(biāo)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò) (CNN)别惦,Girshick 等人。 [27] 通過(guò)將 AlexNet [28] 與區(qū)域提議選擇性搜索 [29] 相結(jié)合夫椭,實(shí)現(xiàn)了高目標(biāo)檢測(cè)質(zhì)量掸掸。受其在測(cè)試期間效率低下的激勵(lì),He 等人蹭秋。 [30] 將傳統(tǒng)的空間金字塔池引入到 CNN 架構(gòu)中扰付。 Fast RCNN [31] 同時(shí)學(xué)習(xí) softmax 分類器和特定類別的邊界框回歸,以進(jìn)一步提高檢測(cè)速度和質(zhì)量仁讨,而 Faster RCNN [7] 減輕了對(duì)外部區(qū)域提議的依賴悯周。基于 Faster RCNN陪竿,Mask RCNN [32] 在對(duì)象檢測(cè)和實(shí)例分割方面取得了有希望的結(jié)果禽翼,而 Faster RCNN 的開(kāi)銷很小。除了基于區(qū)域的方法之外族跛,研究人員還開(kāi)發(fā)了統(tǒng)一的檢測(cè)策略闰挡。作為 ILSVRC2013 [33] 定位和檢測(cè)競(jìng)賽的獲勝者,OverFeat [34] 通過(guò)網(wǎng)絡(luò)中的全卷積層的單次前向傳遞執(zhí)行目標(biāo)檢測(cè)礁哄,因此具有顯著的速度優(yōu)勢(shì)长酗。 YOLO 系列將對(duì)象檢測(cè)轉(zhuǎn)換為回歸問(wèn)題,并在標(biāo)準(zhǔn)檢測(cè)任務(wù)上達(dá)到最先進(jìn)的結(jié)果桐绒。與 YOLO 相比夺脾,SSD [35] 在保持高檢測(cè)質(zhì)量的同時(shí)實(shí)現(xiàn)了更快的檢測(cè)速度。 VGG [8] 作為一種流行的架構(gòu)適用于分類和圖像識(shí)別任務(wù)茉继∵职龋基于對(duì)象檢測(cè)結(jié)果,SDS [36]使用與類別無(wú)關(guān)的自下而上對(duì)象提議進(jìn)行語(yǔ)義分割烁竭。龍等人菲茬。 [36]提出了端到端訓(xùn)練的卷積網(wǎng)絡(luò),而不依賴于區(qū)域提議派撕。有關(guān)預(yù)訓(xùn)練 CV 模型的更多詳細(xì)信息婉弹,我們請(qǐng)讀者參考 [37]、[38]终吼。

Pre-trained Language Models

Token-based Pre-trained Models

源自 Bengio 在 2003 年提出的 NNLM [51]镀赌,單詞的分布式表示是在訓(xùn)練過(guò)程中作為副產(chǎn)品生成的。根據(jù)具有相似上下文的單詞具有相似語(yǔ)義的假設(shè)际跪,Mikolov 等人商佛。 [39],
[40] 提出了兩種淺層架構(gòu):Continuous Bagof-Words (CBOW) 和 Skip-Gram (SG) 來(lái)捕獲單詞之間潛在的句法和語(yǔ)義相似性蛙粘。此外,GloVe [41] 計(jì)算來(lái)自大型語(yǔ)料庫(kù)的詞詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)作為監(jiān)督信號(hào)威彰,F(xiàn)astText [42] 使用文本分類數(shù)據(jù)訓(xùn)練模型出牧。隨著上述所有基于標(biāo)記的預(yù)訓(xùn)練模型的出現(xiàn),詞嵌入已普遍用作 NLP 任務(wù)中的文本表示歇盼。盡管這些模型簡(jiǎn)單有效舔痕,但它們僅適用于獲得固定表示而不是捕獲多義詞。這也是我們將這種模型稱為靜態(tài)預(yù)訓(xùn)練模型的原因豹缀。

Context-based Pre-trained Models

為了解決多義問(wèn)題伯复,預(yù)訓(xùn)練模型需要區(qū)分單詞的語(yǔ)義并在不同的上下文中動(dòng)態(tài)生成單詞嵌入。 給定一個(gè)文本 x 1 ,x 2 ,··· ,x T 其中每個(gè)標(biāo)記 x t 是一個(gè)詞或子詞邢笙,x t 的上下文表示取決于整個(gè)文本啸如。

以 LSTM [52] 作為神經(jīng)編碼器,ELMo [43] 模型從雙向語(yǔ)言模型中提取上下文相關(guān)的表示氮惯,這已證明可以為一系列 NLP 任務(wù)帶來(lái)很大的改進(jìn)叮雳。然而,ELMo 通常用作特征提取器來(lái)為下游任務(wù)的主模型生成初始嵌入妇汗,這意味著主模型的其余參數(shù)必須從頭開(kāi)始訓(xùn)練帘不。

同時(shí),ULMFiT [53] 的提議為模型提供了有價(jià)值的多階段遷移和微調(diào)技能杨箭。此外寞焙,Transformer [54] 在機(jī)器翻譯方面取得了驚人的成功,并被證明在處理遠(yuǎn)程文本依賴方面比 LSTM 更有效互婿。在此背景下捣郊,OpenAI 提出了 GPT [4],它采用修改后的 Transformer 解碼器作為語(yǔ)言模型來(lái)學(xué)習(xí)可轉(zhuǎn)移到廣泛下游任務(wù)的通用表示慈参,在 12 個(gè) NLP 任務(wù)中的 9 個(gè)中優(yōu)于特定于任務(wù)的架構(gòu)呛牲。 GPT-2 和 GPT-3 [5]、[55] 主要遵循架構(gòu)并在更大懂牧、更多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練侈净,以從不同的領(lǐng)域?qū)W習(xí)。然而僧凤,受單向編碼器的限制,GPT 系列只能關(guān)注其左側(cè)上下文柠偶,從而導(dǎo)致學(xué)習(xí)句子級(jí)語(yǔ)義的次優(yōu)捷枯。為了克服這一缺陷缎讼,BERT [6] 采用了掩碼語(yǔ)言建模 (MLM) 目標(biāo),其中序列的一些標(biāo)記被隨機(jī)屏蔽途事,目標(biāo)是在考慮損壞句子的情況下預(yù)測(cè)這些標(biāo)記验懊。受 Skip-Thoughts [56] 的啟發(fā),BERT 還采用下一句預(yù)測(cè)(NSP)任務(wù)來(lái)學(xué)習(xí)句子之間的語(yǔ)義聯(lián)系尸变,在 11 個(gè) NLP 任務(wù)上獲得了新的 start-ofart 結(jié)果义图,甚至成為后續(xù)模型的基礎(chǔ)。在 BERT 的基礎(chǔ)上召烂,RoBERTa [45] 設(shè)計(jì)了一些改進(jìn)的訓(xùn)練方案碱工,包括在更多數(shù)據(jù)上使用更大的批次進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練、修改目標(biāo)奏夫、對(duì)長(zhǎng)序列進(jìn)行訓(xùn)練以及動(dòng)態(tài)更改掩碼模式怕篷,從而顯著提高 BERT 的性能。為了克服 BERT 的預(yù)訓(xùn)練和微調(diào)之間的差異酗昼,XLNet [44] 提出了一種基于置換語(yǔ)言建模的新自回歸方法廊谓,以在不引入任何新符號(hào)的情況下捕獲上下文信息。

與上述所有這些針對(duì)自然理解或生成任務(wù)的預(yù)訓(xùn)練模型不同麻削,T5 [46] 采用編碼器-解碼器框架通過(guò)將數(shù)據(jù)轉(zhuǎn)換為文本到文本格式來(lái)統(tǒng)一自然理解和生成蒸痹。 有關(guān)預(yù)訓(xùn)練語(yǔ)言模型的更多詳細(xì)信息,我們請(qǐng)讀者參考 [57]呛哟、[58]电抚。

Knowledge Representation Learning

知識(shí)
知識(shí)是對(duì)某人或某事的熟悉、認(rèn)識(shí)或理解竖共,例如事實(shí)(描述性知識(shí))蝙叛、技能(程序性知識(shí))或?qū)ο蟆4笮l(wèi)等人公给。 [59]將知識(shí)分為四類借帘,即事實(shí)性知識(shí)、概念性知識(shí)淌铐、程序性知識(shí)和元認(rèn)知知識(shí)肺然。事實(shí)性知識(shí)是指描述客觀事物的術(shù)語(yǔ)和具體細(xì)節(jié)和要素的知識(shí)。概念性知識(shí)是一個(gè)更大結(jié)構(gòu)內(nèi)的基本要素之間的相互關(guān)系腿准,使它們能夠共同發(fā)揮作用际起,例如原理、概括和理論吐葱。程序性知識(shí)是指指導(dǎo)行動(dòng)的知識(shí)街望,包括探究方法和使用技能、算法弟跑、技術(shù)和方法的標(biāo)準(zhǔn)灾前。元認(rèn)知知識(shí)強(qiáng)調(diào)自我能動(dòng)性,是一般的認(rèn)知知識(shí)孟辑,也是意識(shí)的知識(shí)哎甲。

知識(shí)表示方法

傳統(tǒng)的知識(shí)表示方法包括一階謂詞邏輯蔫敲、框架表示[61]奈嘿、腳本表示[62]吞加、語(yǔ)義網(wǎng)絡(luò)表示[63]和本體表示裙犹。一階謂詞邏輯的基本語(yǔ)法要素是表示對(duì)象伯诬、關(guān)系和功能的符號(hào),其中對(duì)象指代事物的個(gè)體或范疇巫财,關(guān)系指事物之間的映射平项,而功能則需要每個(gè)對(duì)象中的對(duì)象闽瓢。域具有映射值作為謂詞的特殊形式扣讼。這種方法雖然可以保證知識(shí)表示的一致性和推理結(jié)果的正確性椭符,但難以表示程序性知識(shí)销钝。

語(yǔ)義網(wǎng)絡(luò)是由有向圖表示的概念網(wǎng)絡(luò)蒸健,其中節(jié)點(diǎn)表示概念似忧,邊表示概念之間的語(yǔ)義關(guān)系诗箍,也可以轉(zhuǎn)化為三元組滤祖。它可以以統(tǒng)一和直接的方式描述知識(shí)匠童,有利于計(jì)算機(jī)存儲(chǔ)和檢索。但是扬绪,它只能代表概念性知識(shí)挤牛,而不能代表過(guò)程知識(shí)等動(dòng)態(tài)知識(shí)墓赴。

框架表示通過(guò)框架的層次結(jié)構(gòu)組織知識(shí),其中每個(gè)實(shí)體由一個(gè)包含多個(gè)用于存儲(chǔ)屬性和相應(yīng)值的槽的框架表示章办。它通過(guò)繼承一個(gè)人的屬性來(lái)避免框架的重復(fù)定義藕届。由于現(xiàn)實(shí)世界的多樣性和復(fù)雜性,許多實(shí)際情況和框架差異很大椅贱,在框架設(shè)計(jì)過(guò)程中引入了錯(cuò)誤或沖突庇麦,導(dǎo)致除了無(wú)法表示程序性知識(shí)外,缺乏通用性航棱。

腳本化表示通過(guò)一系列原子動(dòng)作來(lái)表示事物的基本行為它抱,描述事物以確定的時(shí)間或因果順序發(fā)生观蓄,并用于動(dòng)態(tài)知識(shí)侮穿。雖然它可以在一定程度上代表程序性知識(shí),但不適用于概念性或事實(shí)性知識(shí)芯急。

最初娶耍,本體論一詞來(lái)自哲學(xué),用于描述世界上存在者的存在想鹰。為了獲得具有推理能力的模型,研究人員采用術(shù)語(yǔ)本體來(lái)描述程序中可以計(jì)算表示的世界何缓。 CYC [64] 是一個(gè)按照本體規(guī)范構(gòu)建的知識(shí)庫(kù)碌廓,旨在組織人類常識(shí)知識(shí)。由于本體可以表示一致認(rèn)可的靜態(tài)領(lǐng)域知識(shí)纪挎,因此它也用于信息檢索和 NLP唯灵。 WordNet [65] 是基于單詞本體創(chuàng)建的。除了靜態(tài)知識(shí)建模之外玖绿,還設(shè)計(jì)了特定于任務(wù)的本體,以添加基于靜態(tài)知識(shí)的推理能力蚀瘸。

為了促進(jìn)語(yǔ)義理解,Tim 等人寂嘉。 [66] 在 2001 年提出語(yǔ)義 Web 概念泉孩,以構(gòu)建一個(gè)大型分布式數(shù)據(jù)庫(kù),通過(guò)語(yǔ)義而不是字符串來(lái)鏈接數(shù)據(jù)句喷。為了使計(jì)算機(jī)可以理解數(shù)據(jù),W3C 提出了資源描述框架(RDF)[67]父叙,它使用語(yǔ)義網(wǎng)絡(luò)表示以三元組的形式表達(dá)語(yǔ)義涌乳。這種形式可以很容易地通過(guò)圖來(lái)實(shí)現(xiàn)夕晓,以應(yīng)用概率圖和圖論的圖算法來(lái)解決問(wèn)題。此外躬贡,Web Ontology Language (OWL) 旨在賦予計(jì)算機(jī)推理能力,它描述了符合本體表示的事物的類別檐蚜、屬性和實(shí)例。

在工程實(shí)現(xiàn)中乡括,知識(shí)圖譜(KG)是以實(shí)體為節(jié)點(diǎn),以關(guān)系為邊的網(wǎng)絡(luò)表示的知識(shí)庫(kù)敷扫。具體來(lái)說(shuō),KG 通過(guò)語(yǔ)義網(wǎng)技術(shù)從網(wǎng)絡(luò)中獲取知識(shí)和相應(yīng)的描述卒密,并組織成三元組膛腐。由于程序性知識(shí)管理難度大哲身,確定性弱,現(xiàn)有的KG大多只包含概念性知識(shí)和事實(shí)性知識(shí)脯丝,沒(méi)有程序性知識(shí)。

Knowledge Representation Learning

深度學(xué)習(xí)委托的知識(shí)表示學(xué)習(xí)(KRL)側(cè)重于知識(shí)庫(kù)中實(shí)體和關(guān)系的表示學(xué)習(xí)潦匈,有效衡量實(shí)體和關(guān)系的語(yǔ)義相關(guān)性茬缩,緩解稀疏問(wèn)題未舟。更重要的是,在知識(shí)表示學(xué)習(xí)之后昼扛,符號(hào)知識(shí)可以更容易地與基于神經(jīng)網(wǎng)絡(luò)的模型集成。

平移距離模型
使用基于距離的評(píng)分函數(shù)蛹含,這種類型的模型將事實(shí)的合理性衡量為關(guān)系執(zhí)行平移后兩個(gè)實(shí)體之間的距離卧斟。受 [68] 中語(yǔ)言規(guī)律的啟發(fā),TransE [69] 表示 d 維向量空間中的實(shí)體和關(guān)系,使得嵌入的實(shí)體 h 和 t 可以通過(guò)平移向量 r 連接募逞,即當(dāng) (h, r, t) 成立。為了解決實(shí)體和關(guān)系的單個(gè)空間不足的問(wèn)題纠脾,TransH [70] 和 TransR [71] 允許實(shí)體在涉及不同關(guān)系時(shí)具有不同的表示。 TransH 引入了關(guān)系超平面慧脱,假設(shè)實(shí)體和關(guān)系共享相同的語(yǔ)義空間,而 TransR 利用分離的關(guān)系空間來(lái)考慮實(shí)體的不同屬性。 TransD [72] 認(rèn)為扳抽,即使具有相同的關(guān)系,實(shí)體也可以作為不同的類型楞陷,并通過(guò)考慮實(shí)體和關(guān)系之間的交互來(lái)構(gòu)建動(dòng)態(tài)映射矩陣结执。由于實(shí)體和關(guān)系的異質(zhì)性和不平衡性,TranSparse [73] 通過(guò)在投影矩陣上強(qiáng)制稀疏來(lái)簡(jiǎn)化 TransR。

語(yǔ)義匹配模型
語(yǔ)義匹配模型通過(guò)匹配實(shí)體的潛在語(yǔ)義和關(guān)系與基于相似性的評(píng)分函數(shù)來(lái)衡量事實(shí)的合理性郑兴。 RESCAL [74] 將每個(gè)實(shí)體和關(guān)系分別與向量和矩陣相關(guān)聯(lián)。事實(shí)的得分 (h, r, t) 由雙線性函數(shù)定義却舀。為了降低計(jì)算復(fù)雜度衡招,DistMult [75] 通過(guò)限制與對(duì)角矩陣的關(guān)系來(lái)簡(jiǎn)化 RESCAL。將 RESCAL 的表達(dá)能力與 DistMult 的效率和簡(jiǎn)單性相結(jié)合浪箭,HolE [28] 用循環(huán)相關(guān)運(yùn)算組合實(shí)體表示,然后將組合向量與關(guān)系表示匹配以對(duì)三元組進(jìn)行評(píng)分宣鄙。與上述模型不同绸吸,SME [76] 使用神經(jīng)網(wǎng)絡(luò)架構(gòu)在實(shí)體和關(guān)系之間進(jìn)行語(yǔ)義匹配。 NTN [77] 將投影實(shí)體與關(guān)系張量相結(jié)合,并在關(guān)系線性輸出層之后預(yù)測(cè)分?jǐn)?shù)。

圖神經(jīng)網(wǎng)絡(luò)模型
上述模型僅通過(guò)存儲(chǔ)為三元組集合的事實(shí)嵌入實(shí)體和關(guān)系甫菠,而基于圖神經(jīng)網(wǎng)絡(luò)的模型考慮了圖的整個(gè)結(jié)構(gòu)。圖卷積網(wǎng)絡(luò) (GCN) 是在 [78] 中首次提出的,經(jīng)過(guò)不斷努力 [79]、[80]泉粉、[81]、[82],它已成為創(chuàng)建節(jié)點(diǎn)嵌入的有效工具哈误,它聚合了圖鄰域中的局部信息對(duì)于每個(gè)節(jié)點(diǎn)。作為圖卷積網(wǎng)絡(luò)的擴(kuò)展,R-GCN [83]被開(kāi)發(fā)用于處理現(xiàn)實(shí)知識(shí)庫(kù)的高度多關(guān)系數(shù)據(jù)特征晚缩。 SACN [84] 采用端到端網(wǎng)絡(luò)學(xué)習(xí)框架,其中編碼器利用圖節(jié)點(diǎn)結(jié)構(gòu)和屬性抓谴,解碼器簡(jiǎn)化 ConvE [85] 并保持 TransE 的平移特性。 Nathani 等人遵循 SACN 的相同框架荆陆。 [86] 提出了一種基于注意力的特征嵌入滩届,它在編碼器中捕獲實(shí)體和關(guān)系特征。 Vashishth 等人被啼。 [87]認(rèn)為在消息傳輸過(guò)程中應(yīng)綜合考慮關(guān)系和節(jié)點(diǎn)的結(jié)合帜消。那里- 5

為此浓体,他們提出了 CompGCN泡挺,它利用知識(shí)圖嵌入技術(shù)中的各種實(shí)體關(guān)系組合操作,并隨著關(guān)系的數(shù)量縮放以共同嵌入節(jié)點(diǎn)和關(guān)系命浴。

KEPM的分類

3.1 分類原則

符號(hào)知識(shí)以實(shí)體描述娄猫、KG 和規(guī)則的形式為預(yù)訓(xùn)練模型提供豐富的信息,分別提供額外的實(shí)體特征生闲、實(shí)體間關(guān)聯(lián)并指導(dǎo) PTM 的推理過(guò)程稚新。 PTM 需要不同粒度的知識(shí)來(lái)解決不同的下游任務(wù)。然而跪腹,PTM 僅擁有知識(shí)是不夠的,它是一種有效的知識(shí)注入方法飞醉。這些方法對(duì)知識(shí)注入的效率冲茸、知識(shí)的存儲(chǔ)方式以及知識(shí)管理的難易程度都有顯著影響。除此之外缅帘,可解釋性和問(wèn)責(zé)制對(duì)于將 PTM 擴(kuò)展到更廣泛的應(yīng)用場(chǎng)景變得至關(guān)重要轴术。已經(jīng)付出了很多努力來(lái)通過(guò)不同的探測(cè)方式來(lái)查看 PTM 中編碼的知識(shí) [88]。研究人員發(fā)現(xiàn)钦无,PLM 的標(biāo)記表示可以通過(guò)探測(cè)分類器 [89]逗栽、[90] 來(lái)捕獲句法和語(yǔ)義知識(shí)。問(wèn)答任務(wù)中的定量分析表明失暂,PLM 可以編碼結(jié)構(gòu)化的常識(shí)知識(shí) [91]彼宠■克拉克等人。 [92] 探索了自注意力頭的功能凭峡,并報(bào)告說(shuō)他們?cè)谀承┚浞ㄎ恢蒙巷@著地注意單詞拙已。盡管取得了這些成就,但沒(méi)有研究如何在下游任務(wù)中利用知識(shí)的可解釋性摧冀,特別是對(duì)于需要大量知識(shí)的任務(wù)倍踪。 PTM 缺乏確定和嚴(yán)格的計(jì)算形式,這對(duì)于需要顯式過(guò)程的推理任務(wù)尤其重要索昂。因此建车,我們從知識(shí)粒度、知識(shí)注入方式椒惨、符號(hào)知識(shí)參數(shù)化程度三個(gè)維度對(duì)現(xiàn)有KEPTMs進(jìn)行分類缤至,分析其對(duì)應(yīng)用范圍、知識(shí)注入效率和知識(shí)易用性的影響管理和可解釋性框产。

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的分類

本節(jié)根據(jù)上面討論的維度給出了一個(gè)具體的分類凄杯。

知識(shí)粒度

KEPTM 集成了不同粒度的知識(shí),適用于需要不同細(xì)節(jié)級(jí)別信息的場(chǎng)景秉宿。一般來(lái)說(shuō)戒突,情感分析主要依賴于詞的特征,因此需要更多關(guān)于個(gè)體實(shí)體的信息描睦。相比之下膊存,文本生成任務(wù)依賴于基于常識(shí)知識(shí),問(wèn)答任務(wù)依賴規(guī)則和KG來(lái)推斷忱叭。根據(jù)知識(shí)集成的粒度隔崎,我們將 KEPTM 分為非結(jié)構(gòu)化知識(shí)和結(jié)構(gòu)化知識(shí)。前者由實(shí)體融合和文本融合的 KEPTM 組成韵丑,而后者又進(jìn)一步分為 sytax-tree fused爵卒、KG fused、rule fused KEPTM撵彻。

實(shí)體融合的 KEPTM
實(shí)體作為基本的語(yǔ)義單位钓株,以詞、詞組和文字的形式存在∧敖現(xiàn)有的 KEPTM 通常將實(shí)體視為監(jiān)督數(shù)據(jù)轴合,以學(xué)習(xí)其語(yǔ)義或從中獲得額外的關(guān)鍵特征。稀有或歧義實(shí)體的信息使 PTM 能夠很好地學(xué)習(xí)其語(yǔ)義碗短,并在命名實(shí)體識(shí)別 [93]受葛、情感分析 [94]、詞義消歧甚至問(wèn)答任務(wù) [95] 中取得可喜的性能。

文本融合預(yù)訓(xùn)練模型
由于預(yù)訓(xùn)練以序列為輸入总滩,因此無(wú)需額外處理即可輕松編碼文本纲堵。盡管它在表達(dá)上很靈活,但它不能提供明確的關(guān)系咳秉,主要有利于問(wèn)答婉支。

語(yǔ)法樹(shù)融合的 KEPTM
句法知識(shí)提供了句子的關(guān)鍵成分,它們不僅有利于自然語(yǔ)言推理和理解任務(wù)[96]澜建,而且有利于句法解析[97]向挖、語(yǔ)義角色標(biāo)記任務(wù)和共指解決。更重要的是炕舵,它可以通過(guò)各種方法加以利用何之。例如,它可以通過(guò)選擇語(yǔ)法樹(shù)的不同組成部分來(lái)用于監(jiān)督數(shù)據(jù)咽筋。此外溶推,語(yǔ)法樹(shù)的結(jié)構(gòu)也可以通過(guò)圖神經(jīng)網(wǎng)絡(luò)(GNN)[98]進(jìn)行編碼。

KG 融合 KEPTM
隨著信息抽取技術(shù)的進(jìn)步奸攻,大量的通用知識(shí)圖譜和特定領(lǐng)域知識(shí)圖譜應(yīng)運(yùn)而生蒜危。知識(shí)圖譜提供了一種結(jié)構(gòu)化的方式來(lái)以實(shí)體和它們之間的關(guān)系的形式表示豐富的信息。在被 PTM 采用后睹耐,它們已成為各種任務(wù)的核心辐赞,包括一般的自然語(yǔ)言理解和生成任務(wù),以及圖像分類和視覺(jué)問(wèn)答硝训。與語(yǔ)法樹(shù)類似响委,它們通過(guò)適當(dāng)?shù)?KRL [18]、[19] 充當(dāng)語(yǔ)義嵌入窖梁,或通過(guò)查詢 [21]赘风、[99] 指導(dǎo)推理過(guò)程。

規(guī)則融合的 KEPTM
規(guī)則作為非正式約束或嚴(yán)格的邏輯表達(dá)式存在纵刘。它的主要好處是其由強(qiáng)有力的數(shù)學(xué)形式主義和明確的推理過(guò)程帶來(lái)的可解釋性和問(wèn)責(zé)制邀窃。這些規(guī)則不僅可以用作分配權(quán)重的監(jiān)督信號(hào)[100],還可以用作做出決策的獨(dú)立推理系統(tǒng)[23]假哎。

知識(shí)注入方法法

知識(shí)注入的方法對(duì)于 PTM 與知識(shí)整合的有效性和效率蛔翅,以及知識(shí)的管理和存儲(chǔ)都起著重要的作用。實(shí)際上位谋,它決定了可以整合哪些知識(shí)以及知識(shí)的形式。為了深入了解知識(shí)是如何注入的堰燎,我們將模型分為特征融合掏父、嵌入組合、知識(shí)監(jiān)督秆剪、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一赊淑、基于檢索和規(guī)則引導(dǎo)的 KEPTM爵政。

特征融合的 KEPTM
這種類型的模型從特定的知識(shí)庫(kù)中獲得諸如情感極性、超感和實(shí)體跨度等特征陶缺。特征 6 融合的 KEPTM 通常通過(guò)使用可訓(xùn)練矩陣投影到嵌入中來(lái)考慮它钾挟,并通過(guò)預(yù)訓(xùn)練任務(wù) [94]、[101]饱岸、[102] 來(lái)學(xué)習(xí)其含義掺出。

嵌入組合的 KEPTM
為了填補(bǔ)符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò)之間的空白,嵌入組合的 KEPTM 將符號(hào)知識(shí)轉(zhuǎn)換為嵌入苫费,提前使用表示學(xué)習(xí)算法汤锨,這會(huì)極大地影響模型的性能。然后文本和實(shí)體中的標(biāo)記將通過(guò)注意力機(jī)制或其他加權(quán)操作[18]百框,[19]對(duì)齊以結(jié)合它們的相應(yīng)嵌入闲礼。但是,由于對(duì)不同形式的知識(shí)有不同的表示學(xué)習(xí)算法铐维,會(huì)存在異構(gòu)的語(yǔ)義空間柬泽。為了解決這個(gè)問(wèn)題,一些 KEPTM 生成節(jié)點(diǎn)的初始嵌入及其上下文 [20]嫁蛇、[103]锨并。

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM
由于結(jié)構(gòu)不兼容,一些工作對(duì) PTM 的知識(shí)注入和原始訓(xùn)練數(shù)據(jù)采用不同的表示學(xué)習(xí)算法棠众。但是琳疏,它會(huì)導(dǎo)致語(yǔ)義空間異構(gòu),增加它們?nèi)诤系碾y度闸拿。為了平滑地集成它們空盼,數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將 KG 的關(guān)系三元組轉(zhuǎn)換為序列,因此使用相同的編碼器來(lái)學(xué)習(xí)嵌入 [24]新荤、[104]揽趾、[105]。然而苛骨,統(tǒng)一數(shù)據(jù)結(jié)構(gòu)的構(gòu)建依賴于啟發(fā)式實(shí)現(xiàn)篱瞎,KG 的結(jié)構(gòu)信息被丟棄。

知識(shí)監(jiān)督的 KEPTM
為了避免額外的培訓(xùn)成本和工程設(shè)計(jì)痒芝,知識(shí)監(jiān)督的 KEPTM 選擇滿足特定關(guān)系和/或關(guān)系三元組的實(shí)體作為訓(xùn)練數(shù)據(jù) [94]俐筋、[103]。正如我們上面所討論的严衬,預(yù)訓(xùn)練的語(yǔ)言模型是一種統(tǒng)計(jì)模型澄者,通過(guò)共現(xiàn)信號(hào)學(xué)習(xí)實(shí)體之間的關(guān)系。 KEPTMs 通過(guò)在不犧牲效率的情況下將關(guān)系三元組和/或?qū)嶓w與輸入序列連接起來(lái)克服了這個(gè)缺點(diǎn) [106]、[107]粱挡。

基于檢索的 KEPTM
基于檢索的 KEPTM 可以通過(guò)咨詢外部知識(shí)來(lái)更新感知赠幕,而不是注入知識(shí)。他們通常通過(guò)計(jì)算輸入文本和知識(shí) [108]询筏、[109]榕堰、[110] 之間的相關(guān)性從知識(shí)源中檢索所需信息。優(yōu)勢(shì)之一在于主動(dòng)選擇相關(guān)信息嫌套,避免了無(wú)法匹配輸入文本的冗余和歧義知識(shí)的影響逆屡。由于它們不保留模型內(nèi)的知識(shí),因此它們的應(yīng)用受到限制灌危,主要應(yīng)用于問(wèn)答康二。

規(guī)則引導(dǎo)的 KEPTM
大多數(shù) KEPTM 將知識(shí)和語(yǔ)言信息存儲(chǔ)在預(yù)訓(xùn)練模型的參數(shù)中。然而勇蝙,觀察知識(shí)在下游任務(wù)中是如何被利用的并不直觀沫勿。解決它的一種直接方法是保持符號(hào)知識(shí)的原始形式,就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣味混。這種類型的模型由感知系統(tǒng)和推理系統(tǒng)組成产雹,前者由 PTM 組成,后者由規(guī)則 [22]翁锡、[23] 實(shí)現(xiàn)蔓挖。這種模型的一個(gè)主要優(yōu)點(diǎn)是它們使用嚴(yán)格的數(shù)學(xué)公式保證結(jié)果的可靠性,并通過(guò)明確的推理過(guò)程提供可解釋性馆衔。

知識(shí)參數(shù)化程度

PTM 可以以符號(hào)或語(yǔ)義嵌入的形式利用知識(shí)瘟判。為了橋接符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò),前者被投影到一個(gè)密集的低維語(yǔ)義空間中角溃,并由分布式向量表示拷获,徹底的知識(shí)表示學(xué)習(xí)[111]。當(dāng)前的算法主要集中在對(duì) KG 的表示學(xué)習(xí)上减细。使用 GNN 的變體來(lái)捕獲 KG 的結(jié)構(gòu)匆瓜。然而,這種方法在知識(shí)存儲(chǔ)和管理方面也帶來(lái)了挑戰(zhàn)未蝌。一方面驮吱,知識(shí)需要一定數(shù)量的參數(shù)來(lái)存儲(chǔ)。另一方面萧吠,模型在知識(shí)不斷更新的情況下重復(fù)注入知識(shí)是不現(xiàn)實(shí)的左冬,特別是對(duì)于那些通過(guò)預(yù)訓(xùn)練集成知識(shí)的模型。相比之下纸型,一些研究人員保留了符號(hào)知識(shí)的形式并將其用于學(xué)習(xí)管道又碌。根據(jù)知識(shí)參數(shù)化程度九昧,我們將模型分為完全參數(shù)化、部分參數(shù)化和知識(shí)形式不變的 KEPTM毕匀。

完全參數(shù)化的 KEPTM
隨著 GNN 的快速發(fā)展,各種符號(hào)知識(shí)癌别,尤其是 KGs皂岔,可以被有效地編碼。不僅針對(duì)實(shí)體的語(yǔ)義展姐,此類模型還借助 KRL 的優(yōu)越方法捕獲結(jié)構(gòu)信息以支持推理躁垛。通過(guò)將知識(shí)存儲(chǔ)為參數(shù),模型可以具有知識(shí)意識(shí)并適應(yīng)廣泛的場(chǎng)景圾笨。

部分參數(shù)化的 KEPTM
由于 GNN 對(duì) KG 的多步關(guān)系建模的局限性教馆,部分參數(shù)化的融合 KEPTM 只對(duì)部分知識(shí)進(jìn)行編碼,而其余部分保持不變擂达。例如土铺,一些作品 [21]、[112] 對(duì) KG 的實(shí)體進(jìn)行編碼板鬓,但以原始形式保持結(jié)構(gòu)信息悲敷。實(shí)體的表示學(xué)習(xí)負(fù)責(zé)與 PTM 的集成,而 KG 的結(jié)構(gòu)信息負(fù)責(zé)檢索關(guān)聯(lián)的實(shí)體俭令『蟮拢考慮到 KG 中的大量關(guān)系三元組,這對(duì)于獲得盡可能多的相關(guān)實(shí)體來(lái)支持決策特別有效抄腔。

知識(shí)形成不變的 KEPTM
除了出色的性能外瓢湃,研究人員還認(rèn)識(shí)到需要更好地理解 KEPTM 的基本原理『丈撸基于規(guī)則的表示提供了符號(hào)和 PTM 之間的映射機(jī)制绵患。通過(guò)將符號(hào)推理系統(tǒng)集成到學(xué)習(xí)管道中,形成不變的 KEPTM 的知識(shí)調(diào)和了 PTM 的有效感知和符號(hào)表示的推理和可解釋性的優(yōu)勢(shì) [22]棍掐、[23]藏雏。

論文中介紹的分類和相應(yīng)的KEPTM如圖1所示。

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型 概述

在本節(jié)中作煌,我們將詳細(xì)介紹我們?cè)谖墨I(xiàn)調(diào)查中發(fā)現(xiàn)的 KEPTM掘殴。 我們將專注于知識(shí)注入的方法,因此根據(jù)這個(gè)維度組織我們的演示粟誓。 這是由于假設(shè)知識(shí)注入的方法作為核心影響因素奏寨,決定了 PTM 可以集成哪些類型的知識(shí)以及知識(shí)呈現(xiàn)的形式。 按照這個(gè)想法鹰服,我們從應(yīng)用場(chǎng)景病瞳、知識(shí)注入效率揽咕、知識(shí)管理和知識(shí)使用中的可解釋性的角度介紹了現(xiàn)有的 KEPTM。

為了可視化知識(shí)注入方法與知識(shí)類型和知識(shí)參數(shù)化程度之間的關(guān)聯(lián)套菜,我們?yōu)槊糠N類型的 KEPTM 繪制了示意圖亲善。 圖表的線條粗細(xì)表示數(shù)量。

Fearure 融合的 KEPTM

Fearure 融合的 KEPTM 專注于實(shí)體級(jí)別的知識(shí)逗柴,并通過(guò)注入實(shí)體特征和語(yǔ)言表示來(lái)注入知識(shí)蛹头。 他們從 KG 中提取實(shí)體的任務(wù)所需特征,并將它們與預(yù)訓(xùn)練序列一起投射到嵌入中戏溺,這些特征適用于強(qiáng)調(diào)實(shí)體語(yǔ)義的任務(wù)渣蜗,例如情感分析和詞義消歧。

SenseBERT [113]
將詞義信息注入到 BERT 的預(yù)訓(xùn)練信號(hào)中旷祸,增強(qiáng)了詞匯理解能力耕拷,從而解決了 BERT 無(wú)法很好地學(xué)習(xí)受重尾分布影響的稀有詞表示的問(wèn)題。遵循 BERT 架構(gòu)托享,與標(biāo)準(zhǔn) MLM 一起骚烧,SenseBERT 訓(xùn)練了一個(gè)語(yǔ)義級(jí)語(yǔ)言模型來(lái)預(yù)測(cè)缺失的單詞含義。 SenseBERT 將帶有掩碼單詞的序列作為輸入嫌吠,并在將單詞信息及其超義投影到嵌入后將其饋送到 Transformer 塊中止潘。之后,該模型在詞形和詞義任務(wù)中進(jìn)行了預(yù)訓(xùn)練辫诅。在不影響通用語(yǔ)言理解評(píng)估 (GLUE) [114] 的性能的情況下凭戴,SenseBERT 提高了單詞級(jí)別的語(yǔ)義意識(shí),大大優(yōu)于普通 BERT 在 Supersense Disambiguation 任務(wù)中的表現(xiàn)炕矮,并在 Word in Context 任務(wù)中取得了最先進(jìn)的結(jié)果 [115]么夫。

盡管 BERT 已被證明在簡(jiǎn)單的情感分類中是成功的,但將其直接應(yīng)用于細(xì)粒度的情感分析顯示出不太顯著的改進(jìn) [116]肤视。因此档痪,為了更好地解決上述問(wèn)題,SemtiLARE [94] 被提出通過(guò)標(biāo)簽感知 MLM 目標(biāo)為 BERT 注入情感極性及其詞性邢滑。以 RoBERTa 為骨干模型腐螟,SemtiLARE 首先獲取詞性標(biāo)簽,并通過(guò)上下文感知注意機(jī)制從 SentiWordNet 計(jì)算單詞情感極性困后。然后利用兩個(gè)預(yù)訓(xùn)練任務(wù)來(lái)捕捉句子級(jí)語(yǔ)言表示和單詞級(jí)語(yǔ)言知識(shí)之間的關(guān)系乐纸。 SentiLARE 刷新了語(yǔ)言表示模型在句子級(jí)和方面級(jí)情感分析任務(wù)上的最新性能橄维,從而促進(jìn)了情感理解笛坦。

受限于分詞方法来涨,預(yù)訓(xùn)練語(yǔ)言模型的詞匯表中的token通常不是一個(gè)語(yǔ)義單元嫂易,而是它的碎片。因此旦袋,它的跨度特征對(duì)語(yǔ)義學(xué)習(xí)有至關(guān)重要的影響瓷患。 ERNIE 1.0 [101] 采用實(shí)體和短語(yǔ)掩蔽策略來(lái)判斷語(yǔ)義單元的跨度相种,并通過(guò)上下文學(xué)習(xí)它們的嵌入。其改進(jìn)版本 ERNIE 2.0 [102] 引入了不同的預(yù)測(cè)或分類預(yù)訓(xùn)練任務(wù)积仗,以同時(shí)捕獲詞匯疆拘、句法和語(yǔ)義信息。值得注意的是寂曹,ERNIE 2.0 采用持續(xù)的預(yù)訓(xùn)練框架來(lái)實(shí)現(xiàn)增量學(xué)習(xí)入问,這表明多任務(wù)學(xué)習(xí)技術(shù)可能是將多重知識(shí)集成到 PTM 中的解決方案。

當(dāng) PTM 學(xué)習(xí)不同的知識(shí)時(shí)稀颁,災(zāi)難性遺忘是一種普遍現(xiàn)象。為此楣黍,優(yōu)先考慮多任務(wù)學(xué)習(xí)技術(shù)匾灶,將多重知識(shí)整合到預(yù)訓(xùn)練模型中。 PLM 可以從正則化效果中受益租漂,以減輕對(duì)特定任務(wù)的過(guò)度擬合阶女,從而使學(xué)習(xí)到的表示在任務(wù)之間具有通用性。

Embedding Combined KEPTMs

盡管特征融合的 KEPTM 可以學(xué)習(xí)實(shí)體的豐富語(yǔ)義哩治,但僅使用實(shí)體進(jìn)行推理具有挑戰(zhàn)性秃踩。 為了捕獲各種知識(shí),嵌入組合的 KEPTM 預(yù)先通過(guò) KRL 對(duì)其進(jìn)行編碼业筏,并通過(guò)注意力機(jī)制的變體注入相應(yīng)的嵌入憔杨。 它們利用更廣泛的知識(shí),例如實(shí)體蒜胖、語(yǔ)法樹(shù)和 KG消别,并以參數(shù)的形式保存知識(shí)。 在裝備知識(shí)之后台谢,嵌入組合的 KEPTM 被應(yīng)用于一般的自然語(yǔ)言理解寻狂、問(wèn)答和圖像分類任務(wù)。

跨度掩蔽策略流行用于注入實(shí)體的邊界特征朋沮。但是蛇券,它只能為每個(gè)對(duì)齊的令牌嵌入注入一個(gè)實(shí)體,并導(dǎo)致預(yù)訓(xùn)練和微調(diào)之間的不匹配樊拓。為了避免這些問(wèn)題并進(jìn)一步利用跨度內(nèi)的語(yǔ)義纠亚,Li 等人。 [93] 提出了一種多源詞對(duì)齊注意力(MWA)骑脱,將顯式詞信息與預(yù)訓(xùn)練的字符嵌入相結(jié)合菜枷。具體來(lái)說(shuō),他們使用分詞工具將輸入序列劃分為不重疊的跨度叁丧。然后根據(jù)混合池策略[117]計(jì)算跨度對(duì)齊的注意力矩陣啤誊。最后岳瞭,增強(qiáng)的字符表示是由 word-aligned attention 產(chǎn)生的。與之前的模型不同蚊锹,ZEN 使用外部編碼器學(xué)習(xí)實(shí)體表示瞳筏,而不是重新分配實(shí)體的注意力分?jǐn)?shù)以強(qiáng)調(diào)實(shí)體信息。為了學(xué)習(xí)更大的粒度文本牡昆,ZEN 在預(yù)訓(xùn)練期間通過(guò)參加 n-gram 表示來(lái)考慮不同的字符組合姚炕。給定一個(gè)漢字序列,模型提取 n-gram 并用 n-gram 匹配矩陣記錄它們的位置丢烘。然后所有的 n-gram 都由 Transformer 表示并與相關(guān)字符組合柱宦。與采用掩蔽策略注入實(shí)體信息的模型相比,ZEN 和 MWA 可以合并嵌套實(shí)體播瞳,從而顯著提高實(shí)體集成的通用性掸刊,同時(shí)提供很少的訓(xùn)練成本。與上述模型不同赢乓,LUKE [106] 使用額外的詞匯表來(lái)記錄實(shí)體的嵌入忧侧。它將單詞和實(shí)體視為獨(dú)立的標(biāo)記,并使用 Transformer 計(jì)算所有標(biāo)記的表示牌芋。具體來(lái)說(shuō)蚓炬,它使用了大量從維基百科獲得的實(shí)體注釋語(yǔ)料庫(kù)√善ǎ考慮到巨大的成本和計(jì)算效率肯夏,作者計(jì)算實(shí)體嵌入,將它們分解為兩個(gè)小矩陣楼咳。此外熄捍,作者引入了一種實(shí)體感知的自我注意機(jī)制,該機(jī)制在計(jì)算注意分?jǐn)?shù)時(shí)考慮了標(biāo)記的類型母怜。由于實(shí)體被視為令牌余耽,LUKE 直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模,并在知識(shí)驅(qū)動(dòng)的 NLP 任務(wù)中實(shí)現(xiàn)了強(qiáng)大的經(jīng)驗(yàn)性能苹熏。

Boyond 實(shí)體碟贾、語(yǔ)法樹(shù)也可用于增強(qiáng)預(yù)訓(xùn)練的語(yǔ)言模型。句法偏差有助于涉及結(jié)構(gòu)化輸出空間的各種自然語(yǔ)言理解任務(wù)——包括語(yǔ)義角色標(biāo)記和共指解析等任務(wù)轨域。 SyntaxBERT [96] 通過(guò)反映輸入的不同句法關(guān)系的稀疏掩碼矩陣對(duì)句法知識(shí)進(jìn)行建模袱耽,從而通過(guò)句法感知自注意機(jī)制將句法知識(shí)有效地整合到預(yù)訓(xùn)練的 Transformer 中。與啟發(fā)式實(shí)現(xiàn)不同干发,Sachan 等人朱巨。 [98]通過(guò)圖神經(jīng)網(wǎng)絡(luò)對(duì)輸入句子的依賴結(jié)構(gòu)進(jìn)行編碼。由于 BERT 將子詞作為輸入單元而不是語(yǔ)言標(biāo)記枉长,因此該模型通過(guò)定義從標(biāo)記的第一個(gè)子詞到同一標(biāo)記的剩余子詞的新邊冀续,在原始依賴樹(shù)中引入了額外的邊琼讽。

作為最常見(jiàn)的知識(shí),KGs 提供了全面而豐富的實(shí)體和關(guān)系信息洪唐,并提出了不同的表示學(xué)習(xí)算法來(lái)實(shí)現(xiàn)其嵌入钻蹬。 ERNIE [18] 使用知識(shí)表示學(xué)習(xí)算法(例如 TransE)對(duì)實(shí)體和關(guān)系進(jìn)行編碼,并通過(guò)自注意力機(jī)制基于對(duì)齊方式集成實(shí)體表示和令牌嵌入凭需。同樣问欠,KnowBERT [19] 也提前學(xué)習(xí)了 KG 的表示。它沒(méi)有使用現(xiàn)有的對(duì)齊數(shù)據(jù)粒蜈,而是引入了一個(gè)輔助實(shí)體鏈接器來(lái)獲取更多的 KG 實(shí)體顺献。在將 KG 的關(guān)系三元組集成到 BERT 中后,這兩個(gè)模型都展示了在關(guān)系提取枯怖、實(shí)體類型等知識(shí)驅(qū)動(dòng)任務(wù)中回憶事實(shí)的能力有所提高滚澜。然而,他們?cè)?KRL 過(guò)程中將三元組視為一個(gè)獨(dú)立的訓(xùn)練單元嫁怀,忽略了實(shí)體的信息鄰居。 BRET-MK [105] 通過(guò)利用節(jié)點(diǎn)的上下文信息從 KG 中捕獲更豐富的三元組語(yǔ)義借浊。從KG中提取實(shí)體的子圖并轉(zhuǎn)換成一個(gè)序列塘淑,如圖2所示÷旖铮考慮到實(shí)體和關(guān)系的相互影響存捺,關(guān)系也被視為圖節(jié)點(diǎn)。然后將節(jié)點(diǎn)序列送入Transformer曙蒸,進(jìn)一步對(duì)實(shí)體的上下文信息進(jìn)行編碼之后捌治,同樣的知識(shí)

以往,并非所有知識(shí)都在 KEPTM 中發(fā)揮積極作用纽窟。當(dāng) KEPTM 獨(dú)立于文本上下文對(duì)子圖進(jìn)行編碼時(shí)肖油,KG 中的冗余和模棱兩可的知識(shí)將被注入。為了達(dá)到目的臂港,CokeBERT [118] 根據(jù)文本上下文動(dòng)態(tài)選擇上下文知識(shí)并嵌入知識(shí)上下文森枪。

除了 NLP,KG 還為圖像分類提供對(duì)象的特征和它們之間的關(guān)系审孽∠馗ぃ考慮到視覺(jué)概念空間的龐大、復(fù)雜和動(dòng)態(tài)佑力,為每個(gè)概念構(gòu)建大型數(shù)據(jù)集是不可擴(kuò)展的式散。將知識(shí)與基于所學(xué)知識(shí)的推理相結(jié)合成為可能的答案。馬里諾等人打颤。 [25] 引入圖搜索神經(jīng)網(wǎng)絡(luò)將大型知識(shí)圖合并到視覺(jué)分類管道中暴拄,其中特征向量由 VGG-16 [8] 和 Faster R-CNN [7] 確定漓滔。考慮到 KG 的大量節(jié)點(diǎn)揍移,它根據(jù)我們的輸入從一些初始節(jié)點(diǎn)開(kāi)始次和,只選擇對(duì)最終輸出有用的節(jié)點(diǎn)作為訓(xùn)練數(shù)據(jù)。該圖通過(guò)傳播已知節(jié)點(diǎn)的屬性和關(guān)系成功地對(duì)屬于長(zhǎng)尾分布的類別進(jìn)行分類那伐。王等人踏施。 [119] 進(jìn)一步推進(jìn)了對(duì)圖像分類任務(wù)的少量樣本學(xué)習(xí)的研究。他們提出了一種通過(guò)使用 GCN 對(duì)描述對(duì)象類別的 KG 進(jìn)行編碼來(lái)實(shí)現(xiàn)零樣本對(duì)象識(shí)別的方法罕邀,該方法將從熟悉的類中獲得的知識(shí)轉(zhuǎn)移到描述不熟悉的類中畅形。具體來(lái)說(shuō),GCN 將輸入作為用 GLoVE [41] 編碼的類別的語(yǔ)義嵌入诉探,并根據(jù) VGGM [120] 提供的特征預(yù)測(cè)視覺(jué)分類器日熬。然后學(xué)習(xí)到的視覺(jué)分類器識(shí)別出它以前從未見(jiàn)過(guò)的類別。在外部知識(shí)的幫助下肾胯,它將識(shí)別算法推廣到現(xiàn)實(shí)的開(kāi)放世界竖席。

總之,大多數(shù)實(shí)體組合的 KEPTM 必須經(jīng)歷兩個(gè)階段來(lái)整合知識(shí):知識(shí)表示學(xué)習(xí)和對(duì)齊敬肚。但是毕荐,標(biāo)記和實(shí)體的對(duì)齊方式存在一些錯(cuò)誤。因此艳馒,賦予 KEPTM 識(shí)別和糾正對(duì)齊過(guò)程中的錯(cuò)誤至關(guān)重要憎亚。例如,要求 ERNIE 根據(jù)錯(cuò)誤的對(duì)齊方式預(yù)測(cè)正確的實(shí)體 10

特意介紹的弄慰。值得注意的是第美,傳統(tǒng)的知識(shí)表示學(xué)習(xí)方法獨(dú)立處理三元組,因此無(wú)法涵蓋三元組周圍的局部鄰域中固有的復(fù)雜信息陆爽。與之相比什往,GNN 更適合對(duì)結(jié)構(gòu)知識(shí)進(jìn)行編碼。本節(jié)我們介紹的知識(shí)注入方法適用于知識(shí)的大部分粒度慌闭。此外恶守,嵌入組合的 KEPTM 是知識(shí)感知模型,通過(guò)將知識(shí)作為參數(shù)存儲(chǔ)在模型中贡必,適用于不同的應(yīng)用場(chǎng)景兔港。它的缺點(diǎn)是需要額外的計(jì)算開(kāi)銷來(lái)學(xué)習(xí)知識(shí)的表示和整合異構(gòu)知識(shí)。此外仔拟,這種知識(shí)注入方法難以確保模型獲得特定知識(shí)衫樊,并阻止我們從模型中顯式更新或刪除知識(shí)。一旦刷新了關(guān)鍵信息,就需要重新訓(xùn)練嵌入組合的 KEPTM 以保持知識(shí)的正確性科侈,從而導(dǎo)致知識(shí)管理效率低下载佳。適配器模塊可能是減輕知識(shí)更新負(fù)擔(dān)的有前途的解決方案。它可以以少量可訓(xùn)練參數(shù)為代價(jià)保存每個(gè)適配器中的各種知識(shí)臀栈,并且可以添加新知識(shí)而無(wú)需重新訪問(wèn)以前的知識(shí)蔫慧。原始 PTM 的參數(shù)保持固定,產(chǎn)生高度的參數(shù)共享权薯。

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM

為了適應(yīng)文本和 KG 的不同結(jié)構(gòu)姑躲,數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將序列和知識(shí)轉(zhuǎn)換為統(tǒng)一的結(jié)構(gòu),并使用相同的編碼器對(duì)嵌入進(jìn)行編碼盟蚣,以避免異構(gòu)向量空間黍析。 這類模型主要通過(guò) KG 增強(qiáng) PTM,并通過(guò)學(xué)習(xí)相應(yīng)的參數(shù)來(lái)獲取知識(shí)屎开。

K-BERT [24] 通過(guò)構(gòu)建知識(shí)豐富的句子樹(shù)將序列與相關(guān)三元組連接起來(lái)阐枣,實(shí)現(xiàn)知識(shí)注入。 具體來(lái)說(shuō)奄抽,選擇句子中涉及的所有實(shí)體mention蔼两,在KGs中查詢相應(yīng)的三元組,然后K-BERT將三元組拼接到相應(yīng)的位置逞度,生成如圖3所示的句子樹(shù)宪哩。

在不考慮結(jié)構(gòu)不一致的情況下,KBERT 通過(guò)對(duì)下游任務(wù)的微調(diào)來(lái)注入實(shí)體的關(guān)聯(lián)信息第晰,并在特定領(lǐng)域任務(wù)中實(shí)現(xiàn) 1-2% 的 F 1 增益。值得一提的是彬祖,使用 CN-DBpedia [121] 微調(diào)的 K-BERT 在問(wèn)答和命名實(shí)體識(shí)別方面的表現(xiàn)優(yōu)于知網(wǎng) [122]茁瘦,而后者在語(yǔ)義相似性任務(wù)中得到了進(jìn)一步的改進(jìn),這表明了適合不同場(chǎng)景的KG储笑。雖然 K-BERT 通過(guò)統(tǒng)一數(shù)據(jù)結(jié)構(gòu)注入了三元組和序列甜熔,但它把關(guān)系三元組視為獨(dú)立的單元,忽略了它們之間的關(guān)聯(lián)突倍。為此腔稀,CoLAKE [104] 構(gòu)建了一個(gè)詞-知識(shí)圖,并通過(guò)預(yù)訓(xùn)練任務(wù)整合了上下文三元組羽历。單詞知識(shí)圖是通過(guò)將由序列轉(zhuǎn)換的全連接圖中的提及替換為對(duì)齊的實(shí)體來(lái)構(gòu)建的焊虏。

然而,上述統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)依賴于啟發(fā)式實(shí)現(xiàn)秕磷,一些研究人員提出了一種更通用的方法诵闭。關(guān)等人。 [123] 和 COMET [124] 通過(guò)特定模板將 KG 的關(guān)系三元組轉(zhuǎn)換為有意義的序列,并將它們輸入 PTM 的編碼器疏尿。為了用常識(shí)知識(shí)生成合理的故事瘟芝,Guan 等人。 [123] 使用基于模板的方法 [125] 將 ConceptNet 和 ATOMIC 中的常識(shí)三元組轉(zhuǎn)換為可讀的自然語(yǔ)言句子褥琐,并通過(guò) LM 目標(biāo)對(duì)這些句子進(jìn)行后期訓(xùn)練锌俱。

值得注意的是,丹尼爾等人敌呈。 [126] 發(fā)現(xiàn)由預(yù)訓(xùn)練語(yǔ)言模型生成的實(shí)體表示在歸納鏈接預(yù)測(cè)贸宏、實(shí)體分類和信息檢索任務(wù)中表現(xiàn)出很強(qiáng)的泛化性。例如驱富,通過(guò)從深度預(yù)訓(xùn)練的語(yǔ)言模型中轉(zhuǎn)移隱性知識(shí)锚赤,COMET 學(xué)習(xí)生成與其主題和關(guān)系一致的新對(duì)象,并實(shí)現(xiàn)常識(shí)知識(shí)庫(kù)的自動(dòng)構(gòu)建褐鸥。原因在于學(xué)習(xí)的表示同時(shí)捕獲了上下文信息和知識(shí)线脚。盡管數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 無(wú)需額外的工程就可以注入知識(shí),但它們主要關(guān)注 KG叫榕,為了在統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)上讓步而丟棄了 KG 的結(jié)構(gòu)信息浑侥。

監(jiān)督的目標(biāo)包括實(shí)體和關(guān)系三元組。例如晰绎,T5+SSM [95] 經(jīng)過(guò)預(yù)訓(xùn)練寓落,可以重建 BERT 從維基百科挖掘的命名實(shí)體和日期,并在開(kāi)放域問(wèn)答基準(zhǔn)上獲得有競(jìng)爭(zhēng)力的結(jié)果荞下。一些模型伶选,如 WKLM [127]、LIBERT [128] 和 GLM [129]尖昏,不使用獨(dú)立實(shí)體仰税,而是選擇存在特定實(shí)體 11

來(lái)自 KG 的關(guān)系作為輸入數(shù)據(jù)來(lái)指導(dǎo)模型捕獲它。為了直接從非結(jié)構(gòu)化文本中獲取真實(shí)世界的知識(shí)抽诉,WKLM 設(shè)計(jì)了弱監(jiān)督實(shí)體替換檢測(cè)訓(xùn)練目標(biāo)來(lái)強(qiáng)制模型學(xué)習(xí)實(shí)體之間的關(guān)系陨簇。與 MLM 目標(biāo)相比,實(shí)體替換任務(wù)引入了更強(qiáng)的實(shí)體級(jí)負(fù)信號(hào)迹淌,并保留了原句的語(yǔ)言正確性河绽。 LIEBRT [128] 沒(méi)有使用單個(gè)實(shí)體,而是將滿足語(yǔ)義相似性約束的實(shí)體對(duì)作為訓(xùn)練實(shí)例唉窃,以使 BERT 能夠理解詞匯-語(yǔ)義關(guān)系耙饰。不限于特定關(guān)系,GLM [129] 驅(qū)動(dòng)預(yù)訓(xùn)練模型通過(guò) KG 的指導(dǎo)來(lái)捕獲相關(guān)實(shí)體之間原始文本的隱含關(guān)系纹份。正如我們上面所討論的榔幸,由預(yù)先訓(xùn)練的語(yǔ)言模型生成的實(shí)體表示在鏈接預(yù)測(cè)中表現(xiàn)出很強(qiáng)的泛化性。為此,KEPLER [103] 將參數(shù)與知識(shí)和 MLM 目標(biāo)聯(lián)合優(yōu)化削咆,以獲得適用于 KG 相關(guān)和自然語(yǔ)言理解任務(wù)的表示牍疏。核心步驟是 KEPLER 使用 RoBERTa 的文本描述而不是 KRL 來(lái)初始化知識(shí)嵌入。與 KEPLER 類似拨齐,KADAPTER [130] 也通過(guò)共同學(xué)習(xí)知識(shí)和語(yǔ)言信息來(lái)更新參數(shù)鳞陨。不同之處在于,K-ADAPTER 設(shè)計(jì)了一個(gè)適配器來(lái)存儲(chǔ)每種注入的知識(shí)瞻惋,以保持預(yù)訓(xùn)練模型的原始參數(shù)固定并隔離不同知識(shí)的交互厦滤,從而解決災(zāi)難性遺忘的問(wèn)題。

到目前為止歼狼,上述模型專注于利用編碼器的能力來(lái)捕獲給定實(shí)體的隱式關(guān)系掏导。然而,復(fù)雜的推理需要直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模羽峰。實(shí)體可以通過(guò)維基百科超鏈接輕松標(biāo)注趟咆,并與KG中的實(shí)體對(duì)齊,作為知識(shí)注入的載體梅屉。然而值纱,由于表達(dá)形式的多樣性,這并不適用于這種關(guān)系坯汤。為了直接建模實(shí)體之間的關(guān)系虐唠,ERICA [107] 將輸入序列與知識(shí)圖譜的關(guān)系連接起來(lái),并通過(guò)判別預(yù)訓(xùn)練任務(wù)對(duì)實(shí)體之間的關(guān)系進(jìn)行建模惰聂。具體來(lái)說(shuō)疆偿,采用實(shí)體判別任務(wù)和關(guān)系判別任務(wù)。給定頭部實(shí)體和關(guān)系搓幌,前者旨在推斷尾部實(shí)體杆故。后者旨在區(qū)分兩個(gè)關(guān)系在語(yǔ)義上是否接近。為了賦予句法解析的能力鼻种,LIMIT-BERT [97] 通過(guò)語(yǔ)言監(jiān)督掩碼策略學(xué)習(xí)語(yǔ)言表示。給定句子沙热,它的句法或語(yǔ)義成分由預(yù)先訓(xùn)練的語(yǔ)言學(xué)模型預(yù)測(cè)叉钥,從而確定掩蔽跨度。為了解決 [mask] 令牌引起的不匹配問(wèn)題篙贸,LIMIT-BERT 采用生成器和判別器作為編碼器投队,如 ELECTRA [131],并使用掩碼令牌預(yù)測(cè)和替換令牌檢測(cè)任務(wù)來(lái)訓(xùn)練模型爵川。 SKEP [132] 為多個(gè)情緒分析任務(wù)提供統(tǒng)一的情緒表示敷鸦。借助自動(dòng)挖掘的情感知識(shí),它將單詞、極性和方面級(jí)別的情感信息嵌入到情感知識(shí)預(yù)測(cè)目標(biāo)的表示中扒披。

除了預(yù)訓(xùn)練的語(yǔ)言模型值依,知識(shí)圖譜還可以被視為 CV 和交叉語(yǔ)言中的監(jiān)督信號(hào)。

模態(tài)場(chǎng)碟案。 [100] 定義了一個(gè)基于條件隨機(jī)場(chǎng) (CRF) [133] 的分類模型愿险,其中所有標(biāo)簽都是根據(jù)先驗(yàn)知識(shí)分配的。具體來(lái)說(shuō)价说,它首先定義了一個(gè)對(duì)層次結(jié)構(gòu)和排除關(guān)系進(jìn)行編碼的特定圖辆亏。然后分類分?jǐn)?shù)由 CRF 基于 CNN 導(dǎo)出的圖形和特征計(jì)算”钅浚總之扮叨,它通過(guò)利用任意兩個(gè)標(biāo)簽之間的語(yǔ)義關(guān)系來(lái)推廣圖像多類分類框架。盡管在 CV 的經(jīng)典任務(wù)中取得了成就领迈,但預(yù)訓(xùn)練的 CV 模型無(wú)法僅通過(guò)圖片來(lái)理解對(duì)象之間的語(yǔ)義彻磁。 ERNIEViL [134] 基于從文本中解析的場(chǎng)景圖,實(shí)現(xiàn)了視覺(jué)和語(yǔ)言之間的詳細(xì)語(yǔ)義對(duì)齊惦费。作為基本因素兵迅,場(chǎng)景圖為跨模態(tài)模型提供了細(xì)粒度的語(yǔ)義信息,例如作為掩蔽目標(biāo)的對(duì)象薪贫、屬性和對(duì)象之間的關(guān)系恍箭。借助這些監(jiān)督數(shù)據(jù),ERNIEViL 在預(yù)訓(xùn)練期間通過(guò)預(yù)測(cè)場(chǎng)景圖中不同類型的節(jié)點(diǎn)來(lái)學(xué)習(xí)聯(lián)合表示瞧省。

知識(shí)監(jiān)督 KEPTM 的主要好處是無(wú)需額外的網(wǎng)絡(luò)架構(gòu)即可輕松實(shí)現(xiàn)扯夭。此外,可以通過(guò)在預(yù)訓(xùn)練或微調(diào)期間確定預(yù)測(cè)目標(biāo)來(lái)靈活地注入知識(shí)鞍匾。例如交洗,SKEP 通過(guò)將情感詞作為掩蔽目標(biāo)來(lái)實(shí)現(xiàn)有希望的各種情感任務(wù)。這是因?yàn)榍楦蟹治鲋饕蕾囉谇楦性~和詞極性橡淑,而不是整個(gè)文本构拳。知識(shí)注入方法的另一個(gè)優(yōu)點(diǎn)是它可以利用對(duì)比學(xué)習(xí)技術(shù)來(lái)提高集成的有效性。對(duì)比學(xué)習(xí)最近在 NLP 和 CV 領(lǐng)域取得了最先進(jìn)的性能梁棠,通過(guò)區(qū)分方差提高了模型的魯棒性置森。 KG 可以提供特定的關(guān)系,例如反義詞和同義詞符糊,適合作為比較學(xué)習(xí)的訓(xùn)練數(shù)據(jù)凫海。例如,ERICA 通過(guò)利用實(shí)體和關(guān)系區(qū)分來(lái)更好地捕獲文本中的關(guān)系事實(shí)男娄。

Retrieval-based KEPTMs
基于檢索的 KEPTM 不融合知識(shí)本身行贪,而是學(xué)習(xí)檢索漾稀、選擇和編碼知識(shí)的能力。 它側(cè)重于從外部資源中提取所需的知識(shí)建瘫,以滿足單個(gè)場(chǎng)景的需求崭捍,只需要很少的培訓(xùn)開(kāi)銷。 至關(guān)重要的是暖混,由于不需要存儲(chǔ)大量知識(shí)缕贡,因此此類模型可以在面對(duì)知識(shí)的頻繁變化時(shí)更高效、更方便地進(jìn)行更新拣播。
例如晾咪,參考關(guān)鍵信息來(lái)判斷而不是存儲(chǔ)所有可能相關(guān)的知識(shí)用于問(wèn)答和生成任務(wù)會(huì)更有效。 12

KT-NET [135] 采用注意力機(jī)制從 KG 中自適應(yīng)地選擇所需知識(shí)贮配,然后融合所選知識(shí)以實(shí)現(xiàn)機(jī)器閱讀理解的知識(shí)和上下文感知預(yù)測(cè)谍倦。它通過(guò) KRL [75] 對(duì) KG 進(jìn)行編碼,并通過(guò)微調(diào)學(xué)習(xí)從 WordNet 和 NELL [136] 中檢索潛在相關(guān)實(shí)體泪勒。為了提供事實(shí)知識(shí)昼蛀,KGLM [137] 被構(gòu)建為從本地 KG 中呈現(xiàn)信息,該本地 KG 通過(guò)根據(jù)來(lái)自外部 KG 的上下文選擇和復(fù)制事實(shí)來(lái)動(dòng)態(tài)構(gòu)建圆存。

我們上面介紹的模型使用丟棄結(jié)構(gòu)信息的傳統(tǒng) KRL 方法對(duì) KG 進(jìn)行編碼叼旋。為了解決這個(gè)問(wèn)題,GNN 的各種變體被用來(lái)更好地建模 KG 的拓?fù)浣Y(jié)構(gòu)沦辙。呂等人夫植。 [20] 設(shè)計(jì)了一個(gè)基于圖的模型,從檢索到的句子中提取關(guān)系三元組并為其構(gòu)建自定義圖油讯。對(duì)于自定義圖详民,該模型采用圖卷積網(wǎng)絡(luò)(GCN)將鄰居信息編碼為節(jié)點(diǎn)的表示,并通過(guò)圖注意力機(jī)制聚合證據(jù)以預(yù)測(cè)最終答案陌兑。

除了問(wèn)答沈跨,KG 在生成任務(wù)上也大放異彩。為了賦予 GPT-2 推理能力兔综,GRF [138] 引入了 ConceptNet 作為外部參考饿凛,并根據(jù)之前的上下文和知識(shí)圖譜生成一個(gè)結(jié)尾。該模型的核心在于動(dòng)態(tài)推理模塊软驰,該模塊計(jì)算三元組和令牌嵌入之間的相關(guān)性以獲得生成的單詞涧窒。沒(méi)有上下文,劉等人碌宴。 [139] 提出了僅通過(guò)一組概念生成合理句子的 KG-BART杀狡。它首先通過(guò)考慮概念推理圖結(jié)構(gòu)來(lái)豐富令牌表示蒙畴。之后贰镣,該模型捕獲了由概念擴(kuò)展圖提供的概念內(nèi)和概念間的內(nèi)在相關(guān)性呜象。該模型通過(guò)混合 KG 和文本信息,即使在看不見(jiàn)的概念集中也可以生成高質(zhì)量的句子碑隆。作為結(jié)構(gòu)化知識(shí)的補(bǔ)充恭陡,純文本可以提供豐富且高覆蓋率的證據(jù)。 RAG [110] 通過(guò)基于預(yù)先訓(xùn)練的 seq2seq 模型檢索跨外部文本的相關(guān)跨度來(lái)生成答案上煤。給定一個(gè)查詢休玩,RAG 使用輸入序列來(lái)檢索前 K 個(gè)相關(guān)文本,并在這些潛在文檔和輸入上生成輸出條件劫狠。類似地拴疤,REALM [109] 通過(guò)從大型語(yǔ)料庫(kù)中檢索和處理文檔來(lái)增強(qiáng)語(yǔ)言模型,但是以更加模塊化和可解釋的方式独泞。具體來(lái)說(shuō)呐矾,它由兩個(gè)關(guān)鍵組件組成:使用 BERT 框架實(shí)現(xiàn)的神經(jīng)知識(shí)檢索器,對(duì)輸入數(shù)據(jù)進(jìn)行編碼并檢索可能有用的文檔懦砂,以及使用 Transformer 實(shí)現(xiàn)的知識(shí)增強(qiáng)編碼器蜒犯,用于在文檔中注入實(shí)體并預(yù)測(cè)單詞用于問(wèn)答。 TEK [108] 與檢索到的百科知識(shí)一起學(xué)習(xí)輸入文本的表示荞膘,以捕獲和保存與稀有實(shí)體相關(guān)的事實(shí)知識(shí)罚随。給定查詢和上下文,TEK 從多個(gè)文檔中檢索相關(guān)句子列表以補(bǔ)充輸入羽资,然后對(duì)輸入進(jìn)行 Transformer 編碼器操作淘菩。考慮到預(yù)訓(xùn)練過(guò)程中看到的輸入類型與推理過(guò)程中的類型不匹配削罩,研究人員對(duì)背景知識(shí)增強(qiáng)的輸入文本進(jìn)行了自我監(jiān)督的預(yù)訓(xùn)練瞄勾。
除了有效利用知識(shí)外,基于檢索的模型的另一個(gè)優(yōu)勢(shì)在于知識(shí)使用的可解釋性弥激。 FaE[112]設(shè)計(jì)了一個(gè)基于神經(jīng)語(yǔ)言模型的顯式接口进陡,將符號(hào)可解釋的事實(shí)信息和語(yǔ)言表示連接起來(lái),實(shí)現(xiàn)對(duì)知識(shí)的檢查和解釋微服。由于知識(shí)表示和語(yǔ)言表示的解耦趾疚,F(xiàn)aE 可以通過(guò)僅修改非參數(shù)三元組來(lái)改變語(yǔ)言模型的輸出,而無(wú)需任何額外的訓(xùn)練以蕴。

盡管應(yīng)用場(chǎng)景有限糙麦,但這種方法允許靈活地根據(jù)需要對(duì)知識(shí)進(jìn)行編碼。更重要的是丛肮,它可以在保留符號(hào)知識(shí)的情況下檢查知識(shí)的使用情況赡磅,從而增加可解釋性。例如宝与,F(xiàn)aE 使用外部存儲(chǔ)器來(lái)保存事實(shí)知識(shí)并通過(guò)整合不同的知識(shí)來(lái)觀察相應(yīng)的預(yù)測(cè)焚廊。然而冶匹,基于檢索的 KEPTM 依賴于標(biāo)記數(shù)據(jù)來(lái)獲得通過(guò)微調(diào)的檢索能力∨匚粒基于提示的模型從 PTM 中檢索所需的知識(shí)嚼隘,以通過(guò)少量樣本處理下游任務(wù)。盡管發(fā)展迅速袒餐,但考慮到缺乏關(guān)鍵知識(shí)飞蛹,很難檢索模型所需的所有知識(shí)。在快速學(xué)習(xí)期間利用符號(hào)知識(shí)可以減輕參數(shù)學(xué)習(xí)的負(fù)擔(dān)灸眼。例如卧檐,PTR [140] 設(shè)計(jì)了一個(gè)由嵌入和實(shí)體組成的提示來(lái)實(shí)現(xiàn)高效的學(xué)習(xí)⊙嫘快速學(xué)習(xí)與知識(shí)相結(jié)合泄隔,調(diào)和了少數(shù)樣本的學(xué)習(xí)和檢索能力。

規(guī)則引導(dǎo)的 KEPTM

如上所述宛徊,面向符號(hào)知識(shí)的表示學(xué)習(xí)佛嬉,如 KG,是連接符號(hào)知識(shí)和預(yù)訓(xùn)練模型的解決方案闸天。 相比之下暖呕,一個(gè)突出的研究方向是將 PTM 學(xué)習(xí)到的表示轉(zhuǎn)化為概念,然后用符號(hào)知識(shí)進(jìn)行推理苞氮,保持對(duì) PTM 的有效學(xué)習(xí)和符號(hào)知識(shí)的可解釋性和問(wèn)責(zé)性湾揽,就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣。 規(guī)則引導(dǎo)的 KEPTM 主要關(guān)注基于規(guī)則的推理階段笼吟。 這些模型中的知識(shí)以符號(hào)形式表示并以模塊化方式集成库物,而感知?jiǎng)t由 PTM 實(shí)現(xiàn)。 它們的基本特征允許穩(wěn)健學(xué)習(xí)和有效推理的原則組合贷帮,以及符號(hào)系統(tǒng)提供的可解釋性戚揭。Gangopadhyay 等人。 [22] 提出了深度學(xué)習(xí)和符號(hào)推理的結(jié)構(gòu)化組合撵枢,用于解決模糊圖像分類民晒。一種半詞匯語(yǔ)言,包括規(guī)則和字母表锄禽,是預(yù)先定義好的潜必。然后半詞匯標(biāo)記的字符串被 SimpleNet [141] 識(shí)別為字母表的一個(gè)元素。最后沃但,通過(guò)規(guī)則來(lái)決定那些模棱兩可的標(biāo)記磁滚,這提供了一個(gè)基于領(lǐng)域知識(shí)的推理框架來(lái)解釋復(fù)雜的場(chǎng)景。然而宵晚,上述模型 13

依賴于任務(wù)相關(guān)領(lǐng)域特定語(yǔ)言的啟發(fā)式實(shí)現(xiàn)垂攘。相比之下辈毯,Amizadeh 等人。 [23] 為視覺(jué)問(wèn)答提出了一種更通用的數(shù)學(xué)形式搜贤,它從一階邏輯概率派生。與計(jì)算機(jī)視覺(jué)的傳統(tǒng)任務(wù)相比钝凶,視覺(jué)問(wèn)答需要推理和關(guān)于圖像主題的特定知識(shí)仪芒,因此是一個(gè)明顯更復(fù)雜的問(wèn)題。提示調(diào)整 [142] 已被廣泛用于分類任務(wù)耕陷。然而掂名,手動(dòng)設(shè)計(jì)語(yǔ)言提示是錯(cuò)誤的,而那些自動(dòng)生成的提示要驗(yàn)證它們的有效性是很耗時(shí)的哟沫。為此饺蔑,PTR [140] 應(yīng)用邏輯規(guī)則來(lái)構(gòu)造帶有多個(gè)子提示的提示以進(jìn)行權(quán)衡。它使用 PTM 確定主題和對(duì)象實(shí)體類型嗜诀,并使用邏輯規(guī)則聚合子提示以處理許多類分類任務(wù)猾警。該模型將問(wèn)題轉(zhuǎn)化為一階邏輯公式,并通過(guò)函數(shù)程序進(jìn)行推理隆敢,以保證正確的推理過(guò)程发皿,而圖像的檢測(cè)則使用 Faster-RCNN 實(shí)現(xiàn)

[7]。

除了一階邏輯拂蝎,一些模型 [21]穴墅、[99] 還采用 KGs 來(lái)實(shí)現(xiàn)推理。他們將查詢圖像的概念與 KG 中的適當(dāng)信息聯(lián)系起來(lái)温自,以構(gòu)建局部圖并推理隨后的正確答案玄货。本體將知識(shí)組織為邏輯語(yǔ)義表達(dá),從而實(shí)現(xiàn)不同場(chǎng)景之間的共享和語(yǔ)義可解釋性悼泌。

[143] 引入了域本體松捉,并使用 Mask R-CNN [32] 對(duì)它提供的對(duì)象和關(guān)系進(jìn)行分類,以識(shí)別建筑工地的潛在危險(xiǎn)馆里。在感知 PTM 之后惩坑,提取的信息存儲(chǔ)在 Neo4j 中,用于推理和查詢也拜。這些方法保留了符號(hào)知識(shí)的結(jié)構(gòu)以舒,從而實(shí)現(xiàn)了從概念層面的語(yǔ)義推理和檢索。

這些模型的主要好處是它的可組合性慢哈,它涉及表示和推理過(guò)程蔓钟,這引入了 KEPTM 工作原理的可解釋性。盡管有一些方法可以探索 PTM 的可解釋性卵贱,但它們側(cè)重于所學(xué)到的知識(shí)并依賴于瑣碎的探索技巧滥沫。相比之下侣集,這種類型的模型通過(guò)指示模型如何得出答案來(lái)實(shí)現(xiàn)對(duì)知識(shí)使用的檢查和解釋。

我們?cè)诒?1 和表 2 中詳細(xì)說(shuō)明了所有引入的 KEPTM兰绣。

結(jié)論和未來(lái)方向

我們從知識(shí)的粒度世分、知識(shí)注入的方法、知識(shí)參數(shù)化的程度三個(gè)角度分析比較了現(xiàn)有的KEPTMs缀辩,并從第二個(gè)維度進(jìn)行了詳細(xì)討論臭埋。

大多數(shù) KEPTM 在預(yù)訓(xùn)練期間混合知識(shí),而少數(shù)在微調(diào)期間這樣做臀玄。然而滨砍,與微調(diào)相比它褪,預(yù)訓(xùn)練期間的集成成本要高得多童漩。此外火惊,使用 PTM 選擇一致的預(yù)訓(xùn)練范式可以緩解集成困難。例如累贤,通過(guò)在生成預(yù)訓(xùn)練中屏蔽掉包含某些類型知識(shí)的單詞叠穆,模型

可以更善于記憶和完成這些知識(shí)。

特征融合的 KEPTM 利用實(shí)體信息而不引入額外的網(wǎng)絡(luò)和計(jì)算開(kāi)銷臼膏,實(shí)現(xiàn)簡(jiǎn)單痹束,適用于需要細(xì)粒度實(shí)體特征的任務(wù)。盡管付出了更多努力讶请,但嵌入組合的 KEPTM 可以同時(shí)存儲(chǔ)實(shí)體和關(guān)系信息祷嘶,并泛化知識(shí)驅(qū)動(dòng)的任務(wù),如實(shí)體分類夺溢、關(guān)系提取和知識(shí)完成论巍。知識(shí)監(jiān)督的 KEPTM 以最少的工作實(shí)現(xiàn)知識(shí)注入,這是通過(guò)設(shè)計(jì)適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)來(lái)實(shí)現(xiàn)的风响〖翁基于檢索和規(guī)則引導(dǎo)的 KEPTM 幫助我們了解預(yù)訓(xùn)練模型如何利用知識(shí)來(lái)完成下游任務(wù),并為更好地使用和進(jìn)一步改進(jìn)提供指南状勤。

盡管 KEPTM 已經(jīng)證明了它們?cè)诟鞣N NLP 和 CV 任務(wù)中的強(qiáng)大能力鞋怀,但由于知識(shí)和語(yǔ)言的復(fù)雜性以及不同模態(tài)的交互,挑戰(zhàn)仍然存在持搜。我們建議遵循 KEPTM 的未來(lái)方向密似。

(1) 我們介紹的大多數(shù) KEPTM 都側(cè)重于注入事實(shí)或概念知識(shí)。還有其他類型的知識(shí)值得考慮葫盼。例如残腌,程序和元認(rèn)知知識(shí)在開(kāi)放世界的推理和判斷中也發(fā)揮著重要作用。因此,一個(gè)更有吸引力的方向是探索上述兩類知識(shí)的利用抛猫。

(2) 基于語(yǔ)義網(wǎng)絡(luò)表示蟆盹,關(guān)系三元組已成為最流行的知識(shí)組織形式。然而闺金,正如我們所討論的逾滥,由于原始訓(xùn)練數(shù)據(jù)和外部知識(shí)的表示方法不同而導(dǎo)致的異構(gòu)注入還需要做更多的工作。除了語(yǔ)義網(wǎng)絡(luò)表示之外败匹,還有許多知識(shí)表示方法以不同的形式呈現(xiàn)知識(shí)的屬性寨昙。因此,為不同的知識(shí)搜索更一般的知識(shí)表示是有希望的哎壳。

(3) 盡管基于檢索和規(guī)則引導(dǎo)的 KEPTM 使決策過(guò)程透明化,但它們是為特定應(yīng)用而設(shè)計(jì)的尚卫。在不破壞符號(hào)知識(shí)檢查的情況下設(shè)計(jì)具有通用目的的 KEPTM 將顯著提高可解釋性归榕。

(4)現(xiàn)有的KEPTMs幾乎沒(méi)有考慮知識(shí)的存儲(chǔ)和更新。在知識(shí)瞬息萬(wàn)變的環(huán)境中吱涉,將知識(shí)存儲(chǔ)在更小的空間中并有效地更新它是切實(shí)可行的刹泄。基于適配器的方法為我們樹(shù)立了寶貴的榜樣怎爵。設(shè)計(jì)一種以即插即用方式利用知識(shí)的方法至關(guān)重要特石。

(5) 基于文本和圖像的多模態(tài)模型通過(guò)學(xué)習(xí)圖像-文本表示來(lái)捕獲圖像和相關(guān)文本中的豐富語(yǔ)義,并已應(yīng)用于字幕鳖链、視覺(jué)問(wèn)答和視覺(jué)推理任務(wù)姆蘸。然而,學(xué)習(xí)到的圖像特征無(wú)法捕捉到圖像中描述的詳細(xì)語(yǔ)義芙委。此外逞敷,多模態(tài)模型的預(yù)訓(xùn)練通常依賴于文本數(shù)據(jù)和圖像數(shù)據(jù)之間存在強(qiáng)相關(guān)性的假設(shè)。需要探索對(duì)多模態(tài)模型的組織良好的知識(shí)的利用灌侣,以打破這種假設(shè)的限制并提供豐富的圖像語(yǔ)義推捐。

(6) 知識(shí)的提取通常采用多步處理。但是侧啼,誤差會(huì)在此過(guò)程中傳播牛柒,從而導(dǎo)致模型性能下降。因此痊乾,整合從原始數(shù)據(jù)中挖掘出來(lái)的知識(shí)皮壁,避免造成信息丟失是一個(gè)有價(jià)值的方向。

(7) 盡管在蘊(yùn)涵任務(wù)上表現(xiàn)出色哪审,但預(yù)訓(xùn)練的語(yǔ)言模型無(wú)法執(zhí)行溯因推理[144]闪彼。以前的工作主要集中在形式邏輯過(guò)于僵化而無(wú)法概括為復(fù)雜的自然語(yǔ)言。將形式邏輯與預(yù)先訓(xùn)練的語(yǔ)言模型相結(jié)合,為未來(lái)的研究提供了一條有希望的途徑畏腕。

(8) 預(yù)訓(xùn)練的語(yǔ)言模型難以控制生成內(nèi)容的屬性或主題缴川,尤其是結(jié)構(gòu)良好的內(nèi)容。以知識(shí)的形式表達(dá)某些文體的結(jié)構(gòu)并以此指導(dǎo)文本的生成是值得探索的描馅。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末把夸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子铭污,更是在濱河造成了極大的恐慌恋日,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘹狞,死亡現(xiàn)場(chǎng)離奇詭異岂膳,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)磅网,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)谈截,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人涧偷,你說(shuō)我怎么就攤上這事簸喂。” “怎么了燎潮?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵喻鳄,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我确封,道長(zhǎng)除呵,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任爪喘,我火速辦了婚禮竿奏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘腥放。我一直安慰自己泛啸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布秃症。 她就那樣靜靜地躺著候址,像睡著了一般。 火紅的嫁衣襯著肌膚如雪种柑。 梳的紋絲不亂的頭發(fā)上岗仑,一...
    開(kāi)封第一講書(shū)人閱讀 51,698評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音聚请,去河邊找鬼荠雕。 笑死稳其,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的炸卑。 我是一名探鬼主播既鞠,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼盖文!你這毒婦竟也來(lái)了嘱蛋?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤五续,失蹤者是張志新(化名)和其女友劉穎洒敏,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體疙驾,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡凶伙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了它碎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片函荣。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖链韭,靈堂內(nèi)的尸體忽然破棺而出偏竟,到底是詐尸還是另有隱情煮落,我是刑警寧澤敞峭,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站蝉仇,受9級(jí)特大地震影響旋讹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜轿衔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一沉迹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧害驹,春花似錦鞭呕、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至底洗,卻和暖如春腋么,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背亥揖。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工珊擂, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓摧扇,卻偏偏與公主長(zhǎng)得像圣贸,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子扳剿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容