動動發(fā)財?shù)男∈帜纬剑c個贊吧乱豆!
NLP 中結合結構化和非結構化知識的研究概況
自 2012 年谷歌推出知識圖譜 (KG) 以來,知識圖譜 (KGs) 在學術界和工業(yè)界都引起了廣泛關注 (Singhal, 2012)瑟啃。作為實體之間語義關系的表示揩尸,知識圖譜已被證明與自然語言處理(NLP)特別相關,并且在最近幾年迅速流行起來错负,這一趨勢似乎正在加速勇边。鑒于該領域的研究工作越來越多,NLP 研究界已經(jīng)對幾種與 KG 相關的方法進行了調(diào)查粒褒。然而,迄今為止祥款,仍缺乏對既定主題進行分類并審查各個研究流的成熟度的綜合研究。為了縮小這一差距镰踏,我們系統(tǒng)地分析了 NLP 中關于知識圖譜的文獻中的 507 篇論文沙合。因此,本文對研究前景進行了結構化概述绊率,提供了任務分類究履,總結了發(fā)現(xiàn),并強調(diào)了未來工作的方向藐俺。
什么是自然語言處理泥彤?
自然語言處理 (NLP) 是語言學、計算機科學和人工智能的一個子領域吟吝,關注計算機與人類語言之間的交互,特別是如何對計算機進行編程以處理和分析大量自然語言數(shù)據(jù)浙宜。
什么是知識圖蛹磺?
KGs 已經(jīng)成為一種以機器可讀格式語義表示真實世界實體知識的方法。大多數(shù)作品隱含地采用了知識圖譜的廣義定義裙品,將它們理解為“旨在積累和傳達現(xiàn)實世界知識的數(shù)據(jù)圖鳖轰,其節(jié)點代表感興趣的實體,其邊代表這些實體之間的關系”蕴侣。
為什么我們在 NLP 中使用知識圖譜?
底層范式是結構化和非結構化知識的結合可以使各種 NLP 任務受益辱志。例如,可以將知識圖譜中的結構化知識注入語言模型中發(fā)現(xiàn)的上下文知識中揩懒,從而提高下游任務的性能(Colon-Hernandez 等人已球,2021)。此外智亮,鑒于當前關于大型語言模型(例如 ChatGPT)的公開討論,我們可能會使用 KG 來驗證并在必要時糾正生成模型的幻覺和錯誤陳述弃舒。此外状原,隨著 KG 的重要性日益增加,從非結構化文本構建新的 KG 的努力也在不斷擴大颠区。
NLP 中如何使用知識圖譜?
研究格局的特點
下圖顯示了十年觀察期內(nèi)的出版物分布情況喂窟。
雖然第一批出版物出現(xiàn)在 2013 年央串,但年度出版物在 2013 年至 2016 年間增長緩慢。從 2017 年開始稳摄,出版物數(shù)量幾乎每年翻一番饲宿。由于這些年研究興趣的顯著增加,超過 90% 的出版物都來自這五年瘫想。盡管增長趨勢似乎在 2021 年停止,但這很可能是由于數(shù)據(jù)導出發(fā)生在 2022 年的第一周减噪,遺漏了許多 2021 年的研究,這些研究在 2022 年晚些時候被納入數(shù)據(jù)庫醋闭。盡管如此朝卒,趨勢清楚地表明KG 越來越受到 NLP 研究界的關注。
此外抗斤,我們觀察到研究文獻中探索的領域數(shù)量與年度論文數(shù)量同步快速增長豪治。在下圖中,顯示了十個最常用的域负拟。
令人驚訝的是歹河,健康是迄今為止最突出的領域秸歧。后者出現(xiàn)的頻率是排名第二的學術領域的兩倍多。其他受歡迎的領域是工程键菱、商業(yè)、社交媒體或法律拭抬。鑒于領域的多樣性侵蒙,很明顯 KGs 自然適用于許多不同的環(huán)境。
研究文獻中的任務
基于 NLP 知識圖譜文獻中確定的任務算凿,我們開發(fā)了如下所示的實證分類法犁功。
兩個頂級類別包括知識獲取和知識應用。知識獲取包含 NLP 任務浸卦,從非結構化文本構建知識圖譜(知識圖譜構建)或?qū)σ褬嫿ǖ闹R圖譜進行推理(知識圖譜推理)。 KG 構建任務進一步分為兩個子類:知識提取储玫,用于用實體、關系或?qū)傩蕴畛?KG撒穷,以及知識集成端礼,用于更新 KG。知識應用是第二個頂級概念蛤奥,包含常見的 NLP 任務,這些任務通過 KG 的結構化知識得到增強蟀伸。
知識圖譜構建
實體提取任務是構建知識圖譜的起點缅刽,用于從非結構化文本中提取真實世界的實體。一旦相關實體被挑選出來衰猛,它們之間的關系和交互就會通過關系抽取的任務被發(fā)現(xiàn)啡省。許多論文同時使用實體抽取和關系抽取來構建新的知識圖譜,例如卦睹,用于新聞事件或?qū)W術研究。實體鏈接是將某些文本中識別的實體鏈接到知識圖譜中已經(jīng)存在的實體的任務兢交。由于同義或相似的實體經(jīng)常存在于不同的知識圖譜或不同的語言中笼痹,因此可以執(zhí)行實體對齊以減少未來任務中的冗余和重復。提出 KGs 的規(guī)則和方案晴裹,即它們在其中呈現(xiàn)的知識的結構和格式救赐,是通過本體構建的任務完成的只磷。
知識圖譜推理
一旦構建泌绣,知識圖譜就包含結構化的世界知識,可用于通過對它們進行推理來推斷新知識元媚。因此苗沧,對實體進行分類的任務稱為實體分類,而鏈接預測是推斷現(xiàn)有知識圖譜中實體之間缺失鏈接的任務待逞,通常通過對實體進行排序作為查詢的可能答案來執(zhí)行识樱。知識圖嵌入技術用于創(chuàng)建圖的密集向量表示,以便它們隨后可用于下游機器學習任務牺荠。
知識應用
現(xiàn)有的知識圖譜可用于多種流行的 NLP 任務。在這里,我們概述了最受歡迎的肝断。問答 (QA) 被發(fā)現(xiàn)是使用知識圖譜最常見的 NLP 任務胸懈。此任務通常分為文本 QA 和知識庫問答 (KBQA)。文本 QA 從非結構化文檔中獲取答案趣钱,而 KBQA 從預定義的知識庫中獲取答案。 KBQA 自然地與 KGs 聯(lián)系在一起燕垃,而文本 QA 也可以通過使用 KGs 作為回答問題時的常識性知識來源來實現(xiàn)井联。這種方法之所以受歡迎,不僅因為它有助于生成答案轴捎,還因為它使答案更易于解釋。語義搜索是指“有意義的搜索”侦副,其目標不僅僅是搜索字面匹配,還包括了解搜索意圖和查詢上下文尺碰。此標簽表示使用知識圖譜進行搜索汇竭、推薦和分析的研究。示例是稱為 ConceptNet 的日常概念的大型語義網(wǎng)絡和學術交流和關系的 KG两曼,其中包括 Microsoft Academic Graph玻驻。對話界面構成了另一個 NLP 領域,可以從知識圖譜中包含的世界知識中獲益户辫。我們可以利用知識圖譜中的知識來生成會話代理的響應嗤锉,這些響應在給定的上下文中提供的信息更豐富、更合適瘟忱。
自然語言生成 (NLG) 是 NLP 和計算語言學的一個子領域访诱,它與從頭開始生成自然語言輸出的模型有關。 KG 在此子領域中用于從 KG 生成自然語言文本触菜、生成問答對、圖像字幕的多模式任務或低資源設置中的數(shù)據(jù)增強涡相。文本分析結合了各種用于處理和理解文本數(shù)據(jù)的分析 NLP 技術和方法。示例性任務是情緒檢測攻旦、主題建纳荩或詞義消歧且预。增強語言模型是大型預訓練語言模型 (PLM) 的組合烙无,例如 BERT(Devlin 等人,2019 年)和 GPT(Radford 等人涮拗,2018 年)與知識圖譜中包含的知識迂苛。由于 PLM 從大量非結構化訓練數(shù)據(jù)中獲取知識,因此將它們與結構化知識相結合的研究趨勢正在興起就漾。來自知識圖譜的知識可以通過輸入念搬、架構、輸出或它們的某種組合被注入語言模型首妖。
在 NLP 中使用知識圖的熱門任務
下圖顯示了 NLP 中使用知識圖譜最流行的任務爷恳。
我們可以觀察到,諸如關系抽取或語義搜索之類的任務已經(jīng)存在了一段時間妒貌,并繼續(xù)穩(wěn)步增長铸豁。在我們的研究中菊碟,我們使用這個作為一個指標來得出關系提取或語義搜索等任務已經(jīng)相當成熟的結論。相比之下头镊,增強語言模型和知識圖嵌入任務仍然可以被認為是相對不成熟的魄幕。這可能是因為這些任務還相對年輕且研究較少。上圖顯示纯陨,這兩項任務從 2018 年開始研究量急劇增加,并引起了廣泛關注咙轩。
總結
近年來,KGs 在 NLP 研究中的地位日益突出丐膝。自 2013 年首次發(fā)表以來钾菊,全世界的研究人員越來越關注從 NLP 的角度研究知識圖譜,尤其是在過去的五年中浑此。為了概述這個成熟的研究領域红竭,我們對 KGs 在 NLP 中的使用進行了多方面的調(diào)查。我們的研究結果表明最冰,NLP 中有關知識圖譜的大量任務已在各個領域進行了研究稀火。關于使用實體抽取和關系抽取構建 KG 的論文占所有作品的大部分。 QA 和語義搜索等應用 NLP 任務也有強大的研究社區(qū)篇裁。近年來最新興的主題是增強語言模型赡若、QA 和 KG 嵌入。
一些概述的任務仍然局限于研究界逾冬,而其他任務已經(jīng)在許多現(xiàn)實生活中找到了實際應用身腻。我們觀察到 KG 構建任務和對 KG 的語義搜索是應用最廣泛的任務。在 NLP 任務中脐区,QA 和對話界面已被許多現(xiàn)實生活領域采用她按,通常以數(shù)字助理的形式出現(xiàn)甜无。 KG 嵌入和增強語言模型等任務仍處于研究階段,在現(xiàn)實場景中缺乏廣泛的實際應用。我們預計投慈,隨著增強語言模型和 KG 嵌入的研究領域的成熟褥实,將針對這些任務研究更多的方法和工具狞甚。
本文由mdnice多平臺發(fā)布