一、通用和領域知識圖譜
-
知識圖譜的本質(zhì)是語義網(wǎng)絡,一種基于圖的數(shù)據(jù)結(jié)構(gòu)络凿,由“節(jié)點-邊-節(jié)點”組成。
- 節(jié)點代表“概念”或“實體”昂羡。
- 邊則代表兩個節(jié)點之間的關系絮记,用以描述現(xiàn)實世界中的概念、實體以及他們之間豐富的關聯(lián)關系虐先。
-
知識圖譜分為通用知識圖譜與領域知識圖譜兩類怨愤,兩類圖譜本質(zhì)相同,其區(qū)別主要體現(xiàn)在覆蓋范圍與使用方式上蛹批。
- 通用知識圖譜可以形象地看成一個面向通用領域的“結(jié)構(gòu)化的百科知識庫”撰洗,其中包含了大量的現(xiàn)實世界中的常識性知識,覆蓋面廣腐芍。
- 領域知識圖譜又叫行業(yè)知識圖譜或垂直知識圖譜差导,通常面向某一特定領域,可看成是一個基于語義技術的行業(yè)知識庫猪勇,因其基于行業(yè)數(shù)據(jù)構(gòu)建设褐,有著嚴格而豐富的數(shù)據(jù)模式,所以對該領域知識的深度泣刹、知識準確性有著更高的要求助析。
1、研究內(nèi)容和關鍵科學問題
- 通用知識圖譜主要強調(diào)知識的廣度椅您,通常運用百科數(shù)據(jù)進行自底向上(Top-Down)的方法進行構(gòu)建外冀。
- 領域知識圖譜面向不同的領域,其數(shù)據(jù)模式不同掀泳,應用需求也各不相同雪隧,因此沒有一套通用的標準和規(guī)范來指導構(gòu)建,而需要基于特定行業(yè)通過工程師與業(yè)務專家的不斷交互與定制來實現(xiàn)开伏。
- 通用與領域知識圖譜的構(gòu)建過程可分為六個階段膀跌,被稱為知識圖譜的生命周期遭商。
(1)知識建模
- 知識建模是建立知識圖譜的概念模式的過程固灵,相當于關系型數(shù)據(jù)庫的表結(jié)構(gòu)定義。
- 知識建模通常采用兩種方式:
- 一種是自頂向下(Top-Down)的方法劫流,即首先為知識圖譜定義數(shù)據(jù)模式巫玻,數(shù)據(jù)模式從最頂層概念構(gòu)建丛忆,逐步向下細化,形成結(jié)構(gòu)良好的分類學層次仍秤,然后再進行將實體添加進概念熄诡。
- 另一種則是自底向上(Bottom-Up)的方法,即首先對實體進行歸納組織诗力,形成底層概念凰浮,然后逐步往上抽象,形成上層概念苇本。該方法可基于行業(yè)現(xiàn)有標準轉(zhuǎn)換生成數(shù)據(jù)模式袜茧,也可基于高質(zhì)量行業(yè)數(shù)據(jù)源映射生成。
- 為保證知識圖譜的質(zhì)量瓣窄,通常在建模時需要考慮以下關鍵問題:
- 概念劃分的合理性笛厦,如何描述知識體系及知識點之間的關聯(lián)關系
- 屬性定義方式,如何在冗余程度最低的條件下滿足應用和可視化展現(xiàn)
- 事件俺夕、時序等復雜知識表示裳凸,通過匿名節(jié)點的方法還是邊屬性的方法來進行描述,各自的優(yōu)缺點是什么
- 后續(xù)的知識擴展難度劝贸,能否支持概念體系的變更以及屬性的調(diào)整
(2)知識獲取
- 知識獲取是指從不同來源姨谷、不同數(shù)據(jù)中進行知識提取,形成知識存入到知識圖譜的過程映九。
- 現(xiàn)有的數(shù)據(jù)源中菠秒,數(shù)據(jù)大致可分為三類:
- 一類是結(jié)構(gòu)化的數(shù)據(jù),這類數(shù)據(jù)包括以關系型數(shù)據(jù)庫(Mysql氯迂,Oracle 等)為介質(zhì)的關系型數(shù)據(jù)践叠,以及之前提到的開放鏈接數(shù)據(jù),如 Yago嚼蚀,F(xiàn)reebase 等禁灼。
- 第二類為半結(jié)構(gòu)化數(shù)據(jù),如百科數(shù)據(jù)(Wikipedia轿曙,百度百科等)弄捕,或是垂直網(wǎng)站中的數(shù)據(jù),如 IMDB导帝,丁香園等守谓。
- 第三類是以文本為代表的非結(jié)構(gòu)化數(shù)據(jù)。
- 針對結(jié)構(gòu)化數(shù)據(jù)中復雜關系的抽取是研究的重點您单,主要方法包括直接映射(Direct mapping)或者映射規(guī)則定義(R2RML)等斋荞。
- 半結(jié)構(gòu)化數(shù)據(jù)通常采用包裝器(Wrapper)的方式對網(wǎng)站進行解析,包裝器是一個針對目標數(shù)據(jù)源中的數(shù)據(jù)制定了抽取規(guī)則的計算機程序虐秦。包裝器的定義平酿、自動生成以及如何對包裝器進行更新及維護以應對網(wǎng)站的變更凤优,是當前獲獲取需要考慮的問題。
- 非結(jié)構(gòu)化數(shù)據(jù)抽取難度最高蜈彼,如何保證抽取的準確率和覆蓋率則是這類數(shù)據(jù)上進行知識獲取需要考慮的科學問題筑辨。
(3)知識融合
- 知識融合指將不同來源的知識進行對齊、合并的工作幸逆,形成全局統(tǒng)一的知識標識和關聯(lián)棍辕。
- 知識融合是構(gòu)建知識圖譜過程中的核心工作與研究重點問題。
- 知識圖譜中的知識融合包含兩個方面还绘,即數(shù)據(jù)模式層的融合和數(shù)據(jù)層的融合:
- 數(shù)據(jù)模式層的融合包含概念合并痢毒、概念上下位關系合并以及概念的屬性定義合并,通常依靠專家人工構(gòu)建或從可靠的結(jié)構(gòu)化數(shù)據(jù)中映射生成蚕甥,在映射的過程中哪替,一般會通過設置融合規(guī)則確保數(shù)據(jù)的統(tǒng)一。
- 數(shù)據(jù)層的融合包括實體合并菇怀、實體屬性融合以及沖突檢測與解決凭舶。
- 進行知識融合時需要考慮使用什么方式實現(xiàn)不同來源、不同形態(tài)知識的融合爱沟;如何對海量知識進行高效融合帅霜;如何對新增知識進行實時融合以及如何進行多語言融合等問題。
(4)知識存儲
- 知識存儲呼伸,針對構(gòu)建完成的知識圖譜設計底層存儲方式身冀,完成各類知識的存儲,包括基本屬性知識括享、關聯(lián)知識搂根、事件知識、時序知識铃辖、資源類知識等剩愧。
- 目前主流的知識存儲解決方案包括單一式存儲和混合式存儲兩種。
- 單一存儲中娇斩,可以通過三元組仁卷,屬性表或者垂直分割等方式進行知識的存儲。其中犬第,三元組的存儲方式較為直觀锦积,但在進行連接查詢時開銷巨大;屬性表指基于主語的類型劃分數(shù)據(jù)表歉嗓,其缺點是不利于缺失屬性的查詢丰介;垂直分割指基于謂詞進行數(shù)據(jù)的劃分,其缺點是數(shù)據(jù)表過多,且寫操作的代價比較大基矮。
- 對于知識存儲介質(zhì)的選擇,可以分為原生(neo4j冠场,allegrograph 等)的和基于現(xiàn)有數(shù)據(jù)庫(Mysql家浇,Mongo 等)兩類。
- 原生存儲的優(yōu)點是其本身已經(jīng)提供了較為完善的圖查詢語言或算法的支持碴裙,但不支持定制钢悲,靈活程度不高,對于復雜節(jié)點等極端數(shù)據(jù)情況的表現(xiàn)非常差舔株。
- 基于現(xiàn)有數(shù)據(jù)庫的自定義方案莺琳,這樣做的好處是自由程度高,可以根據(jù)數(shù)據(jù)特點進行知識的劃分载慈、索引的構(gòu)建等惭等,但增加了開發(fā)和維護成本。
- 目前尚沒有一個統(tǒng)一的可以實現(xiàn)所有類型知識存儲的方式办铡。如何根據(jù)自身知識的特點選擇知識存儲方案辞做,或者進行存儲方案的結(jié)合,以滿足針對知識的應用需要寡具,是知識存儲過程中需要解決的關鍵問題秤茅。
(5)知識計算
- 知識計算是領域知識圖譜能力輸出的主要方式,通過知識圖譜本身能力為傳統(tǒng)的應用形態(tài)賦能童叠,提升服務質(zhì)量效率框喳。
- 知識計算中,圖挖掘計算和知識推理是最具代表性的兩種能力厦坛,如何將這兩種能力與傳統(tǒng)應用相結(jié)合是需要解決的一個關鍵問題五垮。
- 圖挖掘計算指基于圖論的相關算法,實現(xiàn)對圖譜的探索與挖掘杜秸。圖計算能力可輔助傳統(tǒng)的推薦拼余、搜索類應用。知識圖譜中的圖算法一般包括圖遍歷亩歹、最短路徑匙监、權威節(jié)點分析、族群發(fā)現(xiàn)最大流算法小作、相似節(jié)點等亭姥,大規(guī)模圖上的算法效率是圖算法設計與實現(xiàn)的主要問題。
- 知識推理一般運用于知識發(fā)現(xiàn)顾稀,沖突與異常檢測达罗,是知識精細化工作和決策分析的主要實現(xiàn)方式。知識推理又可以分為基于本體的推理和基于規(guī)則的推理。一般需要依據(jù)行業(yè)應用的業(yè)務特征進行規(guī)則的定義粮揉,并基于本體結(jié)構(gòu)與所定義的規(guī)則巡李,執(zhí)行推理過程,給出推理結(jié)果扶认。知識推理的關鍵問題包括:大數(shù)據(jù)量下的快速推理侨拦,記憶對于增量知識和規(guī)則的快速加載。
(6)知識應用
- 知識應用指將知識圖譜特有的應用形態(tài)與領域數(shù)據(jù)與業(yè)務場景相結(jié)合辐宾,助力領域業(yè)務轉(zhuǎn)型狱从。
- 知識圖譜的典型應用包括語義搜索、智能問答以及可視化決策支持三種叠纹。
- 語義搜索指基于知識圖譜中的知識季研,解決傳統(tǒng)搜索中遇到的關鍵字語義多樣性及語義消歧的難題,通過實體鏈接實現(xiàn)知識與文檔的混合檢索誉察。語義檢索需要考慮如何解決自然語言輸入帶來的表達多樣性問題与涡,同時需要解決語言中實體的歧義性問題。
- 智能問答指針對用戶輸入的自然語言進行理解持偏,從知識圖譜中或目標數(shù)據(jù)中給出用戶問題的答案递沪,其關鍵技術及難點包括:(1)準確的語義解析,如何正確理解用戶的真實意圖综液;(2)對于返回的答案款慨,如何評分以確定優(yōu)先級順序。
- 可視化決策支持則是指通過提供統(tǒng)一的圖形接口谬莹,結(jié)合可視化檩奠、推理、檢索等附帽,為用戶提供信息獲取的入口埠戳,需要考慮的關鍵問題包括:(1)如何通過可視化方式輔助用戶快速發(fā)現(xiàn)業(yè)務模式;(2)如何提升可視化組件的交互友好程度蕉扮,比如高效地縮放和導航整胃;(3)大規(guī)模圖環(huán)境下底層算法的效率。
- 如何針對業(yè)務需求設計實現(xiàn)知識圖譜應用喳钟,并基于數(shù)據(jù)特點進行優(yōu)化調(diào)整屁使,是知識圖譜應用的關鍵研究內(nèi)容。
2奔则、技術方案與研究現(xiàn)狀
(1)知識圖譜構(gòu)建方案研究
自底向上的構(gòu)建方法
通用知識圖譜的構(gòu)建采用自底向上的方法蛮寂,主要依賴開放連接數(shù)據(jù)集和百科,從這些結(jié)構(gòu)化的知識中進行自動學習易茬,主要分為實體與概念的學習酬蹋、上下位關系的學習、數(shù)據(jù)模式的學習。
對概念學習的方法有一種基于語言學和基于統(tǒng)計學的多策略概念抽取方法范抓,該方法提高了領域內(nèi)概念抽取的效果骄恶。
實體對齊的目標是將從不同百科中學習到的描述同一目標的實體或概念進行合并,再將合并后的實體集與開放鏈接數(shù)據(jù)中抽取的實體進行合并匕垫。
-
實體對齊過程主要分為六步:
- 1)從開放鏈接數(shù)據(jù)集中抽取同義關系僧鲁;
- 2)基于結(jié)構(gòu)化的數(shù)據(jù)對百科中的實體進行實體對齊;
- 3)采用自監(jiān)督的實體對齊方法對百科的文章進行對齊年缎;
- 4)將百科中的實體與鏈接數(shù)據(jù)中的實體進行對齊悔捶;
- 5)基于語言學模式的方法抽取同義關系铃慷;
- 6)實體基于 CRF 的開放同義關系抽取方法學習同義詞關系单芜。
實體對齊方法有了一種基于實體屬性信息及上下文主題特征相結(jié)合進行實體對齊的方法,和一種獨立于模式的基于屬性語義特征的實體對齊方法犁柜。
-
對于上下位關系洲鸠,開放鏈接數(shù)據(jù)集中擁有明確的描述機制,針對不同的數(shù)據(jù)集編寫相應的規(guī)則直接解析即可獲取馋缅。
- 百科中描述了兩種上下位關系扒腕,一種是類別之間的上下位關系,對于概念的層次關系萤悴;另一種則是類別與文章之間的上下位關系瘾腰,對應實體與概念之間的從屬關系。
- 實體對齊可從開放鏈接數(shù)據(jù)集以及百科中抽取上下位關系覆履。
- 有研究引入了弱監(jiān)督學習框架來提取來自用戶生成的類別關系蹋盆,并提出了一種基于模式的關系選擇方法,來解決學習過程中“語義漂移”硝全。
-
數(shù)據(jù)模式的學習又稱為概念的屬性學習栖雾。一個屬性的定義包含三個部分:屬性名、屬性的定義域伟众、屬性的值域析藕。
- 概念屬性的定義極為重要,通用知識圖譜則可以從開放數(shù)據(jù)集中獲取概念的屬性凳厢,然后從在線百科中學習實體的屬性账胧,并對實體屬性進行往上規(guī)約從而生成概念的屬性。在進行屬性往上規(guī)約的過程中先紫,需要通過一定的機制保證概念屬性的準確性找爱,對于那些無法自動保證準確性的屬性,需要進行人工校驗泡孩。
- 實體屬性的提取有一種新的半監(jiān)督方法自動從維基百科頁面自動提取屬性车摄,還有一種多模態(tài)屬性提取的任務,用來提取實體的基礎屬性。
自頂向下的構(gòu)建方法
- 領域知識圖譜通常采用自頂向下的方法進行構(gòu)建吮播,針對特定的行業(yè)变屁,由該行業(yè)專家定義數(shù)據(jù)模式,進行知識建模意狠。
- 為保證可靠性粟关,數(shù)據(jù)模式的構(gòu)建基本都經(jīng)過了人工校驗,因此知識融合的關鍵任務是數(shù)據(jù)層的融合环戈。工業(yè)界在進行知識融合時闷板,通常在知識抽取環(huán)節(jié)中就對 數(shù)據(jù)進行控制,以減少融合過程中的難度及保證數(shù)據(jù)的質(zhì)量院塞≌谕恚可采用屬性映射方式、離線融合方式等進行知識融合拦止。
- 接著需要根據(jù)數(shù)據(jù)源的不同進行知識獲取县遣,其方法主要分為三種:
- 第一種是使用 D2R 工具,該方法主要針對結(jié)構(gòu)化數(shù)據(jù)汹族,通過 D2R 工具將關系型數(shù)據(jù)映射為 RDF 數(shù)據(jù)萧求。
- 第二種是使用包裝器,該方法主要針對半結(jié)構(gòu)化數(shù)據(jù)顶瞒,通過使用構(gòu)建面向站點的包裝器解析特定網(wǎng)頁夸政、標記語言文本。包裝器通常需要根據(jù)目標數(shù)據(jù)源編寫特定的程序榴徐,因此學者們的研究主要集中于包裝器的自動生成守问。
- 第三種是借助信息抽取的方法,該方法主要針對非結(jié)構(gòu)化的文本箕速。文本抽取按照抽取范圍的不同可分為 OpenIE 和 CloseIE 兩種酪碘。OpenIE 面向開放領域抽取信息,是一種基于語言學模式的抽取盐茎,無法實現(xiàn)獲知待抽取知識的關系類型兴垦,通常抽取規(guī)模大,精度較低字柠。CloseIE 面向特定領域抽取信息探越,因其基于領域?qū)I(yè)知識進行抽取,可以預先定義好抽取的關系類型窑业,且通常規(guī)模小钦幔,精度較高。
- 知識圖譜的存儲一般通過兩種方式實現(xiàn)常柄,分別是 RDF 存儲和圖數(shù)據(jù)庫(Graph Database)鲤氢。
- RDF 是語義網(wǎng)技術棧中的資源描述框架搀擂。基于RDF的存儲設計有使用三元組表式存儲卷玉、屬性表方式哨颂、列式等。
- 圖數(shù)據(jù)庫是NoSQL 中的重要代表相种,較為知名的圖數(shù)據(jù)庫有 Neo4j威恼,Titan 等。Neo4j是一個高度可擴展的圖形數(shù)據(jù)庫寝并,將數(shù)據(jù)中的實體和關系作為頂層類型箫措,支持節(jié)點及邊上的屬性操作。Titan是一個分布式的圖數(shù)據(jù)庫衬潦,支持橫向擴展斤蔓,支持事務,并且可以支撐上千并發(fā)用戶和計算復雜圖形遍歷别渔。
(2)知識圖譜研究現(xiàn)狀
- 通用知識圖譜案例有國外的DBpedia绅这,使用固定的模式從維基百科中抽取信息實體和國內(nèi)的Zhishi.me 從開放的百科數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù)丧荐。
- 領域知識圖譜案例報告主要介紹了電商逗物、企業(yè)商業(yè)鸯两、圖書情報和創(chuàng)投幾個例子御雕,具體查看原文愚臀。
3瓦胎、技術展望和發(fā)展趨勢
-
知識圖譜構(gòu)建
- 知識表示方法會進行擴展秃踩,逐步擴充對于時序知識艾猜、空間知識买喧、事件知識等的表示。
- 知識圖譜本身也會逐步將關注重點轉(zhuǎn)移到時序匆赃、位置淤毛、事件等動態(tài)知識中去,來更有效地描述事物發(fā)展的變化算柳,為預測類的應用形態(tài)提供支持低淡。
- 深度學習的思想和方法會越來越多的應用于文本信息抽取中,優(yōu)化的抽取方式瞬项,提高知識的覆蓋率與準確率蔗蹋。其他如跨語言知識融合,知識嵌入等方向也會在深度學習技術的加持下迸發(fā)新的研究浪潮囱淋。
-
知識圖譜應用
- 知識圖譜應用方面猪杭,未來將會出現(xiàn)更多應用形態(tài)。知識圖譜作為人工智能技術中的知識容器和孵化器妥衣,會對未來 AI 領域的發(fā)展起到關鍵性的作用皂吮。無論是通用知識圖譜還是領域知識圖譜戒傻,其構(gòu)建技術的發(fā)展和對應用場景的探索仍然會不斷的持續(xù)下去。
- 知識圖譜構(gòu)建技術會朝著越來越自動化方向前進蜂筹,同時知識圖譜也會在越來越多的領域找到能夠真正落地的應用場景稠鼻,在各行各業(yè)中解放生產(chǎn)力,助力業(yè)務轉(zhuǎn)型狂票。
二候齿、語義集成
- 語義集成式下一代萬維網(wǎng)的發(fā)展方向。
- 語義集成的目標就是將不同知識圖譜融合為一個統(tǒng)一闺属、一致慌盯、簡潔的形式,為使用不同知識圖譜的應用程序間的交互提供語義互操作性。常用技術方法包括本體匹配(也稱為本體 映射)掂器、實例匹配(也稱為實體對齊亚皂、對象共指消解)以及知識融合等。
- 語義集成是知識圖譜研究中的一個核心問題国瓮,對于鏈接數(shù)據(jù)和知識融合至關重要灭必。語義集成研究有助于提升基于知識圖譜的信息服務水平和智能化程度,推動語義網(wǎng)以及人工智能乃摹、數(shù)據(jù)庫禁漓、自然語言處理等相關領域的研究發(fā)展,具有重要的理論價值和廣泛的應用前景孵睬,可以創(chuàng)造巨大的社會和經(jīng)濟效益播歼。
1、研究內(nèi)容和關鍵科學問題
- 語義集成的常見流程主要包括:輸入掰读、預處理秘狞、匹配、知識融合和輸出5個環(huán)節(jié)蹈集。
(1)語義集成的輸入
- 語義集成的輸入包括待集成的若干個知識庫以及配置烁试、外部資源等。
- 待集成的知識庫常見為兩個拢肆,但也有一些工作支持輸入更多的知識庫减响,這些工作通過基于全局的優(yōu)化方法來獲得更好的結(jié)果。
- 待集成的知識庫格式一般為 RDF/OWL 數(shù)據(jù)文件或 SPARQL 端點(endpoint)善榛。
- 輸入的配置通常包括需要預設的參數(shù)辩蛋、閾值、規(guī)則等移盆。除通過手動配置外悼院,一些工作也使用了自動配置以減輕用戶手動配置的難度。
- 外部資源可以被認為是語義集成過程中使用到的背景知識咒循。
- 語義集成過程中也可能涉及人機交互据途,標注數(shù)據(jù)對語義集成的多個環(huán)節(jié)中均有作用绞愚,眾包和主動學習是經(jīng)常使用的技術,使用它們可以更為高效地利用昂貴的人力資源颖医。
(2)預處理
- 預處理主要包括預先對輸入知識庫進行清洗和后續(xù)步驟的準備位衩。
- 清洗主要是為了解決輸入質(zhì)量問題,與自由文本不同熔萧,知識庫通程锹浚基于 RDF/OWL 語言構(gòu)建,質(zhì)量較好佛致,并且現(xiàn)有工具已經(jīng)可以較為全面地解析贮缕、調(diào)試知識庫。
- 后續(xù)步驟的準備分為配置和數(shù)據(jù)兩方面俺榆。
- 針對配置的準備感昼,一些工作使用遺傳算法自動生成適合輸入知識庫的集成規(guī)則,還有一些工作通過分析輸入知識庫自適應或者使用無監(jiān)督學習計算出合適的模型參數(shù)罐脊;
- 針對數(shù)據(jù)的準備通常使用索引技術以提高后續(xù)環(huán)節(jié)的處理速度和規(guī)模定嗓,廣泛使用分塊技術,通過對索引的設計萍桌,可以避免例如匹配環(huán)節(jié)達到知識庫規(guī)模平方級的復雜度宵溅。
- 就傳統(tǒng)數(shù)據(jù)庫而言,索引是對數(shù)據(jù)預先排序得到的一種存儲結(jié)構(gòu)梗夸,使用索引可以快速訪問數(shù)據(jù)庫中的記錄层玲。
- 知識庫分塊則是通過索引鍵值將知識庫中的元素劃分成一組不相交或相交的區(qū)塊号醉,后續(xù)僅考慮 對應區(qū)塊間的匹配和融合反症。這種方法剪枝過濾掉完全無關的區(qū)塊對,從而提高集成效率畔派。這里的一個關鍵科學問題是對區(qū)塊大小和數(shù)量的權衡铅碍,在盡量不丟失可能結(jié)果的情況下使分塊盡可能的小
(3)匹配
- 根據(jù)匹配對象的不同,匹配一般分為本體匹配和實例匹配兩方面线椰。
- 本體匹配側(cè)重發(fā)現(xiàn)(模式層)等價或相似的類胞谈、屬性或關系。
- 實例匹配側(cè)重發(fā)現(xiàn)指稱真實世界相同對象的不同實例憨愉。
- 本體匹配和實例匹配間也可相互影響烦绳,例如基于實例匹配的本體匹配。
- 如何從語義上消解知識庫間的異構(gòu)性是匹配環(huán)節(jié)待解決的關鍵科學問題配紫。
- 文本相似性度量是發(fā)現(xiàn)匹配的最基礎方法径密。無論是本體匹配還是實例匹配,文本相似性度量方法均較為相似躺孝,大致分為四種類型:基于字符的享扔、基于單詞的底桂、混合型和基于語義的。
- 基于圖結(jié)構(gòu)進行匹配惧眠,由于知識庫通匙雅常可以表示為一個節(jié)點和邊均帶標簽的有向圖結(jié)構(gòu),從是否利用圖結(jié)構(gòu)上下文信息這一點來看氛魁,匹配方法可以分為兩種:成對匹配和集體(collective)匹配暮顺。
- 成對匹配又叫基于元素的匹配,這類方法中匹配之間不會相互影響秀存。
- 集體匹配又叫基于結(jié)構(gòu)的匹配拖云,這類方法會根據(jù)匹配之間的影響調(diào)整匹配的相似度,也是目前的研究焦點应又。
- 本體的圖規(guī)模較小宙项,并且結(jié)構(gòu)更豐富,一些復雜的集體匹配方法多用在本體匹配上株扛;而實例匹配更多使用一些簡單或者局部的集體匹配方法以保證運行時間在一個可以接受的范圍內(nèi)尤筐。
(4)知識融合
- 在匹配的基礎上,知識融合一般通過沖突檢測洞就、真值發(fā)現(xiàn)等技術消解知識成過程中的沖突盆繁,再對知識進行關聯(lián)與合并,最終形成一個一致的結(jié)果旬蟋。
- 如何處理沖突是知識融合環(huán)節(jié)的主要研究問題油昂。
- 目前常見的沖突處理策略分為以下3類:沖突忽略、沖突避免和沖突消解倾贰。
- 沖突忽略選擇忽略知識沖突冕碟,將沖突交給用戶解決。
- 沖突避免承認沖突的存在匆浙,但是不解決沖突安寺,對于所有情形使用統(tǒng)一的規(guī)則,例如不同知識來源具有不同優(yōu)先級首尼。
- 沖突消解聚焦于如何根據(jù)知識本身和元數(shù)據(jù)的特征來消解沖突挑庶,時目前的主流研究方向。沖突消解方法主要可以分為3類:第一類是基于投票的方法软能,第二類是基于質(zhì)量的方法迎捺,這種方法在投票過程中考慮知識來源的可信度,從而推出高質(zhì)量的結(jié)果查排,常見的方法主要是基于概率模型的凳枝。第三類基于關系的方法,這種方法在基于質(zhì)量的方法上考慮不同知識來源之間的關系雹嗦,關系會影響投票或可信度評估的結(jié)果范舀。
(5)語義集成的輸出
- 語義集成的輸出是一個統(tǒng)一的合是、一致的、簡潔的知識庫锭环。這個知識庫可以是虛構(gòu)形式聪全。除此以外,輸出還可以包括結(jié)果和過程的圖形化展示辅辩。
2难礼、技術方法和研究現(xiàn)狀
(1)本體匹配
多本體全體匹配
- 現(xiàn)有大多數(shù)本體匹配方法處理的是成對的本體,但是成對匹配方法在同時匹配多個本體時會產(chǎn)生一些問題玫锋,最主要的問題是它們得到的結(jié)果從全局看可能存在沖突蛾茉。
- LPHOM是一種多本體全體匹配方法,該方法在匹配多個本體的同時還能保證其結(jié)果是全局最優(yōu)解撩鹿。LPHOM 將全體匹配問題建模成基于最大權圖匹配的線性規(guī)劃問題谦炬,在這之上增加了 4 種針對本體匹配問題的一般性約束,這些約束用于保證匹配結(jié)果的一致性节沦。約束具體包括:每個類和屬性僅能參與最多一個匹配(1:1 規(guī)則)键思;類和屬性的匹配要滿足本體中定義的不相交關系;對象屬性的匹配與其定義域類甫贯、值域類的匹配結(jié)果相互制約吼鳞;數(shù)據(jù)屬性的匹配與其定義域類的匹配結(jié)果相互制約。
跨語言本體匹配
- 由于語言不同叫搁,跨語言本體匹配相較一般本體匹配更為困難赔桌,特別是影響文本相似性度量的準確性。
- EAFG是一個用于解決跨語言屬性匹配問題的因子圖模型渴逻,該模型同時考慮了屬性對自身的特征和屬性對之間的相關性疾党。
- 雙語主題模型也被用于解決跨語言本體匹配問題。在匹配的過程中裸卫,首先使用常規(guī)方法獲得候選匹配對仿贬,之后使用雙語主題模型從匹配對象的文本上下文中獲得其主題分布,從而在相同的主題空間內(nèi)表示不同語言的匹配對象墓贿。主題向量的余弦相似度被作為得分用于確定最終的匹配。
(2)實例匹配
基于人機協(xié)作的實例匹配
- 眾包和主動學習等人機協(xié)作方法是目前實例匹配的研究熱點蜓氨。這些方法雇傭普通用戶聋袋,通過付出較小的人工代價來獲得豐富的先驗數(shù)據(jù),從而提高匹配模型的性能穴吹。
- Hike是一個解決大規(guī)模知識庫間實例匹配的眾包方法,該方法為實例對之間定義偏序關系幽勒,根據(jù)構(gòu)建的偏序結(jié)構(gòu)和已知問題答案可以推斷未知問題答案。之后基于假設定義實例對和問題集的推斷期望港令,根據(jù)推斷期望選出最佳問題分發(fā)給眾包參與者啥容。
- 與通過眾包直接解決大規(guī)模實例匹配不同锈颗,鏈接發(fā)現(xiàn)工具 Silk 和 LIMES 均通過結(jié)合主動學習和遺傳算法來生成鏈接規(guī)約(link specification)。鏈接規(guī)約由以下兩種操作組合得到:求值操作和相似度操作咪惠。求值操作根據(jù)輸入的實例輸出一組值击吱,例如取出一組特定屬性或者對特定屬性、數(shù)據(jù)做小寫遥昧、分詞等變換處理覆醇;相似度操作則是針對輸入的一對實例求得或者聚合相似度。Silk 和 LIMES 將學習到的鏈接規(guī)約組織成樹的結(jié)構(gòu)炭臭。在向用戶提問的策略上永脓,LIMES 選擇能夠最大化投票熵的候選,而 Silk 則選擇能夠最小化信息增益的候選鞋仍。
基于表示學習的實例匹配
- 隨著表示學習技術在諸如圖像常摧、視頻、語音威创、自然語言處理等領域的成功排宰,一些研究人員開始著手研究面向知識圖譜的表示學習技術,將實體那婉、關系等轉(zhuǎn)換成一個低維空間中的實值向量(即分布式語義表示)板甘,并在知識圖譜補全、知識庫問答等應用中取得了不錯的效果详炬。
- MTransE 通過基于轉(zhuǎn)移的方法解決跨語言知識圖譜的表示學習和匹配問題盐类。它首先使用 TransE 對單個知識圖譜進行 表示學習,然后學習不同知識表示空間的線性變換來進行實例匹配呛谜。MTransE 包含了 3 種不同的轉(zhuǎn)移方法:軸標定法在跳,轉(zhuǎn)移向量法和線性變換法。通過使用不同的損失函數(shù)隐岛,MTransE 一共設計了 5 種不同變種猫妙。
- IPTransE 和 JAPE 基于先驗實例匹配,使 用聯(lián)合表示學習技術直接將不同知識圖譜中的實體和關系嵌入到統(tǒng)一的向量空間中聚凹,將不同知識圖譜中實例間的匹配過程轉(zhuǎn)換為計算它們的向量表示間距離的過程割坠。IPTransE 使用迭代的方式不斷更新實例匹配,而 JAPE 則利用了屬性及文字描述信息來增強實例的表示學習妒牙。
基于強化學習的實例匹配
- ALEX是一個通過利用用戶提供的查詢答案反饋來提高實例匹配質(zhì)量的系統(tǒng)彼哼。從一組候選鏈接開始,搜索與用戶在先前查詢反饋中批準的匹配相似的匹配湘今,以發(fā)現(xiàn)新的匹配敢朱。具體而言,ALEX 使用蒙特卡羅強化學習方法來學習如何在某個匹配周邊進行探索。其中拴签,將每個匹配視作一個狀態(tài)孝常,用戶反饋被轉(zhuǎn)換為行為獎勵,通過最大化收集到的行為獎勵改善策略蚓哩。
(3)知識融合
- 早期的知識融合主要是借鑒傳統(tǒng)數(shù)據(jù)融合的方法构灸,近幾年比較流行的沖突消解方法是基于圖模型的方法,這類方法通常為每條知識分配一個概率杖剪,將沖突消 解問題看作圖中節(jié)點的概率預測問題冻押,通過知識之間已有的關系或現(xiàn)有的外部知識來預測不同來源知識可能的真值。
- 長尾(long tail)實體是指那些擁有三元組數(shù)量很少的實體盛嘿。雖然現(xiàn)有很多知識庫中已經(jīng)存在數(shù)以千萬計的三元組洛巢,然而實驗表明其中長尾實體仍占了相當大的比重。由于長尾實體本身擁有的信息很少次兆,例如沒有足夠的文本描述或語義關系稿茉,傳統(tǒng)的基于屬性相似度或者結(jié)構(gòu)相似性的方法可能效果較差。
(4)語義集成評測
- 標準的評測數(shù)據(jù)集對于語義集成的研究十分重要芥炭,這些數(shù)據(jù)集提供了一個橫向比較各種方法優(yōu)劣的平臺漓库。隨著語義集成研究的蓬勃發(fā)展,用于語義集成評測的數(shù)據(jù)集也有了一些變化园蝠。
3渺蒿、技術展望與發(fā)展趨勢
- 語義集成在未來可能的研究方向包括:
- 針對語義集成的表示學習研究
- 針對語義集成的人機協(xié)作方法
- 針對語義集成的通用大規(guī)模評測數(shù)據(jù)集建立(目前有兩類,人造數(shù)據(jù)集和真實世界數(shù)據(jù)集彪薛,前者質(zhì)量較高但數(shù)據(jù)規(guī)模偏小茂装,后者數(shù)據(jù)規(guī)模大,但參考標準質(zhì)量低)
三善延、語義搜索
- 知識圖譜是對客觀世界認識的形式化表示少态,將字符串映射為客觀事件的事務(實體、事件以及之間的關系)易遣。當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索彼妻,稱之為語義搜索。
- 語義搜索利用知識圖譜可以準確地捕捉用戶搜索意圖豆茫,借助于知識圖譜侨歉,直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網(wǎng)頁的鏈接澜薄。搜索引擎的工作不再拘泥于用戶所輸入請求語句的字面本身为肮,而是透過現(xiàn)象看本質(zhì),準確地捕捉到用戶所輸入語句背后的真實意圖肤京,并依此來進行搜索,從而更準確地向用戶返回最符合其需求的搜索結(jié)果。
- 語義搜索的目的即是準確理解用戶輸入忘分,借助于對實體的理解棋枕,它們之間的交互行為,用戶對這些實體的理解獲取準確的答案而不是一條條鏈接妒峦,通過利用語義技術重斑,將推理結(jié)合到檢索過程中,可以極大的提高當前的搜索效果肯骇,在語義 Web 環(huán)境下窥浪,可以更高效地發(fā)現(xiàn)信息資源。
1笛丙、研究內(nèi)容和關鍵科學問題
- 語義網(wǎng)背景下的語義搜索主要面臨的問題有以下三點:
- 與傳統(tǒng)的 Web 文檔相比漾脂,語義網(wǎng)文檔的本質(zhì)是 RDF Graph。
- 理解一個 URI 所指稱的實體對于判斷語義網(wǎng)上的實體共指問題非常重要胚鸯。
- 在現(xiàn)有缺乏必要的手段形成語義網(wǎng)的背景下骨稿,如何利用語義網(wǎng)技術改進傳統(tǒng)的 Web 信息檢索系統(tǒng)對用戶來說極為重要。
2姜钳、技術方法和研究現(xiàn)狀
- 語義搜索的研究涉及到多個領域坦冠,包括搜索引擎、語義 Web哥桥、數(shù)據(jù)挖掘和知識推理等辙浑。運用的主要方法可歸納為:
- 圖理論;在語義網(wǎng)的技術框架中拟糕,RDF(Resource Description Framework)是一個非撑信唬基礎、且又非常重要的數(shù)據(jù)模型已卸。通過 RDF 數(shù)據(jù)模型可將語義網(wǎng)中的本體組織為圖結(jié)構(gòu)佛玄,圖中的弧和由結(jié)點和弧組成的路徑中都包含著信息,因此在語義搜索中應用到了不同形式的圖遍歷方法累澡,如實例擴展及查詢的形式化方法等梦抢;
- 匹配算法,在語義搜索中需進行概念與關鍵字或者實例與關鍵字的匹配愧哟,關鍵字提供了一種快速定位信息的入口奥吩,而關鍵字和概念的匹配方法是語義搜索中重要的一環(huán);
- 邏輯特別是描述邏輯蕊梧、模糊邏輯等霞赫。邏輯和推理已經(jīng)被整合到未來的語義 Web 框架中。描述邏輯是知識的一種形式化表示方法肥矢,作為本體語言的基礎為人們所熟知端衰,如 OIL叠洗,DAML+OIL,OWL旅东。
- 在新一代的語義搜索引擎中較為典型的有兩個灭抑,且都是基于本體的語義搜索引擎,分別為:Swoogle 和 TUCUXI抵代。目前已開發(fā)出許多建立于本體上的語義搜索引擎腾节,如,Congnition荤牍、Hakia案腺、DeepDyve、Factbites康吵、Kngine 等劈榨。
-
Swoogle
- 從搜索返回結(jié)果的 Web 文檔中提取出本體,然后依據(jù)本體間的語義關聯(lián)性確定出文檔間的語義關系涎才。
- 與通常的本體存儲器或本體標注系統(tǒng)相比鞋既,其最大的與眾不同之處在于能夠鑒別出異源本體,此外還具有語義網(wǎng)文檔自動發(fā)現(xiàn)化制耍铜。
- 核心功能有:提取語義網(wǎng)中的實例數(shù)據(jù)邑闺;支持對語義網(wǎng)的瀏覽,提供語義網(wǎng)中文檔的元數(shù)據(jù)棕兼;搜尋語義網(wǎng)中的術語陡舅,譬如通過屬性與類定義的 URIs 等;搜索提取語義網(wǎng)中的本體伴挚,并使用獨有的算法提供高質(zhì)量的排序結(jié)果靶衍;可存儲各種類型的語義網(wǎng)文檔。
-
TUCUXI
- 通過所獲得的本體在 Web 上以特定規(guī)則爬行茎芋,并通過語義處理找出最符合要求的網(wǎng)頁颅眶。
-
Congnition
- 目前可提供三個 Demo,Congnition Q&A田弥,Medline Semantic Search 及 Wikipedia Semantic Search涛酗,涉及法律、醫(yī)學與消費者信息等深度內(nèi)容偷厦,且是首個真正實現(xiàn)人機對話界面的語義搜索引擎商叹。
-
Hakia
- 通過理解用戶查詢,并利用本體進行查詢擴展只泼,將各種基于主題的相關信息匯總剖笙。
- 其利用的技術包括:詞形變換、同義詞擴展请唱、概念具體化弥咪、自然語言理解等过蹂,可為用戶提供語義搜索范圍內(nèi)解決方案,能夠滿足用戶對于低成本酪夷、高效率的捜索需求榴啸。其搜索范圍包括新聞孽惰、網(wǎng)頁晚岭、博客、維基詞條勋功、Pubmed 等坦报,返回結(jié)果的呈現(xiàn)方式有深度語義(Galleries、Pubmed狂鞋、可信站點)片择、表面語義(新聞、博客骚揍、網(wǎng)頁)字管、常規(guī)搜索(Twitter 與圖像)加結(jié)果頁面鏈接。
-
Factbites
- 可依據(jù)事實進行回答信不,與結(jié)果鏈接相比嘲叔,其更專注于內(nèi)容分析,并可使捜索結(jié)果更有意義抽活,到目前也只有簡單搜索方式硫戈。其捜索結(jié)果呈現(xiàn)方式是從網(wǎng)頁中所抽取出的有意義的、完整的語句清單加 URL下硕。
-
DeepDyve
- 是深網(wǎng)或者隱形網(wǎng)絡搜索引擎丁逝,可提供深度網(wǎng)絡學術資源租賃服務與全文預覽服務。
- 其搜索范圍可包括來自 Nature梭姓、IEEE霜幼、Elsevier、Wiley-Blackwel誉尖、Springer 等一流出版社的有關健康科學罪既、生命科學、人文社會科學释牺、物理科學與工程學等領域的權威評審期刊與專利等等深度網(wǎng)絡學術資源萝衩,并同時可搜索 Wikipedia,現(xiàn)正慢慢擴展至更多的領域没咙。其搜索結(jié)果主要為 PDF 文檔猩谊,而搜索結(jié)果呈現(xiàn)方式是結(jié)果過濾項(主題、類型(可租用祭刚、僅供預覽牌捷、免費)墙牌、時間、作者暗甥、期刊)加結(jié)果頁鏈接喜滨。
-
Kngine
- 可對任何主題進行搜索,能夠支持移動端搜索撤防,其語種包括英語虽风、德語、西班牙語寄月、阿拉伯語辜膝。
- 以選項卡形式展現(xiàn)搜索結(jié)果,在選項卡下方可選擇顯示與每項相關的術語和網(wǎng)頁漾肮,其搜索方式包括語音搜索和簡單搜索厂抖。
- 語義搜索研究目前仍處于探索階段,現(xiàn)有的有關語義搜索的研究點主要有:引入推理和關聯(lián)關系的語義搜索克懊、語義搜索中的查詢擴展忱辅、語義搜索中的索引構(gòu)建。
引入推理和關聯(lián)關系的語義搜索
- 在語義 Web 設計中,Web 中的資源用 URI 統(tǒng)一標示,并利用 RDF/OWL標識資源的語義信息歧杏,由于數(shù)據(jù)間的語義明確便于計算機理解,基于此結(jié)構(gòu)良好的數(shù)據(jù)的搜索克服了關鍵詞查詢的歧義性垒在,同時在這些數(shù)據(jù)上還可以通過推理實現(xiàn)知識發(fā)現(xiàn),推理出新的知識扔亥。
- 資源間由關聯(lián)關系引入的鏈接路徑在某些特定領域比資源本身更具價值场躯。關聯(lián)搜索中的主要問題在于如何定義鏈接的興趣尺度,且這種定義方法不僅能夠消除用戶不感興趣的關聯(lián)關系旅挤,而且可以搜索到數(shù)據(jù)之間復雜的踢关、隱藏的關聯(lián)關系。
語義搜索中的查詢擴展
- 用概念來描述查詢主旨粘茄,找到與查詢語義相關的概念對查詢進行擴展签舞,因為概念是專門用來描述現(xiàn)實世界對象的∑獍辏基于概念,可以消除現(xiàn)實世界中人們對同一真實對象的不同表達方式的理解差異儒搭。
- 語義網(wǎng)的構(gòu)建目標即是將網(wǎng)絡中的概念構(gòu)成網(wǎng)狀結(jié)構(gòu),利用概念間的聯(lián)系形成拓撲網(wǎng)絡芙贫,而本體(語義網(wǎng)中的結(jié)點)則視為概念的具體表現(xiàn)形式搂鲫。
- 目前語義搜索的研究側(cè)重點圍繞于查詢語句或是文檔中的語義發(fā)掘,注重發(fā)現(xiàn)目標資源間的關聯(lián)磺平,通過深度的查詢理解而獲得更高的查準率魂仍。
語義搜索中的索引構(gòu)建
- 建立語義索引有助于解決一詞多義拐辽、多詞一義的問題。
- 利用語義網(wǎng)中的本體去分析文檔和查詢語句的語義信息擦酌,從而為海量的無結(jié)構(gòu)網(wǎng)頁數(shù)據(jù)建立語義索引,查詢時通過匹配用戶意圖和文檔中以本體標識的概念的相關性給出結(jié)果俱诸。這種方法避免了基于關鍵詞搜索的一詞多義和多詞一義問題。
3赊舶、技術展望與發(fā)展趨勢
- 未來的語義搜索研究方向可沿以下幾點展開:
- 語義搜索概念模型睁搭。語義模型能改善當前搜索引擎的搜索效果,未來可擴展成為構(gòu)建在語義Web上的新一代搜索引擎锯岖。
- 語義搜索本體知識庫的構(gòu)建介袜、維護與進化。研究垂直領域的本體知識庫構(gòu)建方法出吹、本體知識庫設計方法和本體知識庫查詢方法,構(gòu)建完備的領域本體知識庫辙喂,探索本體知識庫的維護方案捶牢,隨著領域本體知識庫的豐富還要研究并解決多領域異構(gòu)的本體知識庫的融合問題,提供本體相容性沖突檢測方案巍耗。
- 語義搜索的推理機制秋麸。結(jié)合領域本體,研究語義搜索中基于描述邏輯及模糊邏輯的推理問題炬太,提高基于描述邏輯的本體推理技術的推理效率灸蟆,擴大其推理算法的適用范圍,結(jié)合文本信息獲取用戶的查詢語義亲族,提高處理用戶查詢需求的準確度
- 語義搜索的結(jié)果排序炒考。傳統(tǒng)搜索引擎采用的排序方法只能對文本信息進行排序,不能對實體之間的復雜關系排序霎迫,無法實現(xiàn)語義搜索結(jié)果的排序斋枢,因此需研究基于語義的結(jié)果排序方法,實現(xiàn)本體知識庫中實體及實體之間關系的排序知给,提高返回結(jié)果的相關性瓤帚。
- 語義搜索的原型系統(tǒng)實現(xiàn)∩基于以上研究戈次,實現(xiàn)語義搜索引擎系統(tǒng)原型,在應用環(huán)境中進行測試并實現(xiàn)性能優(yōu)化筒扒。
四怯邪、基于知識的問答
- 問答系統(tǒng)(Question Answering, QA)是指讓計算機自動回答用戶所提出的問題,是信息服務的一種高級形式霎肯。不同于現(xiàn)有的搜索引擎,問答系統(tǒng)返回用戶的不再是基于關鍵詞匹配的相關文檔排序擎颖,而是精準的自然語言形式的答案榛斯。
- 基于圖的結(jié)構(gòu)化知識,分析用戶自然語言問題的語義搂捧,進而在已構(gòu)建的結(jié)構(gòu)化知識圖譜中通過檢索驮俗、匹配或推理等手段,獲取正確答案允跑,這一任務稱之為知識庫問答(Question Answering over Knowledge Base, KBQA)王凑。
1、研究內(nèi)容與關鍵科學問題
- 知識庫問答系統(tǒng)在回答用戶問題時聋丝,需要正確理解用戶所提的自然語言問題索烹,抽取其中的關鍵語義信息,然后在已有單個或多個知識庫中通過檢索弱睦、推理等手段獲取答案并返回給用戶百姓。其中所涉及的關鍵技術包括:詞法分析、句法分析况木、語義分析垒拢、信息檢索、邏輯推理火惊、語言生成等求类。
- 傳統(tǒng)知識庫問答系統(tǒng)多集中在限定領域,針對有限類型的問題進行回答∫倌停現(xiàn)有研究趨向于開放域尸疆、面向大規(guī)模、開放域惶岭、多源異構(gòu)知識庫問答系統(tǒng)構(gòu)建寿弱。
- 目前主要面臨的關鍵科學問題有問句語義解析、大規(guī)模知識推理和異構(gòu)知識關聯(lián)俗他。
(1)問句語義解析
- 問句語義解析是知識庫問答研究所面臨的首要科學問題脖捻。面對結(jié)構(gòu)化知識庫,需要將用戶問題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句兆衅,進而在知識圖譜進行進行查詢地沮、推理等操作,獲取正確答案羡亩。
- 具體過程需要分析用戶問題中的語義單元與知識圖譜中的實體摩疑、概念進行鏈接,并分析問句中這些語義單元之間的語義關系畏铆,將用戶問題解析成為知識圖譜中所定義的實體雷袋、概念、關系所組成的結(jié)構(gòu)化語義表示形式。其中涉及詞法分析楷怒、句法分析蛋勺、語義分析等多項關鍵技術,需要自底向上從文本的多個維度理解其中包含的語義內(nèi)容鸠删。
- 在詞語層面抱完,需要在開放域環(huán)境下,研究實體(Entity)和術語 (Terminology)的識別刃泡、答案類型詞(Lexical Answer Type)識別巧娱、實體消歧(Entity Disambiguation)等關鍵技術。
- 在句法層面烘贴,需要解析句子中詞與詞之間禁添、短語與短語之間的句法關系,分析出句子句法結(jié)構(gòu)桨踪。
- 在語義層面老翘,需要根據(jù)詞語層面、句法層面的分析結(jié)果馒闷,將自然語言問句解析成可計算的結(jié)構(gòu)化的邏輯表達形式(如一階謂詞邏輯表達式)酪捡。
(2)大規(guī)模知識推理
- 在問答過程中,并不是所有的答案都能通過在知識圖譜中進行檢索或查詢就可以獲取答案纳账。主要原因是已有知識庫本身的覆蓋度有限。需要在已有的知識體系中捺疼,通過知識推理的手段獲取這些隱含的答案疏虫。
- 如何將已有的基于符號表示的邏輯推理與基于分布式表示的數(shù)值推理相結(jié)合,研究融合符號邏輯和表示學習的知識推理技術啤呼,是知識推理任務中的關鍵難點問題卧秘。
(3)異構(gòu)知識互聯(lián)
- 用戶問題的復雜性和多樣性,使得問題的答案往往不能夠在單一知識庫中找到官扣,需要綜合多個知識庫(多種語言翅敌、多種領域、多種模態(tài))內(nèi)的知識才能給出答案惕蹄。
- 由于多源知識庫之間存在結(jié)構(gòu)差異蚯涮、內(nèi)容差異、語言差異卖陵、模態(tài)差異遭顶,要完成這一任務并不簡單。
- 在面向多源異構(gòu)知識庫問答過程中泪蔫,相對于面向單一知識庫的問答棒旗,問句文本歧義更加嚴重。同一短語撩荣,在不同知識庫中會映射為更多的概念(實體铣揉、關系)候選饶深,這使得問 句的語義解析更加困難。
- 問句中不同的子問題需要在不同的知識庫中進行求解逛拱,這需要問答系統(tǒng)對于子問題進行精準的劃分敌厘,同時確定子問題求解范圍。
- 不同源異構(gòu)知識庫之間存在冗余關聯(lián)橘券,不同知識庫中的不同實體额湘、關系間具有同指關系。
2旁舰、技術方法和研究現(xiàn)狀
- 根據(jù)技術路線的不同锋华,已有知識庫問答技術大致可以分為兩類:
- 基于語義解析(Semantic Parsing)的知識庫問答方法;
- 基于檢索排序的知識庫問答方法箭窜。下面將分別簡要介紹技術現(xiàn)狀毯焕。
(1)基于語義解析的知識庫問答方法
- 如何把用戶的自然語言問句轉(zhuǎn)化為結(jié)構(gòu)化的知識庫查詢語句便是進行問答的核心所在,其關鍵是對于自然語言問句進行解析磺樱。
- 目前纳猫,主流方法是通過語義解析,將用戶的自然語言問句轉(zhuǎn)化成結(jié)構(gòu)化的語義表示竹捉。
- 傳統(tǒng)的語義分析方法存在以下幾個缺陷:
- ·資源(例如詞匯表芜辕、規(guī)則集)標注費時費力,傳統(tǒng)方法在有限的訓練數(shù)據(jù)下性能大打折扣块差。
- 大規(guī)模知識庫的開放域特性使得文本歧義問題更加嚴重侵续,傳統(tǒng)語義分析方法難以處理這一問題。
- 在很多場景下憨闰,回答一個問題需要多個知識庫的綜合運用状蜗。不同來源知識庫是異構(gòu)的,如何處理多知識庫間的冗余和差異性鹉动,是面向多知識庫的問答系統(tǒng)面臨的主要挑戰(zhàn)轧坎。
(2)基于檢索排序的知識庫問答方法
- 基于語義解析的知識庫問答系統(tǒng)的處理范式通常仍然是基于符號邏輯的,缺乏靈活性泽示。在分析問句語義過程中缸血,易受到符號間語義鴻溝影響。同時從自然語言問句到結(jié)構(gòu)化語義表達需要多步操作边琉,多步間的誤差傳遞對于問答的準確度也有很大的影響属百。
- 與傳統(tǒng)基于符號的知識庫問答方法相比,基于表示學習的知識庫問答方法更具魯棒性变姨,其在效果上已經(jīng)逐步超過傳統(tǒng)方法族扰。這些方法的基本假設是把知識庫問答看做是一個語義匹配的過程。通過表示學習,我們能夠用戶的自然語言問題轉(zhuǎn)換為一個低維空間中的數(shù)值向量(分布式語義表示)渔呵,同時知識庫中的實體怒竿、概念、類別以及關系也能夠表示成為同一語義空間的數(shù)值向量扩氢。那么傳統(tǒng)知識庫問答任務就可以看成問句語義向量與知識庫中實體耕驰、邊的語義向量相似度計算的過程。
3录豺、技術展望與發(fā)展趨勢
- 知識庫問答技術的發(fā)展趨勢是從限定領域向開放領域朦肘、從單個數(shù)據(jù)源向多個數(shù)據(jù)源、從淺層語義分析向深度推理不斷推進双饥。
- 未來的領域和行業(yè)的重點方向有:
- 面向復雜問句的深度學習知識庫問答方法 媒抠。已有基于深度學習的知識庫問答方法目前尚只能解決簡單類型問題(包含單一關系的問題類型)。在面對復雜問題時咏花,例如有限制條件的問題(what did obama do before he was elected president?)趴生、聚合問題(when's the last time the steelers won the superbowl?)等,已有方法處理手段單一昏翰,常忽略知識庫與文本語義的關聯(lián)與約束苍匆,缺乏在已有知識資源約束下的文本語義表示學習手段。
- 分布式表示與符號表示相結(jié)合的知識庫問答棚菊。目前浸踩,基于深度學習的知識庫問答方法試圖通過高質(zhì)量已標注的問題-答案建立聯(lián)合學習模型,同時學習知識庫庫和問題的語義表示及他們之間的語義映射關系统求,試圖通過分布式表示(向量)間的簡單數(shù)值運算對于復雜的問答過程進行建模民轴。這類方法的優(yōu)勢在于把傳統(tǒng)的問答語義解析的復雜步驟轉(zhuǎn)變?yōu)橐粋€可學習的過程。同時球订,問答過程也缺乏可解釋性。從目前自然語言處理很多任務來看瑰钮,將統(tǒng)計與知識相結(jié)合是未來技術的重點突破方向冒滩。
- 面向問答的深度推理。已有知識圖譜規(guī)模已經(jīng)十分巨大浪谴,能夠覆蓋多個領域开睡,但仍舊面臨信息缺失的現(xiàn)象。傳統(tǒng)基于符號邏輯的邏輯推理方法基于嚴格的符號匹配苟耻,過分依賴于推理規(guī)則的生成篇恒, 因此具有領域適應性差、無法進行大規(guī)模推理的缺點凶杖。而深度學習基于分布式語義表示胁艰,利用語義空間中的數(shù)值模糊計算替代傳統(tǒng)問答過程中的符號嚴格匹配,為解決上述問題供一種途徑,但也存在推理結(jié)果準確度低、可解釋性差的問題腾么。利用深度學習大規(guī)模奈梳、可學習的特點,在深度神經(jīng)網(wǎng)絡框架下解虱,融入傳統(tǒng)的邏輯推理規(guī)則攘须,構(gòu)建精準的大規(guī)模知識推理引擎是自動問答迫切需要解決的難點問題。
- 對話中的自然語言形式回復殴泰。傳統(tǒng)的自動問答都是采用一問一答的形式于宙。然而在很多場景下,需要提問者和系統(tǒng)進行多輪對話交互悍汛,實現(xiàn)問答過程捞魁。需要系統(tǒng)返回用戶的答案不再只是單一實體、概念员凝、關系的形式署驻,而是需要是以自然語言的形式返回答案。這就需要自動生成自然語言的回復健霹。在這一過程中旺上,如何與知識庫相結(jié)合,將知識庫問答的答案加入自然語言回復中糖埋,仍是亟待解決的問題宣吱。
詳情請參考《KGDevReport2018知識圖譜》