最全知識(shí)圖譜介紹:關(guān)鍵技術(shù)方咆、開(kāi)放數(shù)據(jù)集、應(yīng)用案例匯總

1 知識(shí)圖譜構(gòu)建技術(shù)

本節(jié)首先給出知識(shí)圖譜的技術(shù)地圖蟀架，然后介紹知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)瓣赂，包括關(guān)系抽取技術(shù)、知識(shí)融合技術(shù)辜窑、實(shí)體鏈接技術(shù)和知識(shí)推理技術(shù)钩述。

1.1 知識(shí)圖譜技術(shù)地圖

構(gòu)建知識(shí)圖譜的主要目的是獲取大量的、讓計(jì)算機(jī)可讀的知識(shí)穆碎。在互聯(lián)網(wǎng)飛速發(fā)展的今天牙勘，知識(shí)大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、大量半結(jié)構(gòu)化的表格和網(wǎng)頁(yè)以及生產(chǎn)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中。為了闡述如何構(gòu)建知識(shí)圖譜方面，本文給出了構(gòu)建知識(shí)圖譜的技術(shù)地圖放钦，該技術(shù)地圖如圖1所示。整個(gè)技術(shù)圖主要分為三個(gè)部分恭金，第一個(gè)部分是知識(shí)獲取操禀，主要闡述如何從非結(jié)構(gòu)化、半結(jié)構(gòu)化横腿、以及結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)颓屑。第二部是數(shù)據(jù)融合饿凛，主要闡述如何將不同數(shù)據(jù)源獲取的知識(shí)進(jìn)行融合構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián)讼育。第三部分是知識(shí)計(jì)算及應(yīng)用烛谊，這一部分關(guān)注的是基于知識(shí)圖譜計(jì)算功能以及基于知識(shí)圖譜的應(yīng)用泳桦。

1.1.1 知識(shí)獲取

在處理非結(jié)構(gòu)化數(shù)據(jù)方面，首先要對(duì)用戶的非結(jié)構(gòu)化數(shù)據(jù)提取正文仑撞。目前的互聯(lián)網(wǎng)數(shù)據(jù)存在著大量的廣告伏钠，正文提取技術(shù)希望有效的過(guò)濾廣告而只保留用戶關(guān)注的文本內(nèi)容刃跛。當(dāng)?shù)玫秸奈谋竞蠊辰埽枰ㄟ^(guò)自然語(yǔ)言技術(shù)識(shí)別文章中的實(shí)體纫塌，實(shí)體識(shí)別通常有兩種方法，一種是用戶本身有一個(gè)知識(shí)庫(kù)則可以使用實(shí)體鏈接將文章中可能的候選實(shí)體鏈接到用戶的知識(shí)庫(kù)上讲弄。另一種是當(dāng)用戶沒(méi)有知識(shí)庫(kù)則需要使用命名實(shí)體識(shí)別技術(shù)識(shí)別文章中的實(shí)體措左。若文章中存在實(shí)體的別名或者簡(jiǎn)稱還需要構(gòu)建實(shí)體間的同義詞表，這樣可以使不同實(shí)體具有相同的描述避除。在識(shí)別實(shí)體的過(guò)程中可能會(huì)用到分詞媳荒、詞性標(biāo)注，以及深度學(xué)習(xí)模型中需要用到分布式表達(dá)如詞向量驹饺。同時(shí)為了得到不同粒度的知識(shí)還可能需要提取文中的關(guān)鍵詞，獲取文章的潛在主題等缴渊。當(dāng)用戶獲得實(shí)體后赏壹，則需要關(guān)注實(shí)體間的關(guān)系，我們稱為實(shí)體關(guān)系識(shí)別衔沼，有些實(shí)體關(guān)系識(shí)別的方法會(huì)利用句法結(jié)構(gòu)來(lái)幫助確定兩個(gè)實(shí)體間的關(guān)系蝌借，因此在有些算法中會(huì)利用依存分析或者語(yǔ)義解析。如果用戶不僅僅想獲取實(shí)體間的關(guān)系指蚁，還想獲取一個(gè)事件的詳細(xì)內(nèi)容菩佑，那么則需要確定事件的觸發(fā)詞并獲取事件相應(yīng)描述的句子，同時(shí)識(shí)別事件描述句子中實(shí)體對(duì)應(yīng)事件的角色凝化。

在處理半結(jié)構(gòu)化數(shù)據(jù)方面稍坯，主要的工作是通過(guò)包裝器學(xué)習(xí)半結(jié)構(gòu)化數(shù)據(jù)的抽取規(guī)則。由于半結(jié)構(gòu)化數(shù)據(jù)具有大量的重復(fù)性的結(jié)構(gòu)，因此對(duì)數(shù)據(jù)進(jìn)行少量的標(biāo)注瞧哟，可以讓機(jī)器學(xué)出一定的規(guī)則進(jìn)而在整個(gè)站點(diǎn)下使用規(guī)則對(duì)同類型或者符合某種關(guān)系的數(shù)據(jù)進(jìn)行抽取混巧。最后當(dāng)用戶的數(shù)據(jù)存儲(chǔ)在生產(chǎn)系統(tǒng)的數(shù)據(jù)庫(kù)中時(shí)，需要通過(guò) ETL 工具對(duì)用戶生產(chǎn)系統(tǒng)下的數(shù)據(jù)進(jìn)行重新組織勤揩、清洗咧党、檢測(cè)最后得到符合用戶使用目的數(shù)據(jù)。

1.1.2 知識(shí)融合

當(dāng)知識(shí)從各個(gè)數(shù)據(jù)源下獲取時(shí)需要提供統(tǒng)一的術(shù)語(yǔ)將各個(gè)數(shù)據(jù)源獲取的知識(shí)融合成一個(gè)龐大的知識(shí)庫(kù)陨亡。提供統(tǒng)一術(shù)語(yǔ)的結(jié)構(gòu)或者數(shù)據(jù)被稱為本體傍衡，本體不僅提供了統(tǒng)一的術(shù)語(yǔ)字典，還構(gòu)建了各個(gè)術(shù)語(yǔ)間的關(guān)系以及限制负蠕。本體可以讓用戶非常方便和靈活的根據(jù)自己的業(yè)務(wù)建立或者修改數(shù)據(jù)模型蛙埂。通過(guò)數(shù)據(jù)映射技術(shù)建立本體中術(shù)語(yǔ)和不同數(shù)據(jù)源抽取知識(shí)中詞匯的映射關(guān)系，進(jìn)而將不同數(shù)據(jù)源的數(shù)據(jù)融合在一起虐急。同時(shí)不同源的實(shí)體可能會(huì)指向現(xiàn)實(shí)世界的同一個(gè)客體箱残，這時(shí)需要使用實(shí)體匹配將不同數(shù)據(jù)源相同客體的數(shù)據(jù)進(jìn)行融合。不同本體間也會(huì)存在某些術(shù)語(yǔ)描述同一類數(shù)據(jù)止吁，那么對(duì)這些本體間則需要本體融合技術(shù)把不同的本體融合被辑。最后融合而成的知識(shí)庫(kù)需要一個(gè)存儲(chǔ)、管理的解決方案敬惦。知識(shí)存儲(chǔ)和管理的解決方案會(huì)根據(jù)用戶查詢場(chǎng)景的不同采用不同的存儲(chǔ)架構(gòu)如 NoSQL 或者關(guān)系數(shù)據(jù)庫(kù)盼理。同時(shí)大規(guī)模的知識(shí)庫(kù)也符合大數(shù)據(jù)的特征，因此需要傳統(tǒng)的大數(shù)據(jù)平臺(tái)如 Spark 或者 Hadoop 提供高性能計(jì)算能力俄删，支持快速運(yùn)算宏怔。

1.1.3 知識(shí)計(jì)算及應(yīng)用

知識(shí)計(jì)算主要是根據(jù)圖譜提供的信息得到更多隱含的知識(shí)，如通過(guò)本體或者規(guī)則推理技術(shù)可以獲取數(shù)據(jù)中存在的隱含知識(shí)畴椰；而鏈接預(yù)測(cè)則可預(yù)測(cè)實(shí)體間隱含的關(guān)系臊诊；同時(shí)使用社會(huì)計(jì)算的不同算法在知識(shí)網(wǎng)絡(luò)上計(jì)算獲取知識(shí)圖譜上存在的社區(qū)，提供知識(shí)間關(guān)聯(lián)的路徑斜脂；通過(guò)不一致檢測(cè)技術(shù)發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷抓艳。通過(guò)知識(shí)計(jì)算知識(shí)圖譜可以產(chǎn)生大量的智能應(yīng)用如可以提供精確的用戶畫(huà)像為精準(zhǔn)營(yíng)銷系統(tǒng)提供潛在的客戶；提供領(lǐng)域知識(shí)給專家系統(tǒng)提供決策數(shù)據(jù)帚戳，給律師玷或、醫(yī)生、公司 CEO 等提供輔助決策的意見(jiàn)片任；提供更智能的檢索方式偏友，使用戶可以通過(guò)自然語(yǔ)言進(jìn)行搜索；當(dāng)然知識(shí)圖譜也是問(wèn)答必不可少的重要組建对供。

image

圖1

從上圖可以看出位他，知識(shí)圖譜涉及到的技術(shù)非常多，每一項(xiàng)技術(shù)都需要專門(mén)去研究，而且已經(jīng)有很多研究成果棱诱。由于篇幅的限制泼橘，本文重點(diǎn)介紹知識(shí)圖譜構(gòu)建和知識(shí)計(jì)算的幾個(gè)核心技術(shù)。

1.2　實(shí)體關(guān)系識(shí)別技術(shù)

最初實(shí)體關(guān)系識(shí)別任務(wù)在 1998 年 MUC（Message Understanding Conference）中以 MUC-7 任務(wù)被引入迈勋，目的是通過(guò)填充關(guān)系模板槽的方式抽去文本中特定的關(guān)系炬灭。1998 后，在 ACE（Automatic Content Extraction）中被定義為關(guān)系檢測(cè)和識(shí)別的任務(wù)靡菇；2009 年 ACE 并入 TAC (Text Analysis Conference)重归，關(guān)系抽取被并入到 KBP（knowledgeBase Population）領(lǐng)域的槽填充任務(wù)。從關(guān)系任務(wù)定義上厦凤，分為限定領(lǐng)域（Close Domain）和開(kāi)放領(lǐng)域（Open IE）鼻吮；從方法上看，實(shí)體關(guān)系識(shí)別了從流水線識(shí)別方法逐漸過(guò)渡到端到端的識(shí)別方法较鼓。

基于統(tǒng)計(jì)學(xué)的方法將從文本中識(shí)別實(shí)體間關(guān)系的問(wèn)題轉(zhuǎn)化為分類問(wèn)題椎木。基于統(tǒng)計(jì)學(xué)的方法在實(shí)體關(guān)系識(shí)別時(shí)需要加入實(shí)體關(guān)系上下文信息確定實(shí)體間的關(guān)系博烂，然而基于監(jiān)督的方法依賴大量的標(biāo)注數(shù)據(jù)香椎，因此半監(jiān)督或者無(wú)監(jiān)督的方法受到了更多關(guān)注。

（1）監(jiān)督學(xué)習(xí)：Zhou[13] 在 Kambhatla 的基礎(chǔ)上加入了基本詞組塊信息和 WordNet禽篱，使用 SVM 作為分類器畜伐，在實(shí)體關(guān)系識(shí)別的準(zhǔn)確率達(dá)到了 55.5%，實(shí)驗(yàn)表明實(shí)體類別信息的特征有助于提高關(guān)系抽取性能躺率； Zelenko[14] 等人使用淺層句法分析樹(shù)上最小公共子樹(shù)來(lái)表達(dá)關(guān)系實(shí)例玛界，計(jì)算兩顆子樹(shù)之間的核函數(shù)，通過(guò)訓(xùn)練例如 SVM 模型的分類器來(lái)對(duì)實(shí)例進(jìn)行分悼吱。但基于核函數(shù)的方法的問(wèn)題是召回率普遍較低慎框，這是由于相似度計(jì)算過(guò)程匹配約束比較嚴(yán)格，因此在后續(xù)研究對(duì)基于核函數(shù)改進(jìn)中后添，大部分是圍繞改進(jìn)召回率鲤脏。但隨著時(shí)間的推移，語(yǔ)料的增多吕朵、深度學(xué)習(xí)在圖像和語(yǔ)音領(lǐng)域獲得成功，信息抽取逐漸轉(zhuǎn)向了基于神經(jīng)模型的研究窥突，相關(guān)的語(yǔ)料被提出作為測(cè)試標(biāo)準(zhǔn)努溃，如 SemEval-2010 task 8[15]∽栉剩基于神經(jīng)網(wǎng)絡(luò)方法的研究有梧税，Hashimoto[16] 等人利用 Word Embedding 方法從標(biāo)注語(yǔ)料中學(xué)習(xí)特定的名詞對(duì)的上下文特征，然后將該特征加入到神經(jīng)網(wǎng)絡(luò)分類器中，在 SemEval-2010 task 8 上取得了 F1 值 82.8% 的效果第队∠基于神經(jīng)網(wǎng)絡(luò)模型顯著的特點(diǎn)是不需要加入太多的特征，一般可用的特征有詞向量凳谦、位置等忆畅，因此有人提出利用基于聯(lián)合抽取模型，這種模型可以同時(shí)抽取實(shí)體和其之間的關(guān)系尸执。聯(lián)合抽取模型的優(yōu)點(diǎn)是可以避免流水線模型存在的錯(cuò)誤累積[17-22]家凯。其中比較有代表性的工作是[20]，該方法通過(guò)提出全新的全局特征作為算法的軟約束如失，進(jìn)而同時(shí)提高關(guān)系抽取和實(shí)體抽取的準(zhǔn)確率绊诲，該方法在 ACE 語(yǔ)料上比傳統(tǒng)的流水線方法 F1 提高了 1.5%，褪贵；另一項(xiàng)工作是 [22]掂之，利用雙層的 LSTM-RNN 模型訓(xùn)練分類模型，第一層 LSTM 輸入的是詞向量脆丁、位置特征和詞性來(lái)識(shí)別實(shí)體的類型世舰。訓(xùn)練得到的 LSTM 中隱藏層的分布式表達(dá)和實(shí)體的分類標(biāo)簽信息作為第二層 RNN 模型的輸入，第二層的輸入實(shí)體之間的依存路徑偎快，第二層訓(xùn)練對(duì)關(guān)系的分類冯乘，通過(guò)神經(jīng)網(wǎng)絡(luò)同時(shí)優(yōu)化 LSTM 和 RNN 的模型參數(shù)，實(shí)驗(yàn)與另一個(gè)采用神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取模型[21]相比在關(guān)系分類上有一定的提升晒夹。但無(wú)論是流水線方法還是聯(lián)合抽取方法裆馒，都屬于有監(jiān)督學(xué)習(xí)，因此需要大量的訓(xùn)練語(yǔ)料丐怯，尤其是對(duì)基于神經(jīng)網(wǎng)絡(luò)的方法喷好，需要大量的語(yǔ)料進(jìn)行模型訓(xùn)練，因此這些方法都不適用于構(gòu)建大規(guī)模的 Knowledge Base读跷。

（2）半（弱）監(jiān)督學(xué)習(xí)：半監(jiān)督學(xué)習(xí)主要是利用少量的標(biāo)注信息進(jìn)行學(xué)習(xí)梗搅，這方面的工作主要是基于 Bootstrap 的方法⌒Ю溃基于 Bootstrap 的方法主要是利用少量的實(shí)例作為初始種子的集合无切，然后利用 pattern 學(xué)習(xí)方法進(jìn)行學(xué)習(xí)，通過(guò)不斷的迭代丐枉，從非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)例哆键，然后從新學(xué)到的實(shí)例中學(xué)習(xí)新的 pattern 并擴(kuò)種 pattern 集合。Brin[23]等人通過(guò)少量的實(shí)例學(xué)習(xí)種子模板瘦锹，從網(wǎng)絡(luò)上大量非結(jié)構(gòu)化文本中抽取新的實(shí)例籍嘹，同時(shí)學(xué)習(xí)新的抽取模板闪盔，其主要貢獻(xiàn)是構(gòu)建了 DIPRE 系統(tǒng)；Agichtein[24]在 Brin 的基礎(chǔ)上對(duì)新抽取的實(shí)例進(jìn)行可信度的評(píng)分和完善關(guān)系描述的模式辱士，設(shè)計(jì)實(shí)現(xiàn)了 Snowball 抽取系統(tǒng)泪掀；此后的一些系統(tǒng)都沿著 Bootstrap 的方法，但會(huì)加入更合理的對(duì) pattern 描述颂碘、更加合理的限制條件和評(píng)分策略异赫，或者基于先前系統(tǒng)抽取結(jié)果上構(gòu)建大規(guī)模 pattern；如 NELL（Never-EndingLanguage Learner）系統(tǒng)[25-26]凭涂，NELL 初始化一個(gè)本體和種子 pattern祝辣，從大規(guī)模的 Web 文本中學(xué)習(xí)，通過(guò)對(duì)學(xué)習(xí)到的內(nèi)容進(jìn)行打分來(lái)提高準(zhǔn)確率切油，目前已經(jīng)獲得了 280 萬(wàn)個(gè)事實(shí)蝙斜。

（3）無(wú)監(jiān)督學(xué)習(xí)： Bollegala[27]從搜索引擎摘要中獲取和聚合抽取模板，將模板聚類后發(fā)現(xiàn)由實(shí)體對(duì)代表的隱含語(yǔ)義關(guān)系; Bollegala[28]使用聯(lián)合聚類(Co-clustering)算法澎胡，利用關(guān)系實(shí)例和關(guān)系模板的對(duì)偶性孕荠，提高了關(guān)系模板聚類效果，同時(shí)使用 L1 正則化 Logistics 回歸模型攻谁，在關(guān)系模板聚類結(jié)果中篩選出代表性的抽取模板稚伍，使得關(guān)系抽取在準(zhǔn)確率和召回率上都有所提高。

無(wú)監(jiān)督學(xué)習(xí)一般利用語(yǔ)料中存在的大量冗余信息做聚類戚宦，在聚類結(jié)果的基礎(chǔ)上給定關(guān)系个曙，但由于聚類方法本身就存在難以描述關(guān)系和低頻實(shí)例召回率低的問(wèn)題，因此無(wú)監(jiān)督學(xué)習(xí)一般難以得很好的抽取效果受楼。

1.3　知識(shí)融合技術(shù)

知識(shí)融合（knowledge fusion）指的是將多個(gè)數(shù)據(jù)源抽取的知識(shí)進(jìn)行融合垦搬。與傳統(tǒng)數(shù)據(jù)融合（datafusion）[29]任務(wù)的主要不同是，知識(shí)融合可能使用多個(gè)知識(shí)抽取工具為每個(gè)數(shù)據(jù)項(xiàng)從每個(gè)數(shù)據(jù)源中抽取相應(yīng)的值艳汽，而數(shù)據(jù)融合未考慮多個(gè)抽取工具[30]猴贰。由此，知識(shí)融合除了應(yīng)對(duì)抽取出來(lái)的事實(shí)本身可能存在的噪音外河狐，還比數(shù)據(jù)融合多引入了一個(gè)噪音米绕，就是不同抽取工具通過(guò)實(shí)體鏈接和本體匹配可能產(chǎn)生不同的結(jié)果。另外馋艺，知識(shí)融合還需要考慮本體的融合和實(shí)例的融合栅干。

文獻(xiàn)[30]首先從已有的數(shù)據(jù)融合方法中挑選出易于產(chǎn)生有意義概率的、便于使用基于 MapReduce 框架的捐祠、有前途的最新方法碱鳞，然后對(duì)這些挑選出的方法做出以下改進(jìn)以用于知識(shí)融合：將每個(gè)抽取工具同每個(gè)信息源配對(duì)，每對(duì)作為數(shù)據(jù)融合任務(wù)中的一個(gè)數(shù)據(jù)源雏赦，這樣就變成了傳統(tǒng)的數(shù)據(jù)融合任務(wù)劫笙；改進(jìn)已有數(shù)據(jù)融合方法使其輸出概率，代替原來(lái)的真假二值星岗；根據(jù)知識(shí)融合中的數(shù)據(jù)特征修改基于 MapReduce 的框架填大。文獻(xiàn)[31]提出一個(gè)將通過(guò)不同搜索引擎得到的知識(shí)卡片（即結(jié)構(gòu)化的總結(jié)）融合起來(lái)的方法。針對(duì)一個(gè)實(shí)體查詢俏橘，不同搜索引擎可能返回不同的知識(shí)卡片允华，即便同一個(gè)搜索引擎也可能返回多個(gè)知識(shí)卡片。將這些知識(shí)卡片融合起來(lái)時(shí)寥掐，同文獻(xiàn)[30]中提出的方法類似靴寂，將知識(shí)融合中的三維問(wèn)題將為二維問(wèn)題，再應(yīng)用傳統(tǒng)的數(shù)據(jù)融合技術(shù)召耘。不過(guò)百炬，文獻(xiàn)[31]提出了一個(gè)新的概率打分算法，用于挑選一個(gè)知識(shí)卡片最有可能指向的實(shí)體污它，并設(shè)計(jì)了一個(gè)基于學(xué)習(xí)的方法來(lái)做屬性匹配剖踊。

在知識(shí)融合技術(shù)中，本體匹配扮演著非常重要的角色衫贬，提供了概念或者實(shí)體之間的對(duì)應(yīng)關(guān)系德澈。截止目前，人們已經(jīng)提出了各種各樣的本體匹配算法固惯，一般可以分為模式匹配（schema matching）和實(shí)例匹配（instance matching）梆造，也有少量的同時(shí)考慮模式和實(shí)例的匹配[32-34]。從技術(shù)層面來(lái)講葬毫，本體匹配可分為啟發(fā)式方法镇辉、概率方法、基于圖的方法供常、基于學(xué)習(xí)的方法和基于推理的方法摊聋。下面圍繞模式匹配和實(shí)例匹配，具體介紹各自分類中幾個(gè)具有代表性的匹配方法栈暇。

模式匹配主要尋找本體中屬性和概念之間的對(duì)應(yīng)關(guān)系麻裁，文獻(xiàn)[35]和[36]給出比較詳盡的綜述。文獻(xiàn)[37]提出一個(gè)自動(dòng)的語(yǔ)義匹配方法源祈，該方法首先利用像 WordNet 之類的詞典以及本體的結(jié)構(gòu)等信息進(jìn)行模式匹配煎源，然后將結(jié)果根據(jù)加權(quán)平均的方法整合起來(lái)，再利用一些模式（patterns）進(jìn)行一致性檢查香缺，去除那些導(dǎo)致不一致的對(duì)應(yīng)關(guān)系手销。該過(guò)程可循環(huán)的，直到不再找到新的對(duì)應(yīng)關(guān)系為止图张。文獻(xiàn)[38]也是考慮多種匹配算法的結(jié)合锋拖，利用基于術(shù)語(yǔ)的一些相似度計(jì)算算法诈悍，例如 n-gram 和編輯距離，這里算法計(jì)算的結(jié)果根據(jù)加權(quán)求和進(jìn)行合并兽埃，還考慮了概念的層次關(guān)系和一些背景知識(shí)侥钳，最后通過(guò)用戶定義的權(quán)重進(jìn)行合并。為了應(yīng)對(duì)大規(guī)模的本體柄错，文獻(xiàn)[39]提出一個(gè)使用錨（anchor）的系統(tǒng)舷夺，該系統(tǒng)以一對(duì)來(lái)自兩個(gè)本體的相似概念為起點(diǎn)，根據(jù)這些概念的父概念和子概念等鄰居信息逐漸地構(gòu)建小片段售貌，從中找出匹配的概念给猾。新找出的匹配的概念對(duì)又可作為新的錨，然后再根據(jù)鄰居信息構(gòu)建新的片段颂跨。該過(guò)程不斷地重復(fù)敢伸，直到未找到新的匹配概念對(duì)時(shí)停止。文獻(xiàn)[40]則以分而治之的思想處理大規(guī)模本體毫捣，該方法先根據(jù)本體的結(jié)構(gòu)對(duì)其進(jìn)行劃分獲得組塊详拙，然后從不同本體獲得的組塊進(jìn)行基于錨的匹配，這里的錨是指事先匹配好的實(shí)體對(duì)蔓同，最后再?gòu)钠ヅ涞慕M塊中找出對(duì)應(yīng)的概念和屬性∪恼蓿現(xiàn)有的匹配方法通常是將多個(gè)匹配算法相結(jié)合，采用加權(quán)平均或加權(quán)求和的方式進(jìn)行合并斑粱。但是弃揽，由于本體結(jié)構(gòu)的不對(duì)稱性等特征，這種固定的加權(quán)方法顯出不足则北。文獻(xiàn)[41]基于貝葉斯決策的風(fēng)險(xiǎn)最小化提出一個(gè)動(dòng)態(tài)的合并方法矿微，該方法可以根據(jù)本體的特征，在計(jì)算每個(gè)實(shí)體對(duì)的相似度時(shí)動(dòng)態(tài)地選擇使用哪幾個(gè)匹配算法尚揣，如何合并這些算法涌矢，其靈活性帶來(lái)了很好的匹配結(jié)果。

實(shí)例匹配是評(píng)估異構(gòu)知識(shí)源之間實(shí)例對(duì)的相似度快骗，用來(lái)判斷這些實(shí)例是否指向給定領(lǐng)域的相同實(shí)體娜庇。最近幾年，隨著 Web 2.0 和語(yǔ)義 Web 技術(shù)的不斷發(fā)展方篮，越來(lái)越多的語(yǔ)義數(shù)據(jù)往往具有豐富實(shí)例和薄弱模式的特點(diǎn)名秀，促使本體匹配的研究工作慢慢的從模式層轉(zhuǎn)移到實(shí)例層[42]。文獻(xiàn)[43]提出一個(gè)自訓(xùn)練的方法進(jìn)行實(shí)例匹配藕溅，該方法首先根據(jù) owl:sameAs匕得、函數(shù)型屬性（functional properties）和基數(shù)（cardinalities）構(gòu)建一個(gè)核（kernel），再根據(jù)區(qū)別比較明顯的屬性值對(duì)遞歸的對(duì)該核進(jìn)行擴(kuò)展巾表。文獻(xiàn)[44]利用現(xiàn)有的局部敏感哈希（locality-sensitivehashing）技術(shù)來(lái)大幅提高實(shí)例匹配的可擴(kuò)展性汁掠，該方法首先需要定義用于實(shí)例相似性分析的粒度略吨，然后使用分割好的字符串技術(shù)實(shí)例相似度。文獻(xiàn)[45]首先使用向量空間模型表示實(shí)例的描述性信息考阱，再基于規(guī)則采用倒排索引（inverted indexes）獲取最初的匹配候選晋南，在使用用戶定義的屬性值對(duì)候選進(jìn)行過(guò)濾，最后計(jì)算出的匹配候選相似度用來(lái)作為整合的向量距離羔砾，由此抽取出匹配結(jié)果。雖然已有方法中已有不少用于處理大規(guī)模本體的實(shí)例匹配問(wèn)題偶妖，但是同時(shí)保證高效和高精度仍然是個(gè)很大的挑戰(zhàn)姜凄。文獻(xiàn)[46]提出了一個(gè)迭代的框架，充分利用特征明顯的已有匹配方法來(lái)提高效率趾访，同時(shí)基于相似度傳播的方法利用一個(gè)加權(quán)指數(shù)函數(shù)來(lái)確保實(shí)例匹配的高精度态秧。

1.4　實(shí)體鏈接技術(shù)

歧義性和多樣性是自然語(yǔ)言的固有屬性，也是實(shí)體鏈接的根本難點(diǎn)扼鞋。如何挖掘更多申鱼、更加有效的消歧證據(jù)，設(shè)計(jì)更高性能的消歧算法依然是實(shí)體鏈接系統(tǒng)的核心研究問(wèn)題云头，值得進(jìn)一步研究捐友。下面按照不同的實(shí)體消歧方法進(jìn)行分類。

基于概率生成模型方法：韓先培和孫樂(lè)[47]提出了一種生成概率模型溃槐，將候選實(shí)體 e 出現(xiàn)在某頁(yè)面中的概率匣砖、特定實(shí)體 e 被表示為實(shí)體指稱項(xiàng)的概率以及實(shí)體 e 出現(xiàn)在特定上下文中的概率三者相乘，得到候選實(shí)體同實(shí)體指稱項(xiàng)之間的相似度評(píng)分值昏滴。Blanco 和 Ottaviano 等人[48]提出了用于搜索查詢實(shí)體鏈接的概率模型猴鲫，該方法采用了散列技術(shù)與上下文知識(shí)，有效地提高了實(shí)體鏈接的效率谣殊。

基于主題模型的方法：Zhang 等人[49]通過(guò)模型自動(dòng)對(duì)文本中的實(shí)體指稱進(jìn)行標(biāo)注拂共，生成訓(xùn)練數(shù)據(jù)集用于訓(xùn)練 LDA 主題模型，然后計(jì)算實(shí)體指稱和候選實(shí)體的上下文語(yǔ)義相似度從而消歧得到目標(biāo)實(shí)體姻几。王建勇等人[50]提出了對(duì)用戶的興趣主題建模的方法宜狐，首先構(gòu)建關(guān)系圖，圖中包含了不同命名實(shí)體間的相互依賴關(guān)系鲜棠，然后利用局部信息對(duì)關(guān)系圖中每個(gè)命名實(shí)體賦予初始興趣值肌厨，最后利用傳播算法對(duì)不同命名實(shí)體的興趣值進(jìn)行傳播得到最終興趣值，選擇具有最高興趣值的候選實(shí)體豁陆。

基于圖的方法：Han 等人[51]構(gòu)造了一種基于圖的模型柑爸，其中圖節(jié)點(diǎn)為所有實(shí)體指稱和所有候選實(shí)體；圖的邊分為兩類盒音，一類是實(shí)體指稱和其對(duì)應(yīng)的候選實(shí)體之間的邊表鳍，權(quán)重為實(shí)體指稱和候選實(shí)體之間的局部文本相似度馅而，采用詞袋模型和余弦距離計(jì)算得出。另一類是候選實(shí)體之間的邊譬圣，權(quán)重為候選實(shí)體之間的語(yǔ)義相關(guān)度瓮恭，采用谷歌距離計(jì)算。算法首先采集不同實(shí)體的初始置信度厘熟，然后通過(guò)圖中的邊對(duì)置信度進(jìn)行傳播和增強(qiáng)屯蹦。Gentile 和 Zhang[52]等人提出了基于圖和語(yǔ)義關(guān)系的命名實(shí)體消歧方法，該方法在維基百科上建立基于圖的模型绳姨，然后在該模型上計(jì)算各個(gè)命名實(shí)體的得分從而確定了目標(biāo)實(shí)體登澜，該方法在新聞數(shù)據(jù)上取得了較高的準(zhǔn)確率。Alhelbawy 等人[53]也采用基于圖的方法飘庄，圖中的節(jié)點(diǎn)為所有的候選實(shí)體脑蠕，邊采用兩種方式構(gòu)建，一種是實(shí)體之間的維基百科鏈接跪削，另一種是使用實(shí)體在維基百科文章中句子的共現(xiàn)谴仙。圖中的候選實(shí)體節(jié)點(diǎn)通過(guò)和實(shí)體指稱的相似度值被賦予初始值，采用 PageRank 選擇目標(biāo)實(shí)體碾盐。Hoffart 等人[54]使用實(shí)體的先驗(yàn)概率晃跺，實(shí)體指稱和候選實(shí)體的上下文相似度，以及候選實(shí)體之間的內(nèi)聚性構(gòu)成一個(gè)加權(quán)圖毫玖，從中選擇出一個(gè)候選實(shí)體的密集子圖作為最可能的目標(biāo)實(shí)體分配給實(shí)體指稱哼审。

基于深度神經(jīng)網(wǎng)絡(luò)的方法：周明和王厚峰等人[55]提出了一種用于實(shí)體消歧的實(shí)體表示訓(xùn)練方法。該方法對(duì)文章內(nèi)容進(jìn)行自編碼孕豹，利用深度神經(jīng)網(wǎng)絡(luò)模型以有監(jiān)督的方式訓(xùn)練實(shí)體表示涩盾，依據(jù)語(yǔ)義表示相似度對(duì)候選實(shí)體進(jìn)行排序，但該方法是一種局部性方法励背，沒(méi)有考慮同一文本中共同出現(xiàn)的實(shí)體間相關(guān)性春霍。黃洪釗和季姮等人[56]基于深度神經(jīng)網(wǎng)絡(luò)和語(yǔ)義知識(shí)圖譜，提出了一種基于圖的半監(jiān)督實(shí)體消歧義方法叶眉，將深度神經(jīng)網(wǎng)絡(luò)模型得到的實(shí)體間語(yǔ)義關(guān)聯(lián)度作為圖中的邊權(quán)值址儒。從實(shí)驗(yàn)結(jié)果得出：基于語(yǔ)義知識(shí)圖譜的 NGD 和 VSM[57]方法比起 Wikipedia anchor links 無(wú)論在關(guān)聯(lián)性測(cè)試上還是在消歧性能上都具有更好的測(cè)試結(jié)果。相比 NGD 和 VSM衅疙，基于 DNN[58]的深度語(yǔ)義關(guān)聯(lián)方法在關(guān)聯(lián)性測(cè)試上還是在消歧性能上都具有更好的關(guān)聯(lián)性和更高的準(zhǔn)確性莲趣。但該方法存在兩點(diǎn)不足，一方面在構(gòu)建深度語(yǔ)義關(guān)聯(lián)模型時(shí)采用詞袋子方法饱溢，沒(méi)有考慮上下文詞之間位置關(guān)系喧伞，另外一方面在消歧的過(guò)程中，構(gòu)建的圖模型沒(méi)有充分利用已消歧實(shí)體，邊權(quán)值和頂點(diǎn)得分隨著未消歧實(shí)體增加保持不變潘鲫，并沒(méi)有為后續(xù)的歧義實(shí)體增加信息量翁逞。

1.5　知識(shí)推理技術(shù)

知識(shí)庫(kù)推理可以粗略地分為基于符號(hào)的推理和基于統(tǒng)計(jì)的推理。在人工智能的研究中溉仑，基于符號(hào)的推理一般是基于經(jīng)典邏輯（一階謂詞邏輯或者命題邏輯）或者經(jīng)典邏輯的變異（比如說(shuō)缺省邏輯）挖函。基于符號(hào)的推理可以從一個(gè)已有的知識(shí)圖譜浊竟，利用規(guī)則怨喘，推理出新的實(shí)體間關(guān)系，還可以對(duì)知識(shí)圖譜進(jìn)行邏輯的沖突檢測(cè)振定≌芩迹基于統(tǒng)計(jì)的方法一般指關(guān)系機(jī)器學(xué)習(xí)方法，通過(guò)統(tǒng)計(jì)規(guī)律從知識(shí)圖譜中學(xué)習(xí)到新的實(shí)體間關(guān)系吩案。

1.5.1 基于符號(hào)邏輯的推理方法

為了使得語(yǔ)義網(wǎng)絡(luò)同時(shí)具備形式化語(yǔ)義和高效推理，一些研究人員提出了易處理（tractable）概念語(yǔ)言帝簇，并且開(kāi)發(fā)了一些商用化的語(yǔ)義網(wǎng)絡(luò)系統(tǒng)徘郭。這些系統(tǒng)的提出，使得針對(duì)概念描述的一系列邏輯語(yǔ)言丧肴，統(tǒng)稱描述邏輯（description logic）残揉，得到了學(xué)術(shù)界和業(yè)界廣泛關(guān)注。但是這些系統(tǒng)的推理效率難以滿足日益增長(zhǎng)的數(shù)據(jù)的需求芋浮，最終沒(méi)能得到廣泛應(yīng)用抱环。這一困局被利物浦大學(xué)的 Ian Horrocks 教授打破，他開(kāi)發(fā)的 FaCT 系統(tǒng)可以處理一個(gè)比較大的醫(yī)療術(shù)語(yǔ)本體 GALEN纸巷，而且性能比其他類似的推理機(jī)要好得多镇草。描述邏輯最終成為了 W3C 推薦的 Web 本體語(yǔ)言 OWL 的邏輯基礎(chǔ)。

雖然描述邏輯推理機(jī)的優(yōu)化取得了很大的進(jìn)展瘤旨，但是還是跟不上數(shù)據(jù)增長(zhǎng)的速度梯啤，特別是當(dāng)數(shù)據(jù)規(guī)模大到目前的基于內(nèi)存的服務(wù)器無(wú)法處理的情況下。為了應(yīng)對(duì)這一挑戰(zhàn)存哲，最近幾年因宇，研究人員開(kāi)始考慮將描述邏輯和 RDFS 的推理并行來(lái)提升推理的效率和可擴(kuò)展性，并且取得了很多成果祟偷。并行推理工作所借助的并行技術(shù)分為以下兩類：1）單機(jī)環(huán)境下的多核察滑、多處理器技術(shù)，比如多線程修肠，GPU 技術(shù)等贺辰；2）多機(jī)環(huán)境下基于網(wǎng)絡(luò)通信的分布式技術(shù)，比如 MapReduce 計(jì)算框架、Peer-To-Peer 網(wǎng)絡(luò)框架等魂爪。很多工作嘗試?yán)眠@些技術(shù)實(shí)現(xiàn)高效的并行推理先舷。

單機(jī)環(huán)境下的并行技術(shù)以共享內(nèi)存模型為特點(diǎn)，側(cè)重于提升本體推理的時(shí)間效率滓侍。對(duì)于實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景蒋川，這種方法成為首選。對(duì)于表達(dá)能力較低的語(yǔ)言撩笆，比如 RDFS捺球、OWL EL，單機(jī)環(huán)境下的并行技術(shù)將顯著地提升本體推理效率夕冲。Goodman 等人在[59]中利用高性能計(jì)算平臺(tái) Cray XMT 實(shí)現(xiàn)了大規(guī)模的 RDFS 本體推理氮兵，利用平臺(tái)計(jì)算資源的優(yōu)勢(shì)限制所有推理任務(wù)在內(nèi)存完成。然而對(duì)于計(jì)算資源有限的平臺(tái)歹鱼，內(nèi)存使用率的優(yōu)化成為了不可避免的問(wèn)題泣栈。Motik 等人在[60]工作中將 RDFS，以及表達(dá)能力更高的 OWL RL 等價(jià)地轉(zhuǎn)換為 Datalog 程序弥姻，然后利用 Datalog 中的并行優(yōu)化技術(shù)來(lái)解決內(nèi)存的使用率問(wèn)題南片。在[61]中，作者嘗試?yán)貌⑿信c串行的混合方法來(lái)提升OWL RL的推理效率庭敦。Kazakov 等人在 [62]中提出了利用多線程技術(shù)實(shí)現(xiàn) OWL EL 分類(classification)的方法疼进，并實(shí)現(xiàn)推理機(jī) ELK。

盡管單機(jī)環(huán)境的推理技術(shù)可以滿足高推理性能的需求秧廉，但是由于計(jì)算資源有限（比如內(nèi)存伞广，存儲(chǔ)容量），推理方法的可伸縮性（scalability）受到不同程度的限制疼电。因此嚼锄，很多工作利用分布式技術(shù)突破大規(guī)模數(shù)據(jù)的處理界限。這種方法利用多機(jī)搭建集群來(lái)實(shí)現(xiàn)本體推理蔽豺。

Mavin[63]是首個(gè)嘗試?yán)?Peer-To-Peer 的分布式框架實(shí)現(xiàn) RDF 數(shù)據(jù)推理的工作灾票。實(shí)驗(yàn)結(jié)果表明，利用分布式技術(shù)可以完成很多在單機(jī)環(huán)境下無(wú)法完成的大數(shù)據(jù)量推理任務(wù)茫虽。很多工作基于 MapReduce 的開(kāi)源實(shí)現(xiàn)（如 Hadoop刊苍，Spark 等）設(shè)計(jì)提出了大規(guī)模本體的推理方法。其中較為成功的一個(gè)嘗試是 Urbani 等人在 2010 年公布的推理系統(tǒng) WebPIE [64]濒析。實(shí)驗(yàn)結(jié)果證實(shí)其在大集群上可以完成上百億的 RDF 三元組的推理正什。他們又在這個(gè)基礎(chǔ)上研究提出了基于 MapReduce 的 OWL RL 查詢算法[65]。利用 MapReduce 來(lái)實(shí)現(xiàn) OWL EL 本體的推理算法在 [66]中提出号杏，實(shí)驗(yàn)證明 MapReduce 技術(shù)同樣可以解決大規(guī)模的 OWL EL 本體推理婴氮。在[67]的工作中斯棒，進(jìn)一步擴(kuò)展 OWL EL 的推理技術(shù)，使得推理可以在多個(gè)并行計(jì)算平臺(tái)完成主经。

1.5.2 基于統(tǒng)計(jì)的推理方法

知識(shí)圖譜中基于統(tǒng)計(jì)的推理方法一般指關(guān)系機(jī)器學(xué)習(xí)方法荣暮。下面介紹一些典型的方法。

實(shí)體關(guān)系學(xué)習(xí)方法

實(shí)體關(guān)系學(xué)習(xí)的目的是學(xué)習(xí)知識(shí)圖譜中實(shí)例和實(shí)例之間的關(guān)系罩驻。這方面的工作非常多穗酥，也是最近幾年知識(shí)圖譜的一個(gè)比較熱的研究方向。按照文獻(xiàn)[68]的分類惠遏，可以分為潛在特征模型和圖特征模型兩種砾跃。潛在特征模型通過(guò)實(shí)例的潛在特征來(lái)解釋三元組。比如說(shuō)节吮，莫言獲得諾貝爾文學(xué)獎(jiǎng)的一個(gè)可能解釋是他是一個(gè)有名的作家抽高。Nickel等人在[69]中給出了一個(gè)關(guān)系潛在特征模型，稱為雙線性（bilinear）模型透绩，該模型考慮了潛在特征的兩兩交互來(lái)學(xué)習(xí)潛在的實(shí)體關(guān)系翘骂。Drumond 等人在[70]中應(yīng)用兩兩交互的張量分解模型來(lái)學(xué)習(xí)知識(shí)圖譜中的潛在關(guān)系。

翻譯（translation）模型[71]將實(shí)體與關(guān)系統(tǒng)一映射至低維向量空間中帚豪，且認(rèn)為關(guān)系向量中承載了頭實(shí)體翻譯至尾實(shí)體的潛在特征碳竟。因此，通過(guò)發(fā)掘志鞍、對(duì)比向量空間中存在類似潛在特征的實(shí)體向量對(duì)，我們可以得到知識(shí)圖譜中潛在的三元組關(guān)系方仿。全息嵌入（Holographic Embedding固棚，HolE）模型[72]分別利用圓周相關(guān)計(jì)算三元組的組合表示及利用圓周卷積從組合表示中恢復(fù)出實(shí)體及關(guān)系的表示。與張量分解模型類似仙蚜，HolE 可以獲得大量的實(shí)體交互來(lái)學(xué)習(xí)潛在關(guān)系此洲，而且有效減少了訓(xùn)練參數(shù)，提高了訓(xùn)練效率委粉。

基于圖特征模型的方法從知識(shí)圖譜中觀察到的三元組的邊的特征來(lái)預(yù)測(cè)一條可能的邊的存在呜师。典型的方法有基于基于歸納邏輯程序（ILP）的方法[73]，基于關(guān)聯(lián)規(guī)則挖掘（ARM）的方法[74]和路徑排序（path ranking）的方法[75]贾节≈梗基于 ILP 的方法和基于 ARM 的方法的共同之處在于通過(guò)挖掘的方法從知識(shí)圖譜中抽取一些規(guī)則，然后把這些規(guī)則應(yīng)用到知識(shí)圖譜上栗涂，推出新的關(guān)系知牌。而路徑排序方法則是根據(jù)兩個(gè)實(shí)體間連通路徑作為特征來(lái)判斷兩個(gè)實(shí)體是否屬于某個(gè)關(guān)系。

類型推理（typeinference）方法

知識(shí)圖譜上的類型推理目的是學(xué)習(xí)知識(shí)圖譜中的實(shí)例和概念之間的屬于關(guān)系斤程。SDType[76]利用三元組主語(yǔ)或謂語(yǔ)所連接屬性的統(tǒng)計(jì)分布以預(yù)測(cè)實(shí)例的類型角寸。該方法可以用在任意單數(shù)據(jù)源的知識(shí)圖譜，但是無(wú)法做到跨數(shù)據(jù)集的類型推理。Tipalo[77]與LHD[78]均使用 DBpedia 中特有的 abstract 數(shù)據(jù)扁藕，利用特定模式進(jìn)行實(shí)例類型的抽取沮峡。此類方法依賴于特定結(jié)構(gòu)的文本數(shù)據(jù)，無(wú)法擴(kuò)展到其他知識(shí)庫(kù)亿柑。

模式歸納（schemainduction）方法

模式歸納方法學(xué)習(xí)概念之間的關(guān)系邢疙，主要有基于 ILP 的方法和基于 ARM 的方法。ILP 結(jié)合了機(jī)器學(xué)習(xí)和邏輯編程技術(shù)橄杨，使得人們可以從實(shí)例和背景知識(shí)中獲得邏輯結(jié)論秘症。Lehmann 等在[79]中提出用向下精化算子學(xué)習(xí)描述邏輯的概念定義公理的方法，即從最一般的概念（即頂概念）開(kāi)始式矫，采用啟發(fā)式搜索方法使該概念不斷特殊化白筹，最終得到概念的定義。為了處理像 DBpedia 這樣大規(guī)模的語(yǔ)義數(shù)據(jù)秽五，該方法在[80]中得到進(jìn)一步的擴(kuò)展撰糠。這些方法都在 DL-Learner[81]中得以實(shí)現(xiàn)。V?lker 等人在[82]中介紹了從知識(shí)圖譜中生成概念關(guān)系的統(tǒng)計(jì)方法故慈，該方法通過(guò) SPARQL 查詢來(lái)獲取信息板熊，用以構(gòu)建事務(wù)表。然后使用 ARM 技術(shù)從事務(wù)表中挖掘出一些相關(guān)聯(lián)的概念關(guān)系察绷。在他們的后續(xù)工作中干签，使用負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù)學(xué)習(xí)不交概念關(guān)系[83]，并在文獻(xiàn)[84]中給出了豐富的試驗(yàn)結(jié)果拆撼。

2 開(kāi)放知識(shí)圖譜

本節(jié)首先介紹當(dāng)前世界范圍內(nèi)知名的高質(zhì)量大規(guī)模開(kāi)放知識(shí)圖譜容劳，包括 DBpedia[85][86]、Yago[87][88]闸度、Wikidata[89]竭贩、BabelNet[90][91]、ConceptNet[92][93]以及Microsoft Concept Graph[94][95]等莺禁。然后介紹中文開(kāi)放知識(shí)圖譜平臺(tái) OpenKG留量。

2.1 開(kāi)放知識(shí)圖譜

DBpedia 是一個(gè)大規(guī)模的多語(yǔ)言百科知識(shí)圖譜，可視為是維基百科的結(jié)構(gòu)化版本哟冬。DBpedia 使用固定的模式對(duì)維基百科中的實(shí)體信息進(jìn)行抽取楼熄，包括 abstract、infobox浩峡、category 和 page link 等信息孝赫。圖 2 示例了如何將維基百科中的實(shí)體“Busan”的 infobox 信息轉(zhuǎn)換成 RDF 三元組。DBpedia 目前擁有 127 種語(yǔ)言的超過(guò)兩千八百萬(wàn)個(gè)實(shí)體與數(shù)億個(gè) RDF 三元組红符，并且作為鏈接數(shù)據(jù)的核心青柄，與許多其他數(shù)據(jù)集均存在實(shí)體映射關(guān)系伐债。而根據(jù)抽樣評(píng)測(cè)[96]，DBpedia 中 RDF 三元組的正確率達(dá) 88%致开。DBpedia 支持?jǐn)?shù)據(jù)集的完全下載峰锁。

Yago 是一個(gè)整合了維基百科與 WordNet[97]的大規(guī)模本體，它首先制定一些固定的規(guī)則對(duì)維基百科中每個(gè)實(shí)體的 infobox 進(jìn)行抽取双戳，然后利用維基百科的category進(jìn)行實(shí)體類別推斷（Type Inference）獲得了大量的實(shí)體與概念之間的 IsA 關(guān)系（如：“Elvis Presley” IsA “American Rock Singers”）虹蒋，最后將維基百科的 category 與 WordNet 中的 Synset（一個(gè) Synset 表示一個(gè)概念）進(jìn)行映射，從而利用了 WordNet 嚴(yán)格定義的 Taxonomy 完成大規(guī)模本體的構(gòu)建飒货。隨著時(shí)間的推移魄衅，Yago 的開(kāi)發(fā)人員為該本體中的 RDF 三元組增加了時(shí)間與空間信息，從而完成了 Yago2[98]的構(gòu)建塘辅，又利用相同的方法對(duì)不同語(yǔ)言維基百科的進(jìn)行抽取晃虫，完成了 Yago3[99]的構(gòu)建。目前扣墩，Yago 擁有 10 種語(yǔ)言約 459 萬(wàn)個(gè)實(shí)體哲银，2400 萬(wàn)個(gè) Facts，Yago 中 Facts的正確率約為 95%呻惕。Yago 支持?jǐn)?shù)據(jù)集的完全下載荆责。

image

圖2

Wikidata 是一個(gè)可以自由協(xié)作編輯的多語(yǔ)言百科知識(shí)庫(kù)，它由維基媒體基金會(huì)發(fā)起亚脆，期望將維基百科做院、維基文庫(kù)、維基導(dǎo)游等項(xiàng)目中結(jié)構(gòu)化知識(shí)進(jìn)行抽取濒持、存儲(chǔ)键耕、關(guān)聯(lián)。Wikidata 中的每個(gè)實(shí)體存在多個(gè)不同語(yǔ)言的標(biāo)簽弥喉，別名郁竟，描述玛迄，以及聲明（statement）由境，比如 Wikidata 會(huì)給出實(shí)體“London”的中文標(biāo)簽“倫敦”，中文描述“英國(guó)首都”以及圖 3 給出了一個(gè)關(guān)于“London”的聲明的具體例子蓖议÷步埽“London”的一個(gè)聲明由一個(gè) claim 與一個(gè) reference 組成，claim 包括property:“Population”勒虾、value:“8173900”以及一些 qualifiers（備注說(shuō)明）組成纺阔，而 reference 則表示一個(gè) claim 的出處，可以為空值修然。目前 Wikidata 目前支持超過(guò) 350 種語(yǔ)言笛钝，擁有近 2500 萬(wàn)個(gè)實(shí)體及超過(guò) 7000 萬(wàn)的聲明[100]质况，并且目前 Freebase 正在往 Wikidata 上進(jìn)行遷移以進(jìn)一步支持 Google 的語(yǔ)義搜索。Wikidata 支持?jǐn)?shù)據(jù)集的完全下載玻靡。

image

圖3

BabelNet 是目前世界范圍內(nèi)最大的多語(yǔ)言百科同義詞典结榄，它本身可被視為一個(gè)由概念、實(shí)體囤捻、關(guān)系構(gòu)成的語(yǔ)義網(wǎng)絡(luò)（Semantic Network）臼朗。BabelNet 目前有超過(guò) 1400 萬(wàn)個(gè)詞目，每個(gè)詞目對(duì)應(yīng)一個(gè) synset蝎土。每個(gè) synset 包含所有表達(dá)相同含義的不同語(yǔ)言的同義詞视哑。比如：“中國(guó)”、“中華人民共和國(guó)”誊涯、“China”以及“people’srepublic of China”均存在于一個(gè) synset 中挡毅。BabelNet 由 WordNet 中的英文 synsets 與維基百科頁(yè)面進(jìn)行映射，再利用維基百科中的跨語(yǔ)言頁(yè)面鏈接以及翻譯系統(tǒng)醋拧，從而得到 BabelNet 的初始版本慷嗜。目前 BabelNet 又整合了 Wikidata、GeoNames丹壕、OmegaWiki 等多種資源庆械，共擁有 271 個(gè)語(yǔ)言版本。由于 BabelNet 中的錯(cuò)誤來(lái)源主要在于維基百科與 WordNet 之間的映射菌赖，而映射目前的正確率大約在 91%缭乘。關(guān)于數(shù)據(jù)集的使用，BabelNet 目前支持 HTTP API 調(diào)用琉用，而數(shù)據(jù)集的完全下載需要經(jīng)過(guò)非商用的認(rèn)證后才能完成堕绩。

ConceptNet 是一個(gè)大規(guī)模的多語(yǔ)言常識(shí)知識(shí)庫(kù)，其本質(zhì)為一個(gè)以自然語(yǔ)言的方式描述人類常識(shí)的大型語(yǔ)義網(wǎng)絡(luò)邑时。ConceptNet 起源于一個(gè)眾包項(xiàng)目 Open Mind Common Sense奴紧，自 1999 年開(kāi)始通過(guò)文本抽取、眾包晶丘、融合現(xiàn)有知識(shí)庫(kù)中的常識(shí)知識(shí)以及設(shè)計(jì)一些游戲從而不斷獲取常識(shí)知識(shí)黍氮。ConceptNet 中共擁有 36 種固定的關(guān)系，如 IsA浅浮、UsedFor沫浆、CapableOf 等，圖 4 給出了一個(gè)具體的例子滚秩，從中可以更加清晰地了解 ConceptNet 的結(jié)構(gòu)专执。ConceptNet 目前擁有 304 個(gè)語(yǔ)言的版本，共有超過(guò) 390 萬(wàn)個(gè)概念郁油，2800 萬(wàn)個(gè)聲明（statements本股，即語(yǔ)義網(wǎng)絡(luò)中邊的數(shù)量）攀痊，正確率約為 81%。另外拄显，ConceptNet 目前支持?jǐn)?shù)據(jù)集的完全下載蚕苇。

image

圖4

Microsoft Concept Graph 是一個(gè)大規(guī)模的英文 Taxonomy，其中主要包含的是概念間以及實(shí)例（等同于上文中的實(shí)體）概念間的 IsA 關(guān)系凿叠，其中并不區(qū)分 instanceOf 與 subclassOf 關(guān)系涩笤。Microsoft Concept Graph 的前身是 Probase，它過(guò)自動(dòng)化地抽取自數(shù)十億網(wǎng)頁(yè)與搜索引擎查詢記錄盒件，其中每一個(gè) IsA 關(guān)系均附帶一個(gè)概率值蹬碧，即該知識(shí)庫(kù)中的每個(gè) IsA 關(guān)系不是絕對(duì)的，而是存在一個(gè)成立的概率值以支持各種應(yīng)用炒刁，如短文本理解恩沽、基于 taxonomy 的關(guān)鍵詞搜索和萬(wàn)維網(wǎng)表格理解等。目前翔始，Microsoft Concept Graph 擁有約 530 萬(wàn)個(gè)概念罗心，1250 萬(wàn)個(gè)實(shí)例以及 8500 萬(wàn)個(gè) IsA 關(guān)系（正確率約為 92.8%）。關(guān)于數(shù)據(jù)集的使用城瞎，MicrosoftConcept Graph 目前支持 HTTP API 調(diào)用渤闷，而數(shù)據(jù)集的完全下載需要經(jīng)過(guò)非商用的認(rèn)證后才能完成。

除了上述知識(shí)圖譜外脖镀，中文目前可用的大規(guī)模開(kāi)放知識(shí)圖譜有 Zhishi.me[101]飒箭、Zhishi.schema[102]與XLore[103]等。Zhishi.me 是第一份構(gòu)建中文鏈接數(shù)據(jù)的工作蜒灰，與 DBpedia 類似弦蹂，Zhishi.me 首先指定固定的抽取規(guī)則對(duì)百度百科、互動(dòng)百科和中文維基百科中的實(shí)體信息進(jìn)行抽取强窖，包括 abstract凸椿、infobox、category 等信息翅溺；然后對(duì)源自不同百科的實(shí)體進(jìn)行對(duì)齊脑漫，從而完成數(shù)據(jù)集的鏈接。目前 Zhishi.me 中擁有約 1000 萬(wàn)個(gè)實(shí)體與一億兩千萬(wàn)個(gè) RDF 三元組未巫，所有數(shù)據(jù)可以通過(guò)在線 SPARQL Endpoint 查詢得到窿撬。Zhishi.schema 是一個(gè)大規(guī)模的中文模式（Schema）知識(shí)庫(kù)启昧，其本質(zhì)是一個(gè)語(yǔ)義網(wǎng)絡(luò)叙凡，其中包含三種概念間的關(guān)系，即equal密末、related與subClassOf關(guān)系握爷。Zhishi.schema抽取自社交站點(diǎn)的分類目錄(Category Taxonomy)及標(biāo)簽云（Tag Cloud）跛璧，目前擁有約40萬(wàn)的中文概念與150萬(wàn)RDF三元組，正確率約為84%新啼，并支持?jǐn)?shù)據(jù)集的完全下載追城。XLore 是一個(gè)大型的中英文知識(shí)圖譜，它旨在從各種不同的中英文在線百科中抽取 RDF 三元組燥撞，并建立中英文實(shí)體間的跨語(yǔ)言鏈接座柱。目前，XLore 大約有 66 萬(wàn)個(gè)概念物舒，5 萬(wàn)個(gè)屬性色洞，1000 萬(wàn)的實(shí)體，所有數(shù)據(jù)可以通過(guò)在線 SPARQL Endpoint 查詢得到冠胯。

2.2 中文開(kāi)放知識(shí)圖譜聯(lián)盟介紹

中文開(kāi)放知識(shí)圖譜聯(lián)盟（OpenKG）旨在推動(dòng)中文知識(shí)圖譜的開(kāi)放與互聯(lián)火诸，推動(dòng)知識(shí)圖譜技術(shù)在中國(guó)的普及與應(yīng)用，為中國(guó)人工智能的發(fā)展以及創(chuàng)新創(chuàng)業(yè)做出貢獻(xiàn)荠察。聯(lián)盟已經(jīng)搭建有 OpenKG.CN 技術(shù)平臺(tái)置蜀，如圖 5 所示，目前已有 35 家機(jī)構(gòu)入駐悉盆。吸引了國(guó)內(nèi)最著名知識(shí)圖譜資源的加入盯荤，如 Zhishi.me， CN-DBPedia, PKUBase焕盟。并已經(jīng)包含了來(lái)自于常識(shí)廷雅、醫(yī)療、金融京髓、城市航缀、出行等 15 個(gè)類目的開(kāi)放知識(shí)圖譜。

image

圖5 中文開(kāi)放知識(shí)圖譜聯(lián)盟

3 知識(shí)圖譜在情報(bào)分析的案例

3.1 股票投研情報(bào)分析

通過(guò)知識(shí)圖譜相關(guān)技術(shù)從招股書(shū)堰怨、年報(bào)芥玉、公司公告、券商研究報(bào)告备图、新聞等半結(jié)構(gòu)化表格和非結(jié)構(gòu)化文本數(shù)據(jù)中批量自動(dòng)抽取公司的股東灿巧、子公司、供應(yīng)商揽涮、客戶抠藕、合作伙伴、競(jìng)爭(zhēng)對(duì)手等信息蒋困，構(gòu)建出公司的知識(shí)圖譜盾似。在某個(gè)宏觀經(jīng)濟(jì)事件或者企業(yè)相關(guān)事件發(fā)生的時(shí)候，券商分析師雪标、交易員零院、基金公司基金經(jīng)理等投資研究人員可以通過(guò)此圖譜做更深層次的分析和更好的投資決策溉跃，比如在美國(guó)限制向中興通訊出口的消息發(fā)布之后，如果我們有中興通訊的客戶供應(yīng)商告抄、合作伙伴以及競(jìng)爭(zhēng)對(duì)手的關(guān)系圖譜撰茎，就能在中興通訊停牌的情況下快速地篩選出受影響的國(guó)際國(guó)內(nèi)上市公司從而挖掘投資機(jī)會(huì)或者進(jìn)行投資組合風(fēng)險(xiǎn)控制（圖6）。

image

圖6 股票投研情報(bào)分析

2.2 公安情報(bào)分析

通過(guò)融合企業(yè)和個(gè)人銀行資金交易明細(xì)打洼、通話龄糊、出行、住宿募疮、工商绎签、稅務(wù)等信息構(gòu)建初步的“資金賬戶-人-公司”關(guān)聯(lián)知識(shí)圖譜。同時(shí)從案件描述酝锅、筆錄等非結(jié)構(gòu)化文本中抽取人(受害人诡必、嫌疑人、報(bào)案人)搔扁、事爸舒、物、組織稿蹲、卡號(hào)扭勉、時(shí)間、地點(diǎn)等信息苛聘，鏈接并補(bǔ)充到原有的知識(shí)圖譜中形成一個(gè)完整的證據(jù)鏈涂炎。輔助公安刑偵、經(jīng)偵设哗、銀行進(jìn)行案件線索偵查和挖掘同伙唱捣。比如銀行和公安經(jīng)偵監(jiān)控資金賬戶，當(dāng)有一段時(shí)間內(nèi)有大量資金流動(dòng)并集中到某個(gè)賬戶的時(shí)候很可能是非法集資网梢，系統(tǒng)觸發(fā)預(yù)警（圖7）震缭。

image

圖7 公安情報(bào)分析

3.3 反欺詐情報(bào)分析

通過(guò)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜，同時(shí)引入領(lǐng)域?qū)＜医I(yè)務(wù)專家規(guī)則战虏。我們通過(guò)數(shù)據(jù)不一致性檢測(cè)拣宰，利用繪制出的知識(shí)圖譜可以識(shí)別潛在的欺詐風(fēng)險(xiǎn)。比如借款人張xx和借款人吳x填寫(xiě)信息為同事烦感，但是兩個(gè)人填寫(xiě)的公司名卻不一樣, 以及同一個(gè)電話號(hào)碼屬于兩個(gè)借款人巡社，這些不一致性很可能有欺詐行為（圖8）。

image

圖8 反欺詐情報(bào)分析

4 總結(jié)

知識(shí)圖譜是知識(shí)工程的一個(gè)分支手趣，以知識(shí)工程中語(yǔ)義網(wǎng)絡(luò)作為理論基礎(chǔ)晌该，并且結(jié)合了機(jī)器學(xué)習(xí)，自然語(yǔ)言處理和知識(shí)表示和推理的最新成果，在大數(shù)據(jù)的推動(dòng)下受到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注气笙。知識(shí)圖譜對(duì)于解決大數(shù)據(jù)中文本分析和圖像理解問(wèn)題發(fā)揮重要作用。目前怯晕，知識(shí)圖譜研究已經(jīng)取得了很多成果潜圃，形成了一些開(kāi)放的知識(shí)圖譜。但是舟茶，知識(shí)圖譜的發(fā)展還存在以下障礙谭期。首先，雖然大數(shù)據(jù)時(shí)代已經(jīng)產(chǎn)生了海量的數(shù)據(jù)吧凉，但是數(shù)據(jù)發(fā)布缺乏規(guī)范隧出，而且數(shù)據(jù)質(zhì)量不高，從這些數(shù)據(jù)中挖掘高質(zhì)量的知識(shí)需要處理數(shù)據(jù)噪音問(wèn)題阀捅。其次胀瞪，垂直領(lǐng)域的知識(shí)圖譜構(gòu)建缺乏自然語(yǔ)言處理方面的資源，特別是詞典的匱乏使得垂直領(lǐng)域知識(shí)圖譜構(gòu)建代價(jià)很大饲鄙。最后凄诞，知識(shí)圖譜構(gòu)建缺乏開(kāi)源的工具，目前很多研究工作都不具備實(shí)用性忍级，而且很少有工具發(fā)布帆谍。通用的知識(shí)圖譜構(gòu)建平臺(tái)還很難實(shí)現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末轴咱，一起剝皮案震驚了整個(gè)濱河市汛蝙，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌朴肺，老刑警劉巖窖剑，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異戈稿，居然都是意外死亡苛吱，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)器瘪，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)翠储，“玉大人，你說(shuō)我怎么就攤上這事橡疼≡” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵欣除，是天一觀的道長(zhǎng)住拭。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么滔岳？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任杠娱，我火速辦了婚禮，結(jié)果婚禮上谱煤，老公的妹妹穿的比我還像新娘摊求。我一直安慰自己，他們只是感情好刘离，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布室叉。她就那樣靜靜地躺著，像睡著了一般硫惕。火紅的嫁衣襯著肌膚如雪茧痕。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說(shuō)
那天恼除，我揣著相機(jī)與錄音踪旷，去河邊找鬼。笑死豁辉，一個(gè)胖子當(dāng)著我的面吹牛埃脏，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播秋忙，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼彩掐，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了灰追？” 一聲冷哼從身側(cè)響起堵幽，我...
開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎弹澎，沒(méi)想到半個(gè)月后朴下，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡苦蒿，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年殴胧，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片佩迟。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡团滥，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出报强，到底是詐尸還是另有隱情灸姊，我是刑警寧澤，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布秉溉，位于F島的核電站力惯，受9級(jí)特大地震影響碗誉，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜父晶，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一哮缺、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧甲喝，春花似錦尝苇、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0贊 19
一樁弒父案茎匠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)格仲。三九已至押袍，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間凯肋，已是汗流浹背谊惭。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侮东，地道東北人圈盔。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像悄雅，于是被迫代替她去往敵國(guó)和親驱敲。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345

最全知識(shí)圖譜介紹:關(guān)鍵技術(shù)、開(kāi)放數(shù)據(jù)集孝凌、應(yīng)用案例匯總

最全知識(shí)圖譜介紹:關(guān)鍵技術(shù)方咆、開(kāi)放數(shù)據(jù)集、應(yīng)用案例匯總

1.1 知識(shí)圖譜技術(shù)地圖

1.2　實(shí)體關(guān)系識(shí)別技術(shù)

1.3　知識(shí)融合技術(shù)

1.4　實(shí)體鏈接技術(shù)

1.5　知識(shí)推理技術(shù)

3.1 股票投研情報(bào)分析

2.2 公安情報(bào)分析

3.3 反欺詐情報(bào)分析

推薦閱讀更多精彩內(nèi)容

最全知識(shí)圖譜介紹:關(guān)鍵技術(shù)方咆、開(kāi)放數(shù)據(jù)集、應(yīng)用案例匯總

1.1 知識(shí)圖譜技術(shù)地圖

1.2 實(shí)體關(guān)系識(shí)別技術(shù)

1.3 知識(shí)融合技術(shù)

1.4 實(shí)體鏈接技術(shù)

1.5 知識(shí)推理技術(shù)

3.1 股票投研情報(bào)分析

2.2 公安情報(bào)分析

3.3 反欺詐情報(bào)分析

推薦閱讀更多精彩內(nèi)容

1.2　實(shí)體關(guān)系識(shí)別技術(shù)

1.3　知識(shí)融合技術(shù)

1.4　實(shí)體鏈接技術(shù)

1.5　知識(shí)推理技術(shù)