知識(shí)圖譜

知識(shí)圖譜（Knowledge Graph）是當(dāng)前學(xué)術(shù)界和企業(yè)界的研究熱點(diǎn)莲组。中文知識(shí)圖譜的構(gòu)建對(duì)中文信息處理和中文信息檢索具有重要的價(jià)值噩凹。中國(guó)中文信息學(xué)會(huì)聯(lián)合幾所著名高校和企業(yè)舉辦了一個(gè)會(huì)議http://www.cipsc.org.cn/kg1/

知識(shí)圖譜介紹

通過(guò)閱讀華南理工大學(xué)華芳槐的博士論文《基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究》愕贡，可以詳細(xì)的了解知識(shí)圖譜的發(fā)展及歷史济舆。
一).為什么引入知識(shí)圖譜呢抵怎？
隨著信息的爆炸式增長(zhǎng)，人們很難從海量信息中找到真實(shí)需要的信息逐哈。搜索引擎正是在這種情況下應(yīng)運(yùn)而生芬迄，其原理是：
1.通過(guò)爬蟲(chóng)從互聯(lián)網(wǎng)中采集信息问顷，通過(guò)建立基于關(guān)鍵詞的倒排索引昂秃，為用戶(hù)提供信息檢索服務(wù)；
2.用戶(hù)通過(guò)使用關(guān)鍵詞描述自己的查詢(xún)意圖杜窄，搜索引擎依據(jù)一定的排序算法肠骆，把符合查詢(xún)條件的信息依序（打分）呈現(xiàn)給用戶(hù)。
搜索引擎的出現(xiàn)塞耕，在一定程度上解決了用戶(hù)從互聯(lián)網(wǎng)中獲取信息的難題蚀腿，但由于它們是基于關(guān)鍵詞或字符串的，并沒(méi)有對(duì)查詢(xún)的目標(biāo)（通常為網(wǎng)頁(yè)）和用戶(hù)的查詢(xún)輸入進(jìn)行理解。
因此莉钙，它們?cè)谒阉鳒?zhǔn)確度方面存在明顯的缺陷廓脆，即由于HTML形式的網(wǎng)頁(yè)缺乏語(yǔ)義，難以被計(jì)算機(jī)理解磁玉。
二).語(yǔ)義Web和本體的概念
為解決互聯(lián)網(wǎng)信息的語(yǔ)義問(wèn)題停忿，2008年Tim Berners-Lee等人提出了下一代互聯(lián)網(wǎng)——語(yǔ)義網(wǎng)（The Semantic Web）的概念。在語(yǔ)義Web中蚊伞，所有的信息都具備一定的結(jié)構(gòu)席赂，這些結(jié)構(gòu)的語(yǔ)義通常使用本體（Ontology）來(lái)描述。
當(dāng)信息結(jié)構(gòu)化并且具備語(yǔ)義后时迫，計(jì)算機(jī)就能理解其含義了颅停，此時(shí)用戶(hù)再進(jìn)行檢索時(shí)，搜索引擎在理解互聯(lián)網(wǎng)中信息含義的基礎(chǔ)上掠拳，尋找用戶(hù)真實(shí)需要的信息癞揉。由于互聯(lián)網(wǎng)中信息的含義是由本體來(lái)描述的，故本體的構(gòu)建在很大程度上決定了語(yǔ)義Web的發(fā)展溺欧。
本體（Ontology）描述了特定領(lǐng)域（領(lǐng)域本體）或所有領(lǐng)域（通用本體）中的概念以及概念之間的關(guān)聯(lián)關(guān)系烧董，并且這些概念和關(guān)系是明確的、被共同認(rèn)可的胧奔。
三).知識(shí)圖譜發(fā)展歷程
隨著互聯(lián)網(wǎng)中用戶(hù)生成內(nèi)容(User Generated Content, UGC)和開(kāi)放鏈接數(shù)據(jù)(Linked Open Data, LOD)等大量RDF(Resource Description Framework)數(shù)據(jù)被發(fā)布逊移。互聯(lián)網(wǎng)又逐步從僅包含網(wǎng)頁(yè)與網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)(Web of Document)轉(zhuǎn)變?yōu)榘罅棵枋龈鞣N實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)(Web of Data)龙填。
在此背景下胳泉，知識(shí)圖譜（Knowledge Graph）正式被Google于2012年5月提出，其目標(biāo)在于改善搜索結(jié)果岩遗，描述真實(shí)世界中存在的各種實(shí)體和概念扇商，以及這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系宿礁。緊隨其后案铺，國(guó)內(nèi)外的其它互聯(lián)網(wǎng)搜索引擎公司也紛紛構(gòu)建了自己的知識(shí)圖譜，如微軟的Probase梆靖、搜狗的知立方控汉、百度的知心。知識(shí)圖譜在語(yǔ)義搜索返吻、智能問(wèn)答姑子、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館测僵、推薦系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用街佑。
谷歌S. Amit的論文《Introducing the Knowledge Graph: Things, Not Strings》
阿米特·辛格爾博士通過(guò)“The world is not made of strings, but is made of things” 這句話(huà)來(lái)介紹他們的知識(shí)圖譜的，此處的“thing”是和傳統(tǒng)的互聯(lián)網(wǎng)上的網(wǎng)頁(yè)相比較：知識(shí)圖譜的目標(biāo)在于描述真實(shí)世界中存在的各種實(shí)體和概念，以及這些實(shí)體沐旨、概念之間的關(guān)聯(lián)關(guān)系森逮。google 還開(kāi)源了一個(gè)圖數(shù)據(jù)庫(kù)cayley https://cayley.io/#
知識(shí)圖譜和本體之間又存在什么區(qū)別呢？
知識(shí)圖譜并不是本體的替代品磁携，相反吊宋，它是在本體的基礎(chǔ)上進(jìn)行了豐富和擴(kuò)充，這種擴(kuò)充主要體現(xiàn)在實(shí)體（Entity）層面颜武；本體中突出和強(qiáng)調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系璃搜，它描述了知識(shí)圖譜的數(shù)據(jù)模式（Schema），即為知識(shí)圖譜構(gòu)建數(shù)據(jù)模式相當(dāng)于為其構(gòu)建本體鳞上；而知識(shí)圖譜則是在本體的基礎(chǔ)上这吻，增加了更加豐富的關(guān)于實(shí)體的信息。
知識(shí)圖譜可以看成是一張巨大的圖篙议，圖中的節(jié)點(diǎn)表示實(shí)體或概念唾糯，而圖中的邊則構(gòu)成關(guān)系。在知識(shí)圖譜中鬼贱，每個(gè)實(shí)體和概念都使用一個(gè)全局唯一的確定ID來(lái)標(biāo)識(shí)移怯，這個(gè)ID對(duì)應(yīng)目標(biāo)的標(biāo)識(shí)符（identifier）;這種做法與一個(gè)網(wǎng)頁(yè)有一個(gè)對(duì)應(yīng)的URL、數(shù)據(jù)庫(kù)中的主鍵相似这难。
同本體結(jié)構(gòu)一樣舟误，知識(shí)圖譜中的概念與概念之間也存在各種關(guān)聯(lián)關(guān)系；同時(shí)姻乓，知識(shí)圖譜中的實(shí)體之間也存在這同樣的關(guān)系嵌溢。實(shí)體可以擁有屬性，用于刻畫(huà)實(shí)體的內(nèi)在特性蹋岩，每個(gè)屬性都是以“<屬性,屬性值>對(duì)（Attribute-Value Pair, AVP）”的方式來(lái)表示的赖草。
四).知識(shí)圖譜舉例
總之，知識(shí)圖譜的出現(xiàn)進(jìn)一步敲開(kāi)了語(yǔ)義搜索的大門(mén)剪个，搜索引擎提供的已經(jīng)不是通向答案的鏈接秧骑，還有答案本身。當(dāng)使用Google搜索扣囊，當(dāng)用戶(hù)搜索“劉德華的年齡”時(shí)乎折，其結(jié)果包括：
1.列出了相關(guān)的網(wǎng)頁(yè)文檔檢索結(jié)果；
2.在網(wǎng)頁(yè)文檔的上方給出了搜索的直接精確答案“54歲”如暖；
3.并且列出了相關(guān)的人物“梁朝偉”笆檀、“周潤(rùn)發(fā)”以及他們各自的年齡；
4.同時(shí)在右側(cè)以知識(shí)卡片（Knowledge Card）的形式列出了“劉德華”的相關(guān)信息盒至，包括：出生年月、出生地點(diǎn)、身高枷遂、相關(guān)的電影樱衷、專(zhuān)輯等。
知識(shí)卡片為用戶(hù)所輸入的查詢(xún)條件中所包含的實(shí)體或搜索返回的答案提供詳細(xì)的結(jié)構(gòu)化信息酒唉，是特定于查詢(xún)（Query Specific）的知識(shí)圖譜矩桂。
按照覆蓋面，知識(shí)圖譜可以分為：
1.通用知識(shí)圖譜
目前已經(jīng)發(fā)布的知識(shí)圖譜都是通用知識(shí)圖譜痪伦，它強(qiáng)調(diào)的是廣度侄榴，因而強(qiáng)調(diào)更多的是實(shí)體，很難生成完整的全局性的本體層的統(tǒng)一管理网沾；另外癞蚕，通用知識(shí)圖譜主要應(yīng)用于搜索等業(yè)務(wù)，對(duì)準(zhǔn)確度要求不是很高辉哥。
2.行業(yè)知識(shí)圖譜
行業(yè)知識(shí)圖譜對(duì)準(zhǔn)確度要求更高桦山，通常用于輔助各種復(fù)雜的分析應(yīng)用或決策支持；嚴(yán)格與豐富的數(shù)據(jù)模式醋旦，行業(yè)知識(shí)圖譜中的實(shí)體通常屬性多且具有行業(yè)意義恒水；目標(biāo)對(duì)象需要考慮各種級(jí)別的人員，不同人員對(duì)應(yīng)的操作和業(yè)務(wù)場(chǎng)景不同饲齐。
本體構(gòu)建：人工構(gòu)建方式钉凌、自動(dòng)構(gòu)建方式和半自動(dòng)構(gòu)建方式

知識(shí)圖譜的架構(gòu)

知識(shí)圖譜的邏輯結(jié)構(gòu)分為兩個(gè)層次：數(shù)據(jù)層和模式層。
在知識(shí)圖譜的數(shù)據(jù)層捂人，知識(shí)以事實(shí)（fact）為單位存儲(chǔ)在圖數(shù)據(jù)庫(kù)甩骏。如果以『實(shí)體-關(guān)系-實(shí)體』或者『實(shí)體-屬性-值』三元組作為事實(shí)的基本表達(dá)方式，則存儲(chǔ)在圖數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)將構(gòu)成龐大的實(shí)體關(guān)系網(wǎng)絡(luò)先慷，形成知識(shí)的圖譜饮笛。
模式層在數(shù)據(jù)層之上，是知識(shí)圖譜的核心论熙，在模式層存儲(chǔ)的是經(jīng)過(guò)提煉的知識(shí)福青，通常采用本體庫(kù)來(lái)管理知識(shí)圖譜的模式層，借助本體庫(kù)對(duì)公理脓诡、規(guī)則和約束條件的支持能力來(lái)規(guī)范實(shí)體无午、關(guān)系以及實(shí)體的類(lèi)型和屬性等對(duì)象之間的聯(lián)系。本體庫(kù)在知識(shí)圖譜中的地位相當(dāng)于知識(shí)庫(kù)的模具祝谚，擁有本體庫(kù)的知識(shí)庫(kù)冗余知識(shí)較少宪迟。

1169201-b23c8f823b5bef26.png

Semantic Computation 語(yǔ)義計(jì)算（知識(shí)圖譜構(gòu)建技術(shù)）

這些大概是傳統(tǒng)的自然語(yǔ)言處理（抽取非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)）的問(wèn)題，已經(jīng)有了很多的開(kāi)源工具交惯，如下：
基于warpper的抽取工具
beautiful soup: 幫助輕松讀取和解析網(wǎng)頁(yè)次泽。非常適合初始解析和抓取穿仪。
lxml: 以Python語(yǔ)言處理XML和HTML的庫(kù)。
信息抽取工具（主要是python語(yǔ)言）
NLTK 老牌的自然語(yǔ)言處理工具（使用的技術(shù)現(xiàn)在差不多都已經(jīng)不太使用了）
Google Cloud Natural Language API
SpaCy （自然語(yǔ)言處理的新秀意荤，2014年新出的的庫(kù)啊片，有許多強(qiáng)大的功能，如詞向量玖像，實(shí)體抽取紫谷，深度學(xué)習(xí)嵌入，多線(xiàn)程等）
KOKO (Python語(yǔ)言): 利用有限證據(jù)的實(shí)體提取工具捐寥。
下面是一些其他工具（Java和Scala語(yǔ)言）
Stanford Open IE 用于命名實(shí)體識(shí)別笤昨、關(guān)系抽取等。
Mallet, 從文本進(jìn)行實(shí)體抽取握恳。
具體步驟：

預(yù)處理

檢測(cè)和清除表面錯(cuò)誤瞒窒，包括不可讀代碼(Unreadable codes)、錯(cuò)誤的截?cái)?Erroneous Truncation)睡互、由于挖掘錯(cuò)誤引起的錯(cuò)誤屬性根竿、雙字節(jié)-單字節(jié)替換(Double byte - single byte replacement)、英語(yǔ)字符處理(English character processing)等就珠。

實(shí)體構(gòu)建——實(shí)體和屬性的抽取

實(shí)體抽取

命名實(shí)體挖掘 Mining Named Entities
傳統(tǒng)命名實(shí)體(NE)類(lèi)別：人(Person)寇壳、位置(Location)、組織(Organization)
更多對(duì)web應(yīng)用程序有用的新類(lèi)別：Movie妻怎、TV series壳炎、music、book逼侦、software匿辩、computer game
更精細(xì)的分類(lèi)：組織 -> {學(xué)校,醫(yī)院,政府,公司...}
Computer game -> {net game,webpage game,...}
其中web中命名實(shí)體的特點(diǎn)包括：新的命名實(shí)體迅速崛起，包括軟件榛丢、游戲和小說(shuō)铲球；命名實(shí)體在網(wǎng)絡(luò)上的名字是非正式的(informal)
1.從查詢(xún)?nèi)罩?Query Logs)中學(xué)習(xí)命名實(shí)體(NEs)
查詢(xún)?nèi)罩局邪舜罅康拿麑?shí)體，大約70%的搜索查詢(xún)包含了NEs晰赞。如下圖2007年P(guān)asca論文所示稼病，命名實(shí)體能夠根據(jù)上下文特征(context features)識(shí)別。如上下文詞“電影掖鱼、在線(xiàn)觀看然走、影評(píng)”等等，識(shí)別“中國(guó)合伙人”戏挡。
從查詢(xún)中學(xué)習(xí)種子的上下文特征芍瑞，然后使用已經(jīng)學(xué)到的上下文特征來(lái)提取C類(lèi)的新種子實(shí)體，使用擴(kuò)展種子集去擴(kuò)展上下文特征....
利用查詢(xún)?nèi)罩驹摲椒ǖ膬?yōu)點(diǎn)是：它能夠覆蓋最新出現(xiàn)的命名實(shí)體褐墅；它的缺點(diǎn)是：舊的或者不受歡迎的命名實(shí)體可能會(huì)錯(cuò)過(guò)拆檬。
2.從普通文本中學(xué)習(xí)命名實(shí)體(Learning NEs from Plain Texts)
文字包裝器(Text Wrappers)被廣泛使用于從純文本中提取(Extracting)命名實(shí)體洪己。例如包裝器“電影《[X]》”，“影片[X]秩仆，導(dǎo)演”码泛，其中[X]表示電影名字
3.使用URL文本混合模式(Url-text Hybrid Patterns)學(xué)習(xí)命名實(shí)體
是否有可能只從網(wǎng)頁(yè)標(biāo)題(webpage titles)中提取命名實(shí)體呢猾封？確實(shí)澄耍。99%的命名實(shí)體都能夠在一些網(wǎng)頁(yè)標(biāo)題中發(fā)現(xiàn)。
Url文本混合模型應(yīng)該考慮URL約束晌缘，簡(jiǎn)單的文本模式可信的URL鏈接是足夠的齐莲，復(fù)雜的文本模式需要低質(zhì)量的URL。可以參考《Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns》
4.算法自動(dòng)從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)抽取實(shí)體磷箕，2012年Ling等人歸納出112種實(shí)體類(lèi)別选酗，并基于條件隨機(jī)場(chǎng)CRF進(jìn)行實(shí)體邊界識(shí)別，最后采用自適應(yīng)感知機(jī)算法實(shí)現(xiàn)了對(duì)實(shí)體的自動(dòng)分類(lèi)岳枷，取得了不錯(cuò)的效果芒填。

抽取關(guān)系

從相關(guān)的語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系，通過(guò)關(guān)聯(lián)關(guān)系將實(shí)體（概念）聯(lián)系起來(lái)空繁。
早期的關(guān)系抽取研究方法主要是通過(guò)人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則殿衰。隨后，出現(xiàn)了大量基于特征向量或者核函數(shù)的有監(jiān)督學(xué)習(xí)方法盛泡，關(guān)系抽取的準(zhǔn)確性也不斷提高闷祥。但以上研究成果的共同特點(diǎn)是需要預(yù)先定義實(shí)體關(guān)系類(lèi)型，如雇傭關(guān)系傲诵、整體部分關(guān)系以及位置關(guān)系等凯砍。
與之相對(duì)的，Banko等人提出了面向開(kāi)放域的信息抽取方法框架（open information extraction拴竹，OpenIE）悟衩，并發(fā)布了基于自監(jiān)督（self-supervised）學(xué)習(xí)方式的開(kāi)放信息抽取原型系統(tǒng)（TextRunner），該系統(tǒng)采用少量人工標(biāo)記數(shù)據(jù)作為訓(xùn)練集栓拜，據(jù)此得到一個(gè)實(shí)體關(guān)系分類(lèi)模型座泳，再依據(jù)該模型對(duì)開(kāi)放數(shù)據(jù)進(jìn)行分類(lèi)，依據(jù)分類(lèi)結(jié)果訓(xùn)練樸素貝葉斯模型來(lái)識(shí)別『實(shí)體-關(guān)系-實(shí)體』三元組菱属，經(jīng)過(guò)大規(guī)模真實(shí)數(shù)據(jù)測(cè)試钳榨，取得了顯著優(yōu)于同時(shí)期其他方法的結(jié)果。
TextRunner系統(tǒng)中錯(cuò)誤的部分主要是一些無(wú)意義或者不和邏輯的實(shí)體關(guān)系三元組纽门，據(jù)此引入語(yǔ)法限制條件和字典約束薛耻，采用先識(shí)別關(guān)系指示詞，然后再對(duì)實(shí)體進(jìn)行識(shí)別的策略赏陵，有效提高了關(guān)系識(shí)別準(zhǔn)確率饼齿。

3饲漾。屬性抽取
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。例如針對(duì)某個(gè)公眾人物缕溉，可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱(chēng)考传、生日、國(guó)籍证鸥、教育背景等信息僚楞。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來(lái)源中匯集這些信息，實(shí)現(xiàn)對(duì)實(shí)體屬性的完整勾畫(huà)枉层。一般從百科類(lèi)網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù)泉褐，通過(guò)自動(dòng)抽取生成訓(xùn)練語(yǔ)料，用于訓(xùn)練實(shí)體屬性標(biāo)注模型鸟蜡，然后將其應(yīng)用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽饶ぴ摺；
屬性值對(duì)挖掘 AVP Mining
AVP英文全稱(chēng)是Attribute Values Pairs揉忘。那么跳座，哪里會(huì)見(jiàn)到這種AVP數(shù)據(jù)呢？
在線(xiàn)百科：三大百科 Baidu Baike \ Wikipedia \ Hudong Baike
垂直網(wǎng)站(Vertical websites)：IMDB泣矛，douban for videos
普通文檔網(wǎng)頁(yè)：從結(jié)構(gòu)化疲眷、半結(jié)構(gòu)化(semistructured)和非結(jié)構(gòu)化文本中爬取AVP，例如挖掘垂直網(wǎng)站AVP數(shù)據(jù)
可能會(huì)遇到兩個(gè)問(wèn)題乳蓄？
第一個(gè)是如何找到相關(guān)的垂直網(wǎng)站咪橙，如果是尋找流行的網(wǎng)站是容易的，如音樂(lè)虚倒、電影美侦、小說(shuō)；但是如果是尋找長(zhǎng)尾域(long tail domains)的網(wǎng)站是困難的魂奥，如化妝品菠剩、雜志。第二個(gè)問(wèn)題是面對(duì)眾多的數(shù)據(jù)怎樣生成提取模式耻煤。
同時(shí)具壮，人工模式可以保證很高的準(zhǔn)確性，但是工具能夠幫助我們更加便利的編輯模式哈蝇。最后AVP知識(shí)需要日常中積累和更新棺妓，包括不同時(shí)間類(lèi)別的更新、新網(wǎng)站的加入炮赦、無(wú)序或網(wǎng)站崩潰需要自動(dòng)檢測(cè)或手工處理怜跑。
對(duì)屬性進(jìn)行一些轉(zhuǎn)換
1.Value Type Recognition 值類(lèi)型識(shí)別
屬性對(duì)應(yīng)的值類(lèi)型。其中值類(lèi)型包括：Number(數(shù)字)吠勘、Data/Time(日期/時(shí)間)性芬、Entity(實(shí)體)峡眶，Enumeration(枚舉)、Text(default植锉，默認(rèn)文本)辫樱。
2.Value Normalization 值正常化
Splitting(分詞）
Conversion(轉(zhuǎn)換）俊庇，E.g., 2.26m -> 226cm
3.Attribute Normalization 屬性正呈ㄊ睿化
Domain-specific problem(特定領(lǐng)域問(wèn)題)
某些屬性被視為同義詞只在特定的領(lǐng)域甚至是兩個(gè)特定的知識(shí)源中。
例如“大小(size)”和“屏幕(screen)”在一些手機(jī)網(wǎng)站上表示同義詞暇赤，但不是所有的開(kāi)放域解釋都相同心例，可以使用分類(lèi)模型(Classification model)來(lái)識(shí)別候選同義屬性宵凌。其中特征包括屬性淺層相似特征鞋囊、相似屬性值特征、相似值類(lèi)型(Value-type)特征和實(shí)體值特征瞎惫。最后評(píng)選者從所有候選中選擇正確的相似屬性對(duì)溜腐。

Knowledge Fusion 知識(shí)融合

1.融合從不同數(shù)據(jù)來(lái)源的知識(shí)，關(guān)鍵問(wèn)題——實(shí)體消歧（Entity disambiguation）瓜喇。
其解決方法是計(jì)算兩個(gè)相同名稱(chēng)實(shí)體之間的相似性挺益。一些基本屬性可以用來(lái)確定實(shí)體的身份，如“works of a writer”乘寒。其他一些屬性只能用來(lái)作相似性的特征望众，如“nationality of a person”(國(guó)籍)。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法被引入該領(lǐng)域伞辛，McCarthy等人將C4.5決策樹(shù)算法也被應(yīng)用于解決實(shí)體消歧問(wèn)題烂翰。
2.Entity Classification 實(shí)體分類(lèi)
為什么需要分類(lèi)呢？因?yàn)橐恍?shí)體會(huì)丟失類(lèi)別信息蚤氏；同時(shí)不失所有從源數(shù)據(jù)中挖掘的實(shí)體都有類(lèi)別（category）甘耿。解決方法是：通過(guò)監(jiān)督模型訓(xùn)練已知類(lèi)別的實(shí)體和它們的屬性-值對(duì)；使用結(jié)構(gòu)化數(shù)據(jù)(AVPs)和非結(jié)構(gòu)化數(shù)據(jù)(上下文文本)來(lái)精確地分類(lèi)特征竿滨。
下面是一些在知識(shí)應(yīng)用層的語(yǔ)義計(jì)算模塊/方法佳恬。主要是具體的應(yīng)用：
實(shí)體消歧用于推理（Entity disambiguation for reasoning）
相關(guān)實(shí)體消歧（Related entity disambiguation）
搜索需求識(shí)別(Search requirement recognition)
需要識(shí)別用戶(hù)搜索的“李娜”是網(wǎng)球運(yùn)動(dòng)員、歌手于游、舞蹈家還是其他毁葱。
其核心問(wèn)題就是AVP相似計(jì)算，包括為不同的屬性定義不同的權(quán)重贰剥、有用屬性和無(wú)用屬性等倾剿。

異構(gòu)數(shù)據(jù)整合（實(shí)體對(duì)齊、屬性值決策鸠澈、關(guān)系建立）

1.實(shí)體對(duì)齊
例如對(duì)“張藝謀”這個(gè)實(shí)體進(jìn)行對(duì)齊柱告，數(shù)據(jù)源來(lái)自互動(dòng)百科截驮、百度百科、tvmao網(wǎng)站际度、搜狐娛樂(lè)葵袭。
比如張藝謀的國(guó)籍需要對(duì)齊“中華人民共和國(guó)”、“中國(guó)（內(nèi)地）”乖菱、“中國(guó)”三個(gè)屬性值坡锡；“國(guó)家”、“國(guó)籍”窒所、“國(guó)籍”需要屬性對(duì)齊鹉勒；再如出生日期對(duì)齊“1951年11月14日”、“1951-11-14”吵取、“1951-11-14”實(shí)現(xiàn)屬性值對(duì)齊禽额。
還可以接入外部知識(shí)庫(kù)，
國(guó)際上流行的知識(shí)庫(kù)或數(shù)據(jù)源如下所示：
Wolframalpha: 一個(gè)計(jì)算知識(shí)引擎皮官，而不是搜索引擎脯倒。其真正的創(chuàng)新之處，在于能夠馬上理解問(wèn)題捺氢，并給出答案藻丢，在被問(wèn)到"珠穆朗瑪峰有多高"之類(lèi)的問(wèn)題時(shí)，WolframAlpha不僅能告訴你海拔高度摄乒，還能告訴你這座世界第一高峰的地理位置悠反、附近有什么城鎮(zhèn)，以及一系列圖表馍佑。
Freebase: 6800萬(wàn)實(shí)體斋否，10億的關(guān)系。Google號(hào)稱(chēng)擴(kuò)展到5億實(shí)體和25億的關(guān)系挤茄。所有內(nèi)容都由用戶(hù)添加如叼，采用創(chuàng)意共用許可證，可以自由引用穷劈。
DBpedia: wikipedia基金會(huì)的一個(gè)子項(xiàng)目笼恰，處于萌芽階段。DBpedia是一個(gè)在線(xiàn)關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)項(xiàng)目歇终。它從維基百科的詞條中抽取結(jié)構(gòu)化數(shù)據(jù)社证，以提供更準(zhǔn)確和直接的維基百科搜索，并在其他數(shù)據(jù)集和維基百科之間創(chuàng)建連接评凝，并進(jìn)一步將這些數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上蕴侣，提供給需要這些關(guān)聯(lián)數(shù)據(jù)的在線(xiàn)網(wǎng)絡(luò)應(yīng)用没咙、社交網(wǎng)站或者其他在線(xiàn)關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)洁奈。
還有一個(gè)中文知識(shí)庫(kù)openkg http://openkg.cn

知識(shí)推理

知識(shí)推理是指從知識(shí)庫(kù)中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā)谆刨，進(jìn)行計(jì)算機(jī)推理已球，建立實(shí)體間的新關(guān)聯(lián)，從而拓展和豐富知識(shí)網(wǎng)絡(luò)。知識(shí)推理是知識(shí)圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié)，通過(guò)知識(shí)推理之斯，能夠從現(xiàn)有知識(shí)中發(fā)現(xiàn)新的知識(shí)。
知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系遣铝，也可以是實(shí)體的屬性值佑刷，本體的概念層次關(guān)系等。
知識(shí)的推理方法可以分為2大類(lèi)：基于邏輯的推理和基于圖的推理酿炸。
基于邏輯的推理主要包括一階邏輯謂詞瘫絮、描述邏輯以及基于規(guī)則的推理。
一階謂詞邏輯建立在命題的基礎(chǔ)上填硕，在一階謂詞邏輯中麦萤，命題被分解為個(gè)體（individuals）和謂詞（predication）2部分。個(gè)體是指可獨(dú)立存在的客體廷支，可以是一個(gè)具體的事物频鉴，也可以是一個(gè)抽象的概念。謂詞是用來(lái)刻畫(huà)個(gè)體性質(zhì)及事物關(guān)系的詞恋拍。比如（A，friend藕甩，B）就是表達(dá)個(gè)體A和B關(guān)系的謂詞施敢。
對(duì)于復(fù)雜的實(shí)體關(guān)系，可以采用描述邏輯進(jìn)行推理狭莱。描述邏輯（description logic）是一種基于對(duì)象的知識(shí)表示的形式化工具僵娃，是一階謂詞邏輯的子集，它是本體語(yǔ)言推理的重要設(shè)計(jì)基礎(chǔ)腋妙。
基于規(guī)則的推理可以利用專(zhuān)門(mén)的規(guī)則語(yǔ)言默怨，如SWRL（semantic Web rule language）。
基于圖的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或Path Ranking算法骤素。Path Ranking算法的基本思想是將知識(shí)圖譜視為圖（以實(shí)體為節(jié)點(diǎn)匙睹，以關(guān)系或?qū)傩詾檫叄瑥脑垂?jié)點(diǎn)開(kāi)始济竹，在圖上執(zhí)行隨機(jī)游走痕檬，如果能夠通過(guò)一個(gè)路徑到達(dá)目標(biāo)節(jié)點(diǎn)，則推測(cè)源和目的節(jié)點(diǎn)可能存在關(guān)系送浊。

reference:
https://stanfordnlp.github.io/CoreNLP/openie.html
http://www.52nlp.cn/tag/python-spacy
https://github.com/explosion/spaCy
https://github.com/biggorilla-gh/koko
https://leetcode.com/problemset/all/
https://github.com/HazyResearch/deepdive
https://www.biggorilla.org/zh-hans/data-extraction
http://www.reibang.com/p/4f09043e22ea
https://cayley.io/#
http://openkg.cn
https://m.wikidata.org/wiki/Wikidata:Main_Page
http://m.blog.csdn.net/column/details?alias=eastmount-kgdmnlp&page=2
https://googleblog.blogspot.hk/2012/05/introducing-knowledge-graph-things-not.html?m=1

最后編輯于：2017.12.11 02:28:51

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末梦谜，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌唁桩，老刑警劉巖闭树，帶你破解...
沈念sama閱讀 206,378評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異荒澡，居然都是意外死亡蔼啦，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,356評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)仰猖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捏肢，“玉大人，你說(shuō)我怎么就攤上這事饥侵⊥液眨” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,702評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵躏升，是天一觀的道長(zhǎng)辩棒。經(jīng)常有香客問(wèn)我，道長(zhǎng)膨疏，這世上最難降的妖魔是什么一睁？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,259評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮佃却，結(jié)果婚禮上者吁，老公的妹妹穿的比我還像新娘。我一直安慰自己饲帅，他們只是感情好复凳，可當(dāng)我...
茶點(diǎn)故事閱讀 64,263評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著灶泵，像睡著了一般育八。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上赦邻，一...
開(kāi)封第一講書(shū)人閱讀 49,036評(píng)論 1贊 285
城市分裂傳說(shuō)
那天髓棋，我揣著相機(jī)與錄音，去河邊找鬼惶洲。笑死按声，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的湃鹊。我是一名探鬼主播儒喊，決...
沈念sama閱讀 38,349評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼币呵！你這毒婦竟也來(lái)了怀愧？” 一聲冷哼從身側(cè)響起侨颈，我...
開(kāi)封第一講書(shū)人閱讀 36,979評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎芯义，沒(méi)想到半個(gè)月后哈垢，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,469評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡扛拨，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,938評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年耘分，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绑警。...
茶點(diǎn)故事閱讀 38,059評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡求泰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出计盒，到底是詐尸還是另有隱情渴频，我是刑警寧澤，帶...
沈念sama閱讀 33,703評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布北启，位于F島的核電站卜朗，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏咕村。R本人自食惡果不足惜场钉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,257評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望懈涛。院中可真熱鬧逛万，春花似錦、人聲如沸肩钠。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,262評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)价匠。三九已至，卻和暖如春呛每，著一層夾襖步出監(jiān)牢的瞬間踩窖，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工晨横，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留洋腮，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,501評(píng)論 2贊 354
代替公主和親
正文我出身青樓手形，卻偏偏與公主長(zhǎng)得像啥供，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子库糠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,792評(píng)論 2贊 345