知識(shí)圖譜(Knowledge Graph)是當(dāng)前學(xué)術(shù)界和企業(yè)界的研究熱點(diǎn)莲组。中文知識(shí)圖譜的構(gòu)建對(duì)中文信息處理和中文信息檢索具有重要的價(jià)值噩凹。中國(guó)中文信息學(xué)會(huì)聯(lián)合幾所著名高校和企業(yè)舉辦了一個(gè)會(huì)議http://www.cipsc.org.cn/kg1/
知識(shí)圖譜介紹
通過(guò)閱讀華南理工大學(xué)華芳槐的博士論文《基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究》愕贡,可以詳細(xì)的了解知識(shí)圖譜的發(fā)展及歷史济舆。
一).為什么引入知識(shí)圖譜呢抵怎?
隨著信息的爆炸式增長(zhǎng),人們很難從海量信息中找到真實(shí)需要的信息逐哈。搜索引擎正是在這種情況下應(yīng)運(yùn)而生芬迄,其原理是:
1.通過(guò)爬蟲(chóng)從互聯(lián)網(wǎng)中采集信息问顷,通過(guò)建立基于關(guān)鍵詞的倒排索引昂秃,為用戶(hù)提供信息檢索服務(wù);
2.用戶(hù)通過(guò)使用關(guān)鍵詞描述自己的查詢(xún)意圖杜窄,搜索引擎依據(jù)一定的排序算法肠骆,把符合查詢(xún)條件的信息依序(打分)呈現(xiàn)給用戶(hù)。
搜索引擎的出現(xiàn)塞耕,在一定程度上解決了用戶(hù)從互聯(lián)網(wǎng)中獲取信息的難題蚀腿,但由于它們是基于關(guān)鍵詞或字符串的,并沒(méi)有對(duì)查詢(xún)的目標(biāo)(通常為網(wǎng)頁(yè))和用戶(hù)的查詢(xún)輸入進(jìn)行理解。
因此莉钙,它們?cè)谒阉鳒?zhǔn)確度方面存在明顯的缺陷廓脆,即由于HTML形式的網(wǎng)頁(yè)缺乏語(yǔ)義,難以被計(jì)算機(jī)理解磁玉。
二).語(yǔ)義Web和本體的概念
為解決互聯(lián)網(wǎng)信息的語(yǔ)義問(wèn)題停忿,2008年Tim Berners-Lee等人提出了下一代互聯(lián)網(wǎng)——語(yǔ)義網(wǎng)(The Semantic Web)的概念。在語(yǔ)義Web中蚊伞,所有的信息都具備一定的結(jié)構(gòu)席赂,這些結(jié)構(gòu)的語(yǔ)義通常使用本體(Ontology)來(lái)描述。
當(dāng)信息結(jié)構(gòu)化并且具備語(yǔ)義后时迫,計(jì)算機(jī)就能理解其含義了颅停,此時(shí)用戶(hù)再進(jìn)行檢索時(shí),搜索引擎在理解互聯(lián)網(wǎng)中信息含義的基礎(chǔ)上掠拳,尋找用戶(hù)真實(shí)需要的信息癞揉。由于互聯(lián)網(wǎng)中信息的含義是由本體來(lái)描述的,故本體的構(gòu)建在很大程度上決定了語(yǔ)義Web的發(fā)展溺欧。
本體(Ontology)描述了特定領(lǐng)域(領(lǐng)域本體)或所有領(lǐng)域(通用本體)中的概念以及概念之間的關(guān)聯(lián)關(guān)系烧董,并且這些概念和關(guān)系是明確的、被共同認(rèn)可的胧奔。
三).知識(shí)圖譜發(fā)展歷程
隨著互聯(lián)網(wǎng)中用戶(hù)生成內(nèi)容(User Generated Content, UGC)和開(kāi)放鏈接數(shù)據(jù)(Linked Open Data, LOD)等大量RDF(Resource Description Framework)數(shù)據(jù)被發(fā)布逊移。互聯(lián)網(wǎng)又逐步從僅包含網(wǎng)頁(yè)與網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)(Web of Document)轉(zhuǎn)變?yōu)榘罅棵枋龈鞣N實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)(Web of Data)龙填。
在此背景下胳泉,知識(shí)圖譜(Knowledge Graph)正式被Google于2012年5月提出,其目標(biāo)在于改善搜索結(jié)果岩遗,描述真實(shí)世界中存在的各種實(shí)體和概念扇商,以及這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系宿礁。緊隨其后案铺,國(guó)內(nèi)外的其它互聯(lián)網(wǎng)搜索引擎公司也紛紛構(gòu)建了自己的知識(shí)圖譜,如微軟的Probase梆靖、搜狗的知立方控汉、百度的知心。知識(shí)圖譜在語(yǔ)義搜索返吻、智能問(wèn)答姑子、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館测僵、推薦系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用街佑。
谷歌S. Amit的論文《Introducing the Knowledge Graph: Things, Not Strings》
阿米特·辛格爾博士通過(guò)“The world is not made of strings, but is made of things” 這句話(huà)來(lái)介紹他們的知識(shí)圖譜的,此處的“thing”是和傳統(tǒng)的互聯(lián)網(wǎng)上的網(wǎng)頁(yè)相比較:知識(shí)圖譜的目標(biāo)在于描述真實(shí)世界中存在的各種實(shí)體和概念,以及這些實(shí)體沐旨、概念之間的關(guān)聯(lián)關(guān)系森逮。google 還開(kāi)源了一個(gè)圖數(shù)據(jù)庫(kù)cayley https://cayley.io/#
知識(shí)圖譜和本體之間又存在什么區(qū)別呢?
知識(shí)圖譜并不是本體的替代品磁携,相反吊宋,它是在本體的基礎(chǔ)上進(jìn)行了豐富和擴(kuò)充,這種擴(kuò)充主要體現(xiàn)在實(shí)體(Entity)層面颜武;本體中突出和強(qiáng)調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系璃搜,它描述了知識(shí)圖譜的數(shù)據(jù)模式(Schema),即為知識(shí)圖譜構(gòu)建數(shù)據(jù)模式相當(dāng)于為其構(gòu)建本體鳞上;而知識(shí)圖譜則是在本體的基礎(chǔ)上这吻,增加了更加豐富的關(guān)于實(shí)體的信息。
知識(shí)圖譜可以看成是一張巨大的圖篙议,圖中的節(jié)點(diǎn)表示實(shí)體或概念唾糯,而圖中的邊則構(gòu)成關(guān)系。在知識(shí)圖譜中鬼贱,每個(gè)實(shí)體和概念都使用一個(gè)全局唯一的確定ID來(lái)標(biāo)識(shí)移怯,這個(gè)ID對(duì)應(yīng)目標(biāo)的標(biāo)識(shí)符(identifier);這種做法與一個(gè)網(wǎng)頁(yè)有一個(gè)對(duì)應(yīng)的URL、數(shù)據(jù)庫(kù)中的主鍵相似这难。
同本體結(jié)構(gòu)一樣舟误,知識(shí)圖譜中的概念與概念之間也存在各種關(guān)聯(lián)關(guān)系;同時(shí)姻乓,知識(shí)圖譜中的實(shí)體之間也存在這同樣的關(guān)系嵌溢。實(shí)體可以擁有屬性,用于刻畫(huà)實(shí)體的內(nèi)在特性蹋岩,每個(gè)屬性都是以“<屬性,屬性值>對(duì)(Attribute-Value Pair, AVP)”的方式來(lái)表示的赖草。
四).知識(shí)圖譜舉例
總之,知識(shí)圖譜的出現(xiàn)進(jìn)一步敲開(kāi)了語(yǔ)義搜索的大門(mén)剪个,搜索引擎提供的已經(jīng)不是通向答案的鏈接秧骑,還有答案本身。當(dāng)使用Google搜索扣囊,當(dāng)用戶(hù)搜索“劉德華的年齡”時(shí)乎折,其結(jié)果包括:
1.列出了相關(guān)的網(wǎng)頁(yè)文檔檢索結(jié)果;
2.在網(wǎng)頁(yè)文檔的上方給出了搜索的直接精確答案“54歲”如暖;
3.并且列出了相關(guān)的人物“梁朝偉”笆檀、“周潤(rùn)發(fā)”以及他們各自的年齡;
4.同時(shí)在右側(cè)以知識(shí)卡片(Knowledge Card)的形式列出了“劉德華”的相關(guān)信息盒至,包括:出生年月、出生地點(diǎn)、身高枷遂、相關(guān)的電影樱衷、專(zhuān)輯等。
知識(shí)卡片為用戶(hù)所輸入的查詢(xún)條件中所包含的實(shí)體或搜索返回的答案提供詳細(xì)的結(jié)構(gòu)化信息酒唉,是特定于查詢(xún)(Query Specific)的知識(shí)圖譜矩桂。
按照覆蓋面,知識(shí)圖譜可以分為:
1.通用知識(shí)圖譜
目前已經(jīng)發(fā)布的知識(shí)圖譜都是通用知識(shí)圖譜痪伦,它強(qiáng)調(diào)的是廣度侄榴,因而強(qiáng)調(diào)更多的是實(shí)體,很難生成完整的全局性的本體層的統(tǒng)一管理网沾;另外癞蚕,通用知識(shí)圖譜主要應(yīng)用于搜索等業(yè)務(wù),對(duì)準(zhǔn)確度要求不是很高辉哥。
2.行業(yè)知識(shí)圖譜
行業(yè)知識(shí)圖譜對(duì)準(zhǔn)確度要求更高桦山,通常用于輔助各種復(fù)雜的分析應(yīng)用或決策支持;嚴(yán)格與豐富的數(shù)據(jù)模式醋旦,行業(yè)知識(shí)圖譜中的實(shí)體通常屬性多且具有行業(yè)意義恒水;目標(biāo)對(duì)象需要考慮各種級(jí)別的人員,不同人員對(duì)應(yīng)的操作和業(yè)務(wù)場(chǎng)景不同饲齐。
本體構(gòu)建:人工構(gòu)建方式钉凌、自動(dòng)構(gòu)建方式和半自動(dòng)構(gòu)建方式
知識(shí)圖譜的架構(gòu)
知識(shí)圖譜的邏輯結(jié)構(gòu)分為兩個(gè)層次:數(shù)據(jù)層和模式層。
在知識(shí)圖譜的數(shù)據(jù)層捂人,知識(shí)以事實(shí)(fact)為單位存儲(chǔ)在圖數(shù)據(jù)庫(kù)甩骏。如果以『實(shí)體-關(guān)系-實(shí)體』或者『實(shí)體-屬性-值』三元組作為事實(shí)的基本表達(dá)方式,則存儲(chǔ)在圖數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)將構(gòu)成龐大的實(shí)體關(guān)系網(wǎng)絡(luò)先慷,形成知識(shí)的圖譜饮笛。
模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心论熙,在模式層存儲(chǔ)的是經(jīng)過(guò)提煉的知識(shí)福青,通常采用本體庫(kù)來(lái)管理知識(shí)圖譜的模式層,借助本體庫(kù)對(duì)公理脓诡、規(guī)則和約束條件的支持能力來(lái)規(guī)范實(shí)體无午、關(guān)系以及實(shí)體的類(lèi)型和屬性等對(duì)象之間的聯(lián)系。本體庫(kù)在知識(shí)圖譜中的地位相當(dāng)于知識(shí)庫(kù)的模具祝谚,擁有本體庫(kù)的知識(shí)庫(kù)冗余知識(shí)較少宪迟。
Semantic Computation 語(yǔ)義計(jì)算(知識(shí)圖譜構(gòu)建技術(shù))
這些大概是傳統(tǒng)的自然語(yǔ)言處理(抽取非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù))的問(wèn)題,已經(jīng)有了很多的開(kāi)源工具交惯,如下:
基于warpper的抽取工具
beautiful soup: 幫助輕松讀取和解析網(wǎng)頁(yè)次泽。非常適合初始解析和抓取穿仪。
lxml: 以Python語(yǔ)言處理XML和HTML的庫(kù)。
信息抽取工具(主要是python語(yǔ)言)
NLTK 老牌的自然語(yǔ)言處理工具(使用的技術(shù)現(xiàn)在差不多都已經(jīng)不太使用了)
Google Cloud Natural Language API
SpaCy (自然語(yǔ)言處理的新秀意荤,2014年新出的的庫(kù)啊片,有許多強(qiáng)大的功能,如詞向量玖像,實(shí)體抽取紫谷,深度學(xué)習(xí)嵌入,多線(xiàn)程等)
KOKO (Python語(yǔ)言): 利用有限證據(jù)的實(shí)體提取工具捐寥。
下面是一些其他工具(Java和Scala語(yǔ)言)
Stanford Open IE 用于命名實(shí)體識(shí)別笤昨、關(guān)系抽取等。
Mallet, 從文本進(jìn)行實(shí)體抽取握恳。
具體步驟:
預(yù)處理
檢測(cè)和清除表面錯(cuò)誤瞒窒,包括不可讀代碼(Unreadable codes)、錯(cuò)誤的截?cái)?Erroneous Truncation)睡互、由于挖掘錯(cuò)誤引起的錯(cuò)誤屬性根竿、雙字節(jié)-單字節(jié)替換(Double byte - single byte replacement)、英語(yǔ)字符處理(English character processing)等就珠。
實(shí)體構(gòu)建——實(shí)體和屬性的抽取
實(shí)體抽取
命名實(shí)體挖掘 Mining Named Entities
傳統(tǒng)命名實(shí)體(NE)類(lèi)別:人(Person)寇壳、位置(Location)、組織(Organization)
更多對(duì)web應(yīng)用程序有用的新類(lèi)別:Movie妻怎、TV series壳炎、music、book逼侦、software匿辩、computer game
更精細(xì)的分類(lèi):組織 -> {學(xué)校,醫(yī)院,政府,公司...}
Computer game -> {net game,webpage game,...}
其中web中命名實(shí)體的特點(diǎn)包括:新的命名實(shí)體迅速崛起,包括軟件榛丢、游戲和小說(shuō)铲球;命名實(shí)體在網(wǎng)絡(luò)上的名字是非正式的(informal)
1.從查詢(xún)?nèi)罩?Query Logs)中學(xué)習(xí)命名實(shí)體(NEs)
查詢(xún)?nèi)罩局邪舜罅康拿麑?shí)體,大約70%的搜索查詢(xún)包含了NEs晰赞。如下圖2007年P(guān)asca論文所示稼病,命名實(shí)體能夠根據(jù)上下文特征(context features)識(shí)別。如上下文詞“電影掖鱼、在線(xiàn)觀看然走、影評(píng)”等等,識(shí)別“中國(guó)合伙人”戏挡。
從查詢(xún)中學(xué)習(xí)種子的上下文特征芍瑞,然后使用已經(jīng)學(xué)到的上下文特征來(lái)提取C類(lèi)的新種子實(shí)體,使用擴(kuò)展種子集去擴(kuò)展上下文特征....
利用查詢(xún)?nèi)罩驹摲椒ǖ膬?yōu)點(diǎn)是:它能夠覆蓋最新出現(xiàn)的命名實(shí)體褐墅;它的缺點(diǎn)是:舊的或者不受歡迎的命名實(shí)體可能會(huì)錯(cuò)過(guò)拆檬。
2.從普通文本中學(xué)習(xí)命名實(shí)體(Learning NEs from Plain Texts)
文字包裝器(Text Wrappers)被廣泛使用于從純文本中提取(Extracting)命名實(shí)體洪己。例如包裝器“電影《[X]》”,“影片[X]秩仆,導(dǎo)演”码泛,其中[X]表示電影名字
3.使用URL文本混合模式(Url-text Hybrid Patterns)學(xué)習(xí)命名實(shí)體
是否有可能只從網(wǎng)頁(yè)標(biāo)題(webpage titles)中提取命名實(shí)體呢猾封?確實(shí)澄耍。99%的命名實(shí)體都能夠在一些網(wǎng)頁(yè)標(biāo)題中發(fā)現(xiàn)。
Url文本混合模型應(yīng)該考慮URL約束晌缘,簡(jiǎn)單的文本模式可信的URL鏈接是足夠的齐莲,復(fù)雜的文本模式需要低質(zhì)量的URL。 可以參考 《Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns》
4.算法自動(dòng)從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)抽取實(shí)體磷箕,2012年Ling等人歸納出112種實(shí)體類(lèi)別选酗,并基于條件隨機(jī)場(chǎng)CRF進(jìn)行實(shí)體邊界識(shí)別,最后采用自適應(yīng)感知機(jī)算法實(shí)現(xiàn)了對(duì)實(shí)體的自動(dòng)分類(lèi)岳枷,取得了不錯(cuò)的效果芒填。
抽取關(guān)系
從相關(guān)的語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)聯(lián)關(guān)系將實(shí)體(概念)聯(lián)系起來(lái)空繁。
早期的關(guān)系抽取研究方法主要是通過(guò)人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則殿衰。隨后,出現(xiàn)了大量基于特征向量或者核函數(shù)的有監(jiān)督學(xué)習(xí)方法盛泡,關(guān)系抽取的準(zhǔn)確性也不斷提高闷祥。但以上研究成果的共同特點(diǎn)是需要預(yù)先定義實(shí)體關(guān)系類(lèi)型,如雇傭關(guān)系傲诵、整體部分關(guān)系以及位置關(guān)系等凯砍。
與之相對(duì)的,Banko等人提出了面向開(kāi)放域的信息抽取方法框架(open information extraction拴竹,OpenIE)悟衩,并發(fā)布了基于自監(jiān)督(self-supervised)學(xué)習(xí)方式的開(kāi)放信息抽取原型系統(tǒng)(TextRunner),該系統(tǒng)采用少量人工標(biāo)記數(shù)據(jù)作為訓(xùn)練集栓拜,據(jù)此得到一個(gè)實(shí)體關(guān)系分類(lèi)模型座泳,再依據(jù)該模型對(duì)開(kāi)放數(shù)據(jù)進(jìn)行分類(lèi),依據(jù)分類(lèi)結(jié)果訓(xùn)練樸素貝葉斯模型來(lái)識(shí)別『實(shí)體-關(guān)系-實(shí)體』三元組菱属,經(jīng)過(guò)大規(guī)模真實(shí)數(shù)據(jù)測(cè)試钳榨,取得了顯著優(yōu)于同時(shí)期其他方法的結(jié)果。
TextRunner系統(tǒng)中錯(cuò)誤的部分主要是一些無(wú)意義或者不和邏輯的實(shí)體關(guān)系三元組纽门,據(jù)此引入語(yǔ)法限制條件和字典約束薛耻,采用先識(shí)別關(guān)系指示詞,然后再對(duì)實(shí)體進(jìn)行識(shí)別的策略赏陵,有效提高了關(guān)系識(shí)別準(zhǔn)確率饼齿。
3饲漾。屬性抽取
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。例如針對(duì)某個(gè)公眾人物缕溉,可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱(chēng)考传、生日、國(guó)籍证鸥、教育背景等信息僚楞。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來(lái)源中匯集這些信息,實(shí)現(xiàn)對(duì)實(shí)體屬性的完整勾畫(huà)枉层。一般從百科類(lèi)網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù)泉褐,通過(guò)自動(dòng)抽取生成訓(xùn)練語(yǔ)料,用于訓(xùn)練實(shí)體屬性標(biāo)注模型鸟蜡,然后將其應(yīng)用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽饶ぴ摺;
屬性值對(duì)挖掘 AVP Mining
AVP英文全稱(chēng)是Attribute Values Pairs揉忘。那么跳座,哪里會(huì)見(jiàn)到這種AVP數(shù)據(jù)呢?
在線(xiàn)百科:三大百科 Baidu Baike \ Wikipedia \ Hudong Baike
垂直網(wǎng)站(Vertical websites):IMDB泣矛,douban for videos
普通文檔網(wǎng)頁(yè):從結(jié)構(gòu)化疲眷、半結(jié)構(gòu)化(semistructured)和非結(jié)構(gòu)化文本中爬取AVP,例如挖掘垂直網(wǎng)站AVP數(shù)據(jù)
可能會(huì)遇到兩個(gè)問(wèn)題乳蓄?
第一個(gè)是如何找到相關(guān)的垂直網(wǎng)站咪橙,如果是尋找流行的網(wǎng)站是容易的,如音樂(lè)虚倒、電影美侦、小說(shuō);但是如果是尋找長(zhǎng)尾域(long tail domains)的網(wǎng)站是困難的魂奥,如化妝品菠剩、雜志。第二個(gè)問(wèn)題是面對(duì)眾多的數(shù)據(jù)怎樣生成提取模式耻煤。
同時(shí)具壮,人工模式可以保證很高的準(zhǔn)確性,但是工具能夠幫助我們更加便利的編輯模式哈蝇。最后AVP知識(shí)需要日常中積累和更新棺妓,包括不同時(shí)間類(lèi)別的更新、新網(wǎng)站的加入炮赦、無(wú)序或網(wǎng)站崩潰需要自動(dòng)檢測(cè)或手工處理怜跑。
對(duì)屬性進(jìn)行一些轉(zhuǎn)換
1.Value Type Recognition 值類(lèi)型識(shí)別
屬性對(duì)應(yīng)的值類(lèi)型。其中值類(lèi)型包括:Number(數(shù)字)吠勘、Data/Time(日期/時(shí)間)性芬、Entity(實(shí)體)峡眶,Enumeration(枚舉)、Text(default植锉,默認(rèn)文本)辫樱。
2.Value Normalization 值正常化
Splitting(分詞)
Conversion(轉(zhuǎn)換)俊庇,E.g., 2.26m -> 226cm
3.Attribute Normalization 屬性正呈ㄊ睿化
Domain-specific problem(特定領(lǐng)域問(wèn)題)
某些屬性被視為同義詞只在特定的領(lǐng)域甚至是兩個(gè)特定的知識(shí)源中。
例如“大小(size)”和“屏幕(screen)”在一些手機(jī)網(wǎng)站上表示同義詞暇赤,但不是所有的開(kāi)放域解釋都相同心例,可以使用分類(lèi)模型(Classification model)來(lái)識(shí)別候選同義屬性宵凌。其中特征包括屬性淺層相似特征鞋囊、相似屬性值特征、相似值類(lèi)型(Value-type)特征和實(shí)體值特征瞎惫。最后評(píng)選者從所有候選中選擇正確的相似屬性對(duì)溜腐。
Knowledge Fusion 知識(shí)融合
1.融合從不同數(shù)據(jù)來(lái)源的知識(shí),關(guān)鍵問(wèn)題——實(shí)體消歧(Entity disambiguation)瓜喇。
其解決方法是計(jì)算兩個(gè)相同名稱(chēng)實(shí)體之間的相似性挺益。一些基本屬性可以用來(lái)確定實(shí)體的身份,如“works of a writer”乘寒。其他一些屬性只能用來(lái)作相似性的特征望众,如“nationality of a person”(國(guó)籍)。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法被引入該領(lǐng)域伞辛,McCarthy等人將C4.5決策樹(shù)算法也被應(yīng)用于解決實(shí)體消歧問(wèn)題烂翰。
2.Entity Classification 實(shí)體分類(lèi)
為什么需要分類(lèi)呢?因?yàn)橐恍?shí)體會(huì)丟失類(lèi)別信息蚤氏;同時(shí)不失所有從源數(shù)據(jù)中挖掘的實(shí)體都有類(lèi)別(category)甘耿。解決方法是:通過(guò)監(jiān)督模型訓(xùn)練已知類(lèi)別的實(shí)體和它們的屬性-值對(duì);使用結(jié)構(gòu)化數(shù)據(jù)(AVPs)和非結(jié)構(gòu)化數(shù)據(jù)(上下文文本)來(lái)精確地分類(lèi)特征竿滨。
下面是一些在知識(shí)應(yīng)用層的語(yǔ)義計(jì)算模塊/方法佳恬。主要是具體的應(yīng)用:
實(shí)體消歧用于推理(Entity disambiguation for reasoning)
相關(guān)實(shí)體消歧(Related entity disambiguation)
搜索需求識(shí)別(Search requirement recognition)
需要識(shí)別用戶(hù)搜索的“李娜”是網(wǎng)球運(yùn)動(dòng)員、歌手于游、舞蹈家還是其他毁葱。
其核心問(wèn)題就是AVP相似計(jì)算,包括為不同的屬性定義不同的權(quán)重贰剥、有用屬性和無(wú)用屬性等倾剿。
異構(gòu)數(shù)據(jù)整合(實(shí)體對(duì)齊、屬性值決策鸠澈、關(guān)系建立)
1.實(shí)體對(duì)齊
例如對(duì)“張藝謀”這個(gè)實(shí)體進(jìn)行對(duì)齊柱告,數(shù)據(jù)源來(lái)自互動(dòng)百科截驮、百度百科、tvmao網(wǎng)站际度、搜狐娛樂(lè)葵袭。
比如張藝謀的國(guó)籍需要對(duì)齊“中華人民共和國(guó)”、“中國(guó)(內(nèi)地)”乖菱、“中國(guó)”三個(gè)屬性值坡锡;“國(guó)家”、“國(guó)籍”窒所、“國(guó)籍”需要屬性對(duì)齊鹉勒;再如出生日期對(duì)齊“1951年11月14日”、“1951-11-14”吵取、“1951-11-14”實(shí)現(xiàn)屬性值對(duì)齊禽额。
還可以接入外部知識(shí)庫(kù),
國(guó)際上流行的知識(shí)庫(kù)或數(shù)據(jù)源如下所示:
Wolframalpha: 一個(gè)計(jì)算知識(shí)引擎皮官,而不是搜索引擎脯倒。其真正的創(chuàng)新之處,在于能夠馬上理解問(wèn)題捺氢,并給出答案藻丢,在被問(wèn)到"珠穆朗瑪峰有多高"之類(lèi)的問(wèn)題時(shí),WolframAlpha不僅能告訴你海拔高度摄乒,還能告訴你這座世界第一高峰的地理位置悠反、附近有什么城鎮(zhèn),以及一系列圖表馍佑。
Freebase: 6800萬(wàn)實(shí)體斋否,10億的關(guān)系。Google號(hào)稱(chēng)擴(kuò)展到5億實(shí)體和25億的關(guān)系挤茄。所有內(nèi)容都由用戶(hù)添加如叼,采用創(chuàng)意共用許可證,可以自由引用穷劈。
DBpedia: wikipedia基金會(huì)的一個(gè)子項(xiàng)目笼恰,處于萌芽階段。DBpedia是一個(gè)在線(xiàn)關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)項(xiàng)目歇终。它從維基百科的詞條中抽取結(jié)構(gòu)化數(shù)據(jù)社证,以提供更準(zhǔn)確和直接的維基百科搜索,并在其他數(shù)據(jù)集和維基百科之間創(chuàng)建連接评凝,并進(jìn)一步將這些數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上蕴侣,提供給需要這些關(guān)聯(lián)數(shù)據(jù)的在線(xiàn)網(wǎng)絡(luò)應(yīng)用没咙、社交網(wǎng)站或者其他在線(xiàn)關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)洁奈。
還有一個(gè)中文知識(shí)庫(kù)openkg http://openkg.cn
知識(shí)推理
知識(shí)推理是指從知識(shí)庫(kù)中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā)谆刨,進(jìn)行計(jì)算機(jī)推理已球,建立實(shí)體間的新關(guān)聯(lián),從而拓展和豐富知識(shí)網(wǎng)絡(luò)。知識(shí)推理是知識(shí)圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié),通過(guò)知識(shí)推理之斯,能夠從現(xiàn)有知識(shí)中發(fā)現(xiàn)新的知識(shí)。
知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系遣铝,也可以是實(shí)體的屬性值佑刷,本體的概念層次關(guān)系等。
知識(shí)的推理方法可以分為2大類(lèi):基于邏輯的推理和基于圖的推理酿炸。
基于邏輯的推理主要包括一階邏輯謂詞瘫絮、描述邏輯以及基于規(guī)則的推理。
一階謂詞邏輯建立在命題的基礎(chǔ)上填硕,在一階謂詞邏輯中麦萤,命題被分解為個(gè)體(individuals)和謂詞(predication)2部分。個(gè)體是指可獨(dú)立存在的客體廷支,可以是一個(gè)具體的事物频鉴,也可以是一個(gè)抽象的概念。謂詞是用來(lái)刻畫(huà)個(gè)體性質(zhì)及事物關(guān)系的詞恋拍。比如(A,friend藕甩,B)就是表達(dá)個(gè)體A和B關(guān)系的謂詞施敢。
對(duì)于復(fù)雜的實(shí)體關(guān)系,可以采用描述邏輯進(jìn)行推理狭莱。描述邏輯(description logic)是一種基于對(duì)象的知識(shí)表示的形式化工具僵娃,是一階謂詞邏輯的子集,它是本體語(yǔ)言推理的重要設(shè)計(jì)基礎(chǔ)腋妙。
基于規(guī)則的推理可以利用專(zhuān)門(mén)的規(guī)則語(yǔ)言默怨,如SWRL(semantic Web rule language)。
基于圖的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或Path Ranking算法骤素。Path Ranking算法的基本思想是將知識(shí)圖譜視為圖(以實(shí)體為節(jié)點(diǎn)匙睹,以關(guān)系或?qū)傩詾檫叄瑥脑垂?jié)點(diǎn)開(kāi)始济竹,在圖上執(zhí)行隨機(jī)游走痕檬,如果能夠通過(guò)一個(gè)路徑到達(dá)目標(biāo)節(jié)點(diǎn),則推測(cè)源和目的節(jié)點(diǎn)可能存在關(guān)系送浊。
reference:
https://stanfordnlp.github.io/CoreNLP/openie.html
http://www.52nlp.cn/tag/python-spacy
https://github.com/explosion/spaCy
https://github.com/biggorilla-gh/koko
https://leetcode.com/problemset/all/
https://github.com/HazyResearch/deepdive
https://www.biggorilla.org/zh-hans/data-extraction
http://www.reibang.com/p/4f09043e22ea
https://cayley.io/#
http://openkg.cn
https://m.wikidata.org/wiki/Wikidata:Main_Page
http://m.blog.csdn.net/column/details?alias=eastmount-kgdmnlp&page=2
https://googleblog.blogspot.hk/2012/05/introducing-knowledge-graph-things-not.html?m=1