1.知識(shí)圖譜:
? ? ?1).描述客觀世界中存在的實(shí)體或概念指攒;
? ? ?2).其中每個(gè)實(shí)體或概念有一個(gè)唯一ID標(biāo)識(shí)拓劝,稱之為標(biāo)識(shí)符考赛;(實(shí)體)
? ? ?3).每個(gè)(屬性-值)描述各個(gè)實(shí)體或概念的內(nèi)在特性一罩,用關(guān)系來(lái)描述各個(gè)實(shí)體或者概念的關(guān)聯(lián)月趟;(關(guān)系)
? ? ?提供一種豐富的語(yǔ)義信息灯蝴,建立與現(xiàn)實(shí)世界實(shí)體的關(guān)系;
2.知識(shí)圖譜的構(gòu)建:
? ? 1)數(shù)據(jù)源:主要是文本孝宗、dom trees,html表格穷躁、RDF語(yǔ)義數(shù)據(jù),用于信息抽取因妇,多數(shù)據(jù)源也可有效的判定知識(shí)的可信性问潭;
? ? a.大規(guī)模知識(shí)庫(kù),比如百度百科婚被、wiki百科狡忙、以及一些大公司資助的知識(shí)庫(kù)(谷歌收購(gòu)的Freebase,德國(guó)萊比錫大學(xué)等DBpedia,德國(guó)馬克斯·普朗特研究所的YAGO等等),還有一些領(lǐng)域?qū)<艺淼念I(lǐng)域知識(shí)庫(kù)摔寨;
? ? b.互聯(lián)網(wǎng)鏈接數(shù)據(jù):就是W3C發(fā)起的項(xiàng)目Linked opend data (LOD) :將互聯(lián)網(wǎng)文檔組成的萬(wàn)維網(wǎng)(web of document)擴(kuò)展成互聯(lián)數(shù)據(jù)組成的知識(shí)空間(web of data),LOD通過(guò)RDF(resource description framework)形式在web上發(fā)布各種開(kāi)放數(shù)據(jù)集去枷;
? ? ps:RDF是一種描述結(jié)構(gòu)化數(shù)據(jù)的框架,它將實(shí)體間的關(guān)系表示為(實(shí)體1是复,關(guān)系删顶,實(shí)體2)的三元組;
? ? ?RDF還允許不同來(lái)源的數(shù)據(jù)項(xiàng)之間設(shè)置RDF鏈接淑廊,實(shí)現(xiàn)語(yǔ)義web知識(shí)庫(kù)逗余。但有一些問(wèn)題:主要是很多機(jī)構(gòu)發(fā)布的數(shù)據(jù)集存在冗余和異構(gòu)等問(wèn)題;
? ? c.互聯(lián)網(wǎng)網(wǎng)頁(yè)文本數(shù)據(jù):從海量的互聯(lián)網(wǎng)中直接抽取數(shù)據(jù)季惩,當(dāng)然很多就是無(wú)結(jié)構(gòu)化的數(shù)據(jù)了录粱,很多人采取的方式是只采集表格中的數(shù)據(jù)等;
2)知識(shí)融合:
? ? 涉及‘實(shí)體融合’画拾,‘關(guān)系融合’啥繁,‘實(shí)例融合’;(實(shí)例= 實(shí)體+關(guān)系)青抛;
? ? 其一旗闽,實(shí)體融合涉及三個(gè)處理:1.同區(qū)域下的不同實(shí)體名稱稱謂規(guī)約到同一個(gè)實(shí)體下,2.同一個(gè)稱謂在不同語(yǔ)言不同地區(qū)不同國(guó)家的命名;3.同一個(gè)實(shí)體名在不同的語(yǔ)境下會(huì)有不同的含義(例如‘蘋(píng)果’)
? ? 其二:關(guān)系融合與實(shí)體融合大體一致适室;
? ? 其三:實(shí)例融合在處理了實(shí)體融合和關(guān)系融合之后嫡意,就開(kāi)始處理三元組實(shí)例的融合;
3.知識(shí)圖譜的主要技術(shù)點(diǎn)捣辆,智能信息處理技術(shù)
? ? 1)實(shí)體鏈指(Entity Linking)
? ? ?將網(wǎng)頁(yè)中出現(xiàn)的實(shí)體鏈接到相應(yīng)的知識(shí)庫(kù)詞條上蔬螟,實(shí)際上是將互聯(lián)網(wǎng)網(wǎng)頁(yè)與實(shí)體之間建立了鏈接關(guān)系;
? ? ?需要做的事情:計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)實(shí)體鏈指汽畴,需要注意的是知識(shí)圖譜不僅包含實(shí)體旧巾,而且還還有大量概念(concept)
? ? ?具體要實(shí)現(xiàn):實(shí)體識(shí)別(entity recognition)和實(shí)體消歧(entity disambiguation)
? ? ?實(shí)體鏈指不局限于文本和實(shí)體,包括圖像整袁,社交媒體菠齿,數(shù)據(jù)與實(shí)體的關(guān)聯(lián)佑吝。
2)關(guān)系抽茸肌(Relation Extraction)
? ? ?構(gòu)建知識(shí)圖譜的重要來(lái)源之一就是從互聯(lián)網(wǎng)網(wǎng)頁(yè)文本中抽取實(shí)體關(guān)系。關(guān)系抽取是一種典型的信息抽取任務(wù)芋忿。
? ? ?其典型的方法是采用自舉(bootstrapping)的思想:
? ? ?a.按照‘模板生成->實(shí)例抽取’的流程不斷迭代直至收斂炸客。舉例說(shuō)明:‘X是Y的首都’模板取出(中國(guó),首都戈钢,北京)等三元組實(shí)例痹仙;然后根據(jù)這些三元組中的實(shí)例對(duì)‘中國(guó)-北京’可以發(fā)現(xiàn)更多的匹配模板,如‘Y的首都是X’,'X是Y的政治中心'等殉了,進(jìn)而用新發(fā)現(xiàn)的模板抽取更多新的三元組實(shí)例开仰,通過(guò)反復(fù)迭代不斷抽取新的實(shí)例與模板。但是這種方法雖然直觀有效薪铜,但是面臨很多的挑戰(zhàn)問(wèn)題众弓,如在擴(kuò)展中遇到很容易引入噪聲實(shí)例和模板,出現(xiàn)語(yǔ)義漂移的現(xiàn)象隔箍,降低抽取準(zhǔn)確度谓娃。當(dāng)然處理這些問(wèn)題現(xiàn)象有一些方法,比如‘同時(shí)擴(kuò)展多個(gè)互斥類別的知識(shí)’蜒滩,‘提出引入負(fù)實(shí)例來(lái)限制語(yǔ)義漂移‘滨达。
? ? ?b. 也可以通過(guò)識(shí)別表達(dá)語(yǔ)義關(guān)系的短語(yǔ)來(lái)抽取實(shí)體間的關(guān)系,通過(guò)句法分析出實(shí)體的多個(gè)關(guān)系(同一個(gè)意思的多種表達(dá))俯艰,一般是一個(gè)以動(dòng)詞為核心的短語(yǔ)捡遍,無(wú)需人工定義關(guān)系的種類,但是這種自由度帶來(lái)的問(wèn)題是沒(méi)有歸一化竹握,自動(dòng)發(fā)現(xiàn)的關(guān)系進(jìn)行的聚類歸約是一個(gè)挑戰(zhàn)性問(wèn)題画株;
? ? c.將關(guān)系看成分類標(biāo)簽,把關(guān)系抽取轉(zhuǎn)換成對(duì)實(shí)體對(duì)的關(guān)系分類問(wèn)題,采用此方法的缺陷主要來(lái)源于缺乏標(biāo)注語(yǔ)料污秆。斯坦福(遠(yuǎn)程監(jiān)督思想)使用知識(shí)圖譜中已有的三元組實(shí)例啟發(fā)式的標(biāo)注訓(xùn)練語(yǔ)料劈猪,將知識(shí)圖譜三元組中每個(gè)實(shí)體看做待分類樣例,將知識(shí)圖譜中實(shí)體對(duì)關(guān)系看做分類標(biāo)簽良拼,通過(guò)從出現(xiàn)實(shí)體對(duì)的所有句子中抽取特征战得,利用機(jī)器學(xué)習(xí)分類模型(如最大熵分類、SVM等)構(gòu)建信息抽取系統(tǒng)庸推。遠(yuǎn)程監(jiān)督能夠根據(jù)知識(shí)圖譜自動(dòng)構(gòu)建大規(guī)模標(biāo)注語(yǔ)料庫(kù)常侦,但是和自舉思想一樣,同樣也會(huì)出現(xiàn)大量噪聲訓(xùn)練樣例贬媒,嚴(yán)重?fù)p害模型準(zhǔn)確度聋亡。處理方法:一個(gè)正確訓(xùn)練實(shí)例往往位于語(yǔ)義一致的區(qū)域,也就是其周邊的實(shí)例應(yīng)用擁有相同的關(guān)系际乘,也可以利用因子圖坡倔、矩陣分解等方法,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系脖含,以實(shí)現(xiàn)有效降低噪聲罪塔;
3)知識(shí)推理(Knowledge Reasoning)
? ? ?首先,推理能力是人類智能的重要特征养葵,能夠從已有的知識(shí)中發(fā)現(xiàn)隱含的知識(shí)征堪。其需要相關(guān)規(guī)則的支持;
? ? ?毋庸置疑关拒,通過(guò)人工手工構(gòu)建佃蚜,很費(fèi)時(shí)間精力,如何自動(dòng)挖掘相關(guān)推理規(guī)則或模式着绊,現(xiàn)在主要依賴關(guān)系之間的同現(xiàn)情況谐算,利用關(guān)聯(lián)挖掘技術(shù)來(lái)自動(dòng)發(fā)現(xiàn)推理規(guī)則;
? ? ?實(shí)體之間有豐富的同現(xiàn)信息畔柔,比如X,Y,Z間出現(xiàn)的實(shí)例(x氯夷,父親,y)靶擦,(y,父親腮考,z)以及(x,祖父,z)統(tǒng)計(jì)出(父親+父親->祖父)玄捕。利用推理規(guī)則實(shí)現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm (Lao & Cohen ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?????2010)踩蔚,該方法將每種不同的關(guān)系路徑作為一維特征,通過(guò)在知識(shí)圖譜中統(tǒng)計(jì)大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量枚粘,建立關(guān)系分類器進(jìn)行關(guān)系抽取馅闽,取得不錯(cuò)的抽取效果,成為近年來(lái)的關(guān)系抽取的代表方法之一。但這種基于關(guān)系的同現(xiàn)統(tǒng)計(jì)的方法福也,面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題局骤。 在知識(shí)推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進(jìn)行知識(shí)推理研究暴凑。目前來(lái)看峦甩,這方面研究仍處于百家爭(zhēng)鳴階段,大家在推理表示等諸多方面仍為達(dá)成共識(shí)现喳,未來(lái)路徑有待進(jìn)一步探索凯傲。
4)知識(shí)表示(knowledge Representation)
? ? ?在計(jì)算機(jī)中如何對(duì)知識(shí)圖譜進(jìn)行表示與存儲(chǔ),往往將知識(shí)圖譜作為復(fù)雜網(wǎng)絡(luò)進(jìn)行存儲(chǔ)嗦篱,這個(gè)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)帶有實(shí)體標(biāo)簽冰单,而每條邊帶有關(guān)系標(biāo)簽【拇伲基于這種網(wǎng)絡(luò)的表示方案诫欠,知識(shí)圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?????圖算法來(lái)完成。該表示方法面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題腿宰,對(duì)于那些對(duì)外連接較少的實(shí)體呕诉,一些圖方法可能束手無(wú)策或效果不佳缘厢。此外吃度,圖算法往往計(jì)算復(fù)雜度較高,無(wú)法適應(yīng)大規(guī)模知識(shí)圖譜的應(yīng)用需求贴硫。
? ? ?方法:伴隨著深入學(xué)習(xí)和表示學(xué)習(xí)的發(fā)展椿每,知識(shí)圖譜的實(shí)體和關(guān)系的語(yǔ)義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案英遭。其中间护,最簡(jiǎn)單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實(shí)體和關(guān)系的分布式向量表示挖诸,將每個(gè)三元組實(shí)例(head汁尺,relation,tail)中的關(guān)系relation看做從實(shí)體head到實(shí)體tail的翻譯多律,通過(guò)不斷調(diào)整h痴突、r和t(head、relation和tail的向量)狼荞,使(h + r) 盡可能與 t 相等辽装,即 h + r = t。
? ? ? 利用分布式向量相味,我們可以通過(guò)歐氏距離或余弦距離等方式拾积,很容易地計(jì)算實(shí)體間、關(guān)系間的語(yǔ)義相關(guān)度。這將極大的改進(jìn)開(kāi)放信息抽取中實(shí)體融合和關(guān)系融合的性能拓巧。通過(guò)尋找給定實(shí)體的相似實(shí)體斯碌,還可用于查詢擴(kuò)展和查詢理解等應(yīng)用。這種向量表示有一些作用肛度,1.反過(guò)來(lái)输拇,知識(shí)表示可以用于關(guān)系抽取,給定兩個(gè)實(shí)體h和t的時(shí)候贤斜,可以通過(guò)尋找與t-h最相似的r來(lái)尋找策吠,兩個(gè)實(shí)體間的關(guān)系,實(shí)驗(yàn)證明瘩绒,該方法的抽取性能較高猴抹。而且我們可以發(fā)現(xiàn),該方法僅需要知識(shí)圖譜作為訓(xùn)練數(shù)據(jù)锁荔,不需要外部的文本數(shù)據(jù)蟀给,因此這又稱為知識(shí)圖譜補(bǔ)全(Knowledge Graph Completion),與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(cè)(Link Prediction)類似阳堕,但是要復(fù)雜得多跋理,因?yàn)樵谥R(shí)圖譜中每個(gè)節(jié)點(diǎn)和連邊上都有標(biāo)簽(標(biāo)記實(shí)體名和關(guān)系名)。2.知識(shí)表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則恬总。例如前普,對(duì)于大量X、Y壹堰、Z間出現(xiàn)的(X拭卿,父親,Y)贱纠、(Y峻厚,父親,Z)以及(X谆焊,祖父惠桃,Z)實(shí)例,我們?cè)赥ransE中會(huì)學(xué)習(xí)X+父親=Y辖试,Y+父親=Z辜王,以及X+祖父=Z等目標(biāo)。根據(jù)前兩個(gè)等式剃执,我們很容易得到X+父親+父親=Z誓禁,與第三個(gè)公式相比,就能夠得到“父親+父親=>祖父”的推理規(guī)則肾档。前面我們介紹過(guò)摹恰,基于關(guān)系的同現(xiàn)統(tǒng)計(jì)學(xué)習(xí)推理規(guī)則的思想辫继,存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。如果利用關(guān)系向量表示提供輔助俗慈,可以顯著緩解稀疏問(wèn)題姑宽。
4.關(guān)注點(diǎn)
? ? ?根據(jù)各搜索引擎公司提供的報(bào)告來(lái)看,為了保證知識(shí)圖譜的準(zhǔn)確率闺阱,仍然需要在知識(shí)圖譜構(gòu)建過(guò)程中采用較多的人工干預(yù)炮车。
? ? ?1.知識(shí)類型與表示。知識(shí)圖譜主要采用(實(shí)體1,關(guān)系,實(shí)體2)三元組的形式來(lái)表示知識(shí)酣溃,這種方法可以較好的表示很多事實(shí)性知識(shí)瘦穆。然而,人類知識(shí)類型多樣赊豌,面對(duì)很多復(fù)雜知識(shí)扛或,三元組就束手無(wú)策了。例如碘饼,人們的購(gòu)物記錄信息熙兔,新聞事件等,包含大量實(shí)體及其之間的復(fù)雜關(guān)系艾恼,更不用說(shuō)人類大量的涉及主觀感受住涉、主觀情感和模糊的知識(shí)了。有很多學(xué)者針對(duì)不同場(chǎng)景設(shè)計(jì)不同的知識(shí)表示方法钠绍。知識(shí)表示是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)舆声,如何合理設(shè)計(jì)表示方案,更好地涵蓋人類不同類型的知識(shí)五慈,是知識(shí)圖譜的重要研究問(wèn)題纳寂。最近認(rèn)知領(lǐng)域關(guān)于人類知識(shí)類型的探索(Tenenbaum, et al. 2011)也許會(huì)對(duì)知識(shí)表示研究有一定啟發(fā)作用。
? ? ?2.知識(shí)獲取泻拦。如何從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識(shí),是構(gòu)建知識(shí)圖譜的重要問(wèn)題忽媒。目前已經(jīng)提出各種知識(shí)獲取方案争拐,并已經(jīng)成功抽取大量有用的知識(shí)。但在抽取知識(shí)的準(zhǔn)確率晦雨、覆蓋率和效率等方面架曹,都仍不如人意,有極大的提升空間闹瞧。
? ? ?3.知識(shí)融合绑雄。來(lái)自不同數(shù)據(jù)的抽取知識(shí)可能存在大量噪音和冗余,或者使用了不同的語(yǔ)言奥邮。如何將這些知識(shí)有機(jī)融合起來(lái)万牺,建立更大規(guī)模的知識(shí)圖譜罗珍,是實(shí)現(xiàn)大數(shù)據(jù)智能的必由之路。
? ? ?4.知識(shí)應(yīng)用脚粟。目前大規(guī)模知識(shí)圖譜的應(yīng)用場(chǎng)景和方式還比較有限覆旱,如何有效實(shí)現(xiàn)知識(shí)圖譜的應(yīng)用,利用知識(shí)圖譜實(shí)現(xiàn)深度知識(shí)推理核无,提高大規(guī)模知識(shí)圖譜計(jì)算效率扣唱,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場(chǎng)景团南,提出新的應(yīng)用算法噪沙。這既需要豐富的知識(shí)圖譜技術(shù)積累,也需要對(duì)人類需求的敏銳感知吐根,找到合適的應(yīng)用之道曲聂。
5.總結(jié):
?? ? 知識(shí)圖譜是下一代搜索引擎、自動(dòng)問(wèn)答等智能應(yīng)用的基礎(chǔ)設(shè)施佑惠。
?? ? 互聯(lián)網(wǎng)大數(shù)據(jù)是知識(shí)圖譜的重要數(shù)據(jù)來(lái)源朋腋。
? ? ?知識(shí)表示是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。
? ? ?實(shí)體鏈指膜楷、關(guān)系抽取和知識(shí)推理是知識(shí)圖譜構(gòu)建與應(yīng)用的核心技術(shù)旭咽。
? ? ?知識(shí)圖譜與本體(Ontology)和語(yǔ)義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的親可以搜索與之相關(guān)的文獻(xiàn)閱讀赌厅。知識(shí)表示(Knowledge Representation)是人工智能的重要課題穷绵,讀者可以通過(guò)人工智能專著(Russell & Norvig 2009)了解其發(fā)展歷程。在關(guān)系抽取方面特愿,讀者可以閱讀(Nauseates, et al. 2013)仲墨、(Nickel, et al. 2015)詳細(xì)了解相關(guān)技術(shù)。
--畢揍障,此部分為知識(shí)庫(kù)部分讀書(shū)筆記目养。