2015年6月27日,清華大學(xué)FIT樓多功能報(bào)告廳蟀拷,中國中文信息學(xué)會(huì)青年工委系列學(xué)術(shù)活動(dòng)——知識(shí)圖譜研究青年學(xué)者研討會(huì)萍聊。
由于我畢設(shè)是與知識(shí)圖譜问芬、實(shí)體消歧寿桨、實(shí)體對(duì)齊、知識(shí)集成相關(guān)的亭螟,所以去聽了這個(gè)報(bào)告;同時(shí)報(bào)告中采用手寫筆記预烙,所以沒有相應(yīng)的PPT和原圖(遺憾)墨微,很多圖是我自己畫的找的,可能存在遺漏或表述不清的地方扁掸,請(qǐng)海涵~很多算法還在學(xué)習(xí)研究中,最后希望文章對(duì)大家有所幫助吧!感謝那些分享的牛人狸剃,知識(shí)版權(quán)歸他們所有。
目錄:
一.面向知識(shí)圖譜的信息抽取技術(shù)
二.常識(shí)知識(shí)在結(jié)構(gòu)化知識(shí)庫構(gòu)建中的應(yīng)用
三.淺談邏輯規(guī)則在知識(shí)圖譜表示學(xué)習(xí)中的應(yīng)用
四.大規(guī)模知識(shí)圖譜表示學(xué)習(xí)
五.知識(shí)圖譜中推理技術(shù)及工具介紹
六.多語言知識(shí)圖譜中的知識(shí)鏈接
七.知識(shí)圖譜關(guān)鍵技術(shù)和在企業(yè)中的應(yīng)用
PPT免費(fèi)下載地址:http://download.csdn.net/detail/eastmount/9159689
一.面向知識(shí)圖譜的信息抽取技術(shù)——韓先培(中科院)
下圖是我自己根據(jù)講述內(nèi)容筆記繪制的大綱:
傳統(tǒng)知識(shí)抽取主要是抽取是以實(shí)體探颈、關(guān)系和事件為主的結(jié)構(gòu)化信息抽任苯凇光羞;隨著維基百科的出現(xiàn),導(dǎo)致了面向知識(shí)圖譜的信息抽取怀大,主要的變化包括:抽取目標(biāo)發(fā)生了變化纱兑,從ACE文本分析抽取到KBP海量數(shù)據(jù)發(fā)現(xiàn)集成,同時(shí)傳統(tǒng)的抽取是預(yù)指定類型到現(xiàn)在的基于開放域化借、變化數(shù)據(jù)的抽取。
韓先陪老師主要從以下四個(gè)部分分別進(jìn)行了詳細(xì)的講解蓖康。
1.高價(jià)值信息檢測(cè)
以知識(shí)為核心的高價(jià)值信息包括:高價(jià)值結(jié)構(gòu)和高價(jià)值文本铐炫。其中高價(jià)值結(jié)構(gòu)例如Wikipedia的InfoBox(消息盒),Web Table等蒜焊。再如高價(jià)值文本:
姚明身高2.29m
姚明爸爸身高2.08m倒信,姚明比他爸高21cm
顯然第一段文字信息獲取價(jià)值更高,第二段文字還需要分析關(guān)系+身高相加泳梆。
2.知識(shí)鏈接link
對(duì)自然語言文本信息與知識(shí)庫中的條目進(jìn)行鏈接鳖悠,但不同數(shù)據(jù)源會(huì)存在冗余信息或歧義,詞義消歧的例子如下:
例如“蘋果”和“喬布斯”通過命名實(shí)體消歧確定為“蘋果(公司)”鸭丛。實(shí)體鏈接可以利用上下文相似度竞穷、文本主題一致性實(shí)現(xiàn)唐责,主要有兩類方法:
1) 實(shí)體鏈接方法——統(tǒng)計(jì)方法
通過知識(shí)庫和大規(guī)模語料+深度學(xué)習(xí)模型實(shí)現(xiàn)鳞溉。
2) 實(shí)體鏈接方法——圖方法
計(jì)算最大似然鏈接結(jié)果的算法
3.開放抽取
傳統(tǒng)的抽取方法:人工標(biāo)注語料+機(jī)器學(xué)習(xí)算法,但成本高鼠哥、性能低熟菲、需要預(yù)定義。
所以提出了按需抽取朴恳、開放抽取等內(nèi)容抄罕。
1) 按需抽取
算法Bootstrapping,主要步驟包括:模板生成=》實(shí)例抽取=》迭代直至收斂于颖,但會(huì)存在語義漂移線性呆贿。
2) 開放抽取
通過識(shí)別表達(dá)語義關(guān)系的短語來抽取實(shí)體之間的關(guān)系,工具ReVerb森渐。如抽取“華為總部深圳”做入,它的優(yōu)點(diǎn)是無需預(yù)先指定,缺點(diǎn)是語義歸一化同衣。
知識(shí)監(jiān)督開放抽取竟块,基于噪音實(shí)例去除的DS方法。Open IE(知識(shí)抽取)
4.驗(yàn)證集成
知識(shí)集成需要保證其準(zhǔn)確性和可靠性耐齐,同時(shí)知識(shí)圖譜需要增加知識(shí)浪秘、更新知識(shí)蒋情,需要確保其一致性。
數(shù)據(jù)集成Google's Knowledge Vault耸携,數(shù)據(jù)來源包括DOM棵癣、HTML表格、RDFa夺衍、文本等浙巫,方法最大熵模型融合數(shù)據(jù)/分類器。
例如我在做實(shí)體對(duì)齊時(shí)就會(huì)遇到這樣的知識(shí)集成刷后。維基百科中Infobox屬性“總部位于的畴、總部建于、總部設(shè)置于”都是映射統(tǒng)一概念“總部位置”尝胆,這就需要知識(shí)集成丧裁、實(shí)體屬性對(duì)齊,常用的方法包括:聚類相似度含衔、短語相似度等煎娇。
總結(jié):本文講述了從傳統(tǒng)IE(知識(shí)抽取)到面向知識(shí)圖譜IE贪染,文本為核心到知識(shí)獲取為核心缓呛,封閉信息類別到基于開放的知識(shí)抽取,更關(guān)注Retall杭隙、precision等概念和例子哟绊。
二.常識(shí)知識(shí)在結(jié)構(gòu)化知識(shí)庫構(gòu)建中的應(yīng)用——馮巖松
Common Sense Knowledge in Automatic Knowledge Base Population
下圖是我總結(jié)的一張圖,主要包含的一些知識(shí)痰憎,因?yàn)轳T老師講的是英文PPT票髓,很多東西我也不太懂或還在學(xué)習(xí)中,所以只能講述些簡單的知識(shí)铣耘,還請(qǐng)見諒洽沟。
這里使用的三元組是,舉例:維基百科中已經(jīng)存在了“姚明”的InfoBox半結(jié)構(gòu)化數(shù)據(jù)蜗细,同時(shí)對(duì)應(yīng)有詳細(xì)的介紹裆操;現(xiàn)在給你“郭艾倫”一篇的詳細(xì)信息,讓你通過類似的方法進(jìn)行標(biāo)注抽取屬性和值炉媒,并預(yù)測(cè)一個(gè)InfoBox信息框踪区。
但同時(shí)在抽取信息過程中會(huì)存在噪聲,例如一句話包含“安倍”和“日本”橱野,但未必能確定他的國籍朽缴;再如“喬布斯回蘋果了”這句話不能確定他是蘋果的CEO。
知識(shí)不應(yīng)僅是水援,實(shí)際上知識(shí)是相互關(guān)聯(lián)的密强,通過關(guān)聯(lián)才能發(fā)揮它最大效應(yīng)茅郎。
eg1:
Mao was born in China.
Mao was born in US.
eg2:
Mao was born in 1991.
Mao graduated from MIT in 1993.
很顯然,Mao不可能即出生在中國又出生在美國或渤;Mao也不可能只用2年的時(shí)間讀完MIT所有課程系冗。即使是一個(gè)小學(xué)生可能都知道這個(gè)道理。
但是你否定它是用你的常識(shí)薪鹦,而不是技術(shù)掌敬。Knowledge beyond
解決方法是通過A tpye of Common Sense Knowledge(CSK)常識(shí)知識(shí)實(shí)現(xiàn),包括因果解釋池磁、生活規(guī)律奔害、知識(shí)推理等,把常識(shí)約束加入到模型之中去地熄,通過實(shí)體Preference(偏好)华临、Constraint(約束)加入。
舉個(gè)簡單例子:
在知識(shí)問答中“Which is the biggest city in China?”端考,可以通過CSK定義最高級(jí)常識(shí)如longest映射到長度length雅潭,biggest映射城市面積最大。通過定義一些常識(shí)却特,其效果都有相應(yīng)的提升扶供。
三.淺談邏輯規(guī)則在知識(shí)圖譜表示學(xué)習(xí)中的應(yīng)用——王泉
主要講述了邏輯規(guī)則+表示學(xué)習(xí)應(yīng)用到知識(shí)圖譜中,主要內(nèi)容如下:
由于數(shù)據(jù)驅(qū)動(dòng)方法和精度有限(廣泛相關(guān)!=精確匹配)裂明,需要引入邏輯規(guī)則椿浓。其中知識(shí)圖譜表示學(xué)習(xí)主要的三個(gè)步驟如上圖所示,由于涉及到很多數(shù)學(xué)漾岳、算法方面知識(shí)轰绵,我也不是很理解。其中包括:RESCAL基于重構(gòu)誤差的方法尼荆、基于排序損失的方法TransE、流水線式方法(馬爾科夫邏輯網(wǎng)絡(luò)唧垦、0-1整數(shù)線性規(guī)劃)捅儒、聯(lián)合式方法。
舉個(gè)例子:
問圣安東尼奧(NBA馬刺隊(duì))位于美國哪個(gè)州State振亮?
它給出的答案應(yīng)該是排序序列巧还,答案至少都是美國的州,但精確定位唯一答案比較難坊秸。其解決方法就可以加入文中講到的“邏輯規(guī)則+表示學(xué)習(xí)”實(shí)現(xiàn)麸祷。
四.大規(guī)模知識(shí)圖譜表示學(xué)習(xí)——?jiǎng)⒅h(yuǎn)(清華大學(xué)自然語言處理)
一個(gè)著名的公式:機(jī)器學(xué)習(xí)=數(shù)據(jù)表示+學(xué)習(xí)目標(biāo)+優(yōu)化方式
現(xiàn)在面臨的挑戰(zhàn)是缺乏統(tǒng)一的語義表示和分析手段,而表示學(xué)習(xí)的目的就是建立統(tǒng)一的語義表示空間褒搔。
知識(shí)圖譜包括實(shí)體和關(guān)系阶牍,節(jié)點(diǎn)表示實(shí)體喷面,連邊表示關(guān)系,采用三元組來實(shí)現(xiàn)走孽。大規(guī)模知識(shí)獲取從文本數(shù)據(jù)抽取關(guān)系發(fā)展到了從知識(shí)圖譜抽取關(guān)系惧辈,其挑戰(zhàn)是高維。
知識(shí)表示代表模型包括:Neural Tensor Network(NTN)磕瓷、TransE(Translation-based Entity)盒齿。
其中研究趨勢(shì)主要包括以下幾個(gè)方面:
1.知識(shí)表示研究趨勢(shì):一對(duì)多關(guān)系處理
例如:
美國總統(tǒng)是奧巴馬
美國總統(tǒng)是克林頓
美國總統(tǒng)到底是誰?TransE假設(shè)無法較好處理一對(duì)多困食、多對(duì)多的關(guān)系边翁,其趨勢(shì)是不同類型的relation怎么表示學(xué)習(xí)?
2.知識(shí)表示研究趨勢(shì):文本+KG融合TransE+Word2Vec就是文本方法和知識(shí)圖譜方法相融合硕盹,KG對(duì)應(yīng)TransE方法倒彰,文本Text對(duì)應(yīng)Word2Vec模型±痴觯基于CNN的關(guān)系抽取模型待讳,建立對(duì)詞匯、實(shí)體仰剿、關(guān)系的統(tǒng)一表示空間创淡。
3.知識(shí)表示研究確實(shí):關(guān)系路徑表示
知識(shí)圖譜中存在復(fù)雜的推理關(guān)系,關(guān)系路徑算法(實(shí)體預(yù)測(cè)南吮、關(guān)系預(yù)測(cè))琳彩。RNN(Recurslve Neural Network)、PTransE(ADD,3-step)部凑。
中間對(duì)四位老師的提問:
1.中文文本聚類
文本自動(dòng)生成摘要信息露乏,詞與詞之間關(guān)系、句子主干主謂賓提取涂邀、句子壓縮瘟仿、獲取任務(wù)相關(guān)的鮮艷信息。
2.不同語言的知識(shí)圖譜
現(xiàn)趨勢(shì)文本+KG(知識(shí)圖譜)相結(jié)合比勉,而對(duì)不同語言呢?知識(shí)不應(yīng)該有語言的障礙劳较,語言相當(dāng)于只是添加了標(biāo)簽label,關(guān)系是客觀存在的(唯一關(guān)系標(biāo)識(shí))浩聋,如“情侶”观蜗、“戀人”只是表達(dá)不同。
3.淘寶商品種類多衣洁、更新快墓捻,海量數(shù)據(jù)類別大,需要知識(shí)圖譜嗎坊夫?
目前淘寶做得這么好砖第,沒有必要撤卢。KG適合復(fù)雜推理關(guān)系,但產(chǎn)品屬性可以通過知識(shí)圖譜存儲(chǔ)厂画。知識(shí)圖譜是基礎(chǔ)構(gòu)建凸丸,抽取結(jié)構(gòu)化、半結(jié)構(gòu)化信息當(dāng)成知識(shí)袱院,應(yīng)用于NLP屎慢、AI、問答系統(tǒng)忽洛、理解事件等腻惠。
五.知識(shí)圖譜中推理技術(shù)及工具介紹——漆佳林
An Introduction of Reasoning in Knowledge Graph and Reasoning Tools
本體規(guī)則推理,Ontology(本體)起源于哲學(xué)欲虚,表示形式化詞匯定義集灌、抽象概念。數(shù)據(jù)異構(gòu)性包括結(jié)構(gòu)化數(shù)據(jù)复哆、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的集成欣喧。
本體語義三個(gè)標(biāo)準(zhǔn):
1.RDF:Resource Description Frameword
2.RDFs:Classes例如MusicArtist音樂家
3.OWL:Web Ontology Language,W3C標(biāo)準(zhǔn),hierarchy分層
包括Domain和Range
如:“獨(dú)奏音樂家”屬于“音樂藝術(shù)家”屬于“藝術(shù)家”梯找,具有傳遞性唆阿。
推理解決現(xiàn)實(shí)問題例如:
北京路發(fā)生追尾(BeijingRoad?ョoccur Rear-end) 、王軍在北京路...可以推理王軍堵車锈锤。
工具:
Dbpedia知識(shí)庫是基于Wikipedia驯鳖,WebPIE工具-MapReduce(平臺(tái)Platform)-OWL(語言),Marvin-PeertoPeer(平臺(tái))-RDF(語言)久免,SAOR\GEL-基于圖數(shù)據(jù)庫的平臺(tái)-OWLEL(語言)浅辙。
再如推薦流行歌例子:
小明喜歡周杰倫歌手 ? ? ? ? ?小明是年輕人 ? ? ? ? ?難
周杰倫歌手唱流行歌 ? ?=》 ? ?小明是周杰倫粉絲 ? ? ? 正確
周杰倫唱《牛仔很忙》 ? ? ? ? 《牛仔很忙》是流行歌 ? ?正確
六.多語言知識(shí)圖譜中的知識(shí)鏈接——王志春
DBpedia知識(shí)圖譜是Wikipedia(維基百科)的DBpedia extraction framework
維基百科一個(gè)頁面如下所示,包括:Title阎姥、Description记舆、InfoBox、Categories(實(shí)體類別)丁寄、Crosslingual Links(跨語言鏈接)氨淌。
例如“清華大學(xué)”中文、發(fā)文和英文EN的“清華大學(xué)”實(shí)體是指稱項(xiàng)一致的伊磺,通過實(shí)體鏈接實(shí)現(xiàn)不同語言鏈接。
規(guī)范化數(shù)據(jù)集:http://mappings.dbpedia.org/
知識(shí)庫:
BabelNet知識(shí)庫删咱、WordNet屑埋、機(jī)器翻譯工具Google Translation
Freebase and Wikidata,F(xiàn)reebase關(guān)閉了痰滋,變成了Wikidata知識(shí)庫摘能。在Wikidata中傳統(tǒng)的Entity续崖、Relation變成了item,不同語言標(biāo)記不同团搞,EN label严望、CN label、FR label標(biāo)記逻恐。
YAGO3像吻,Wikipedia+WordNet+GeoNames,添加了地理位置信息复隆、時(shí)間信息拨匆、多源版本。
王志春老師們做了個(gè)把維基百科挽拂、百度百科惭每、互動(dòng)百科聯(lián)系在一起的中英文的LORE。我的畢設(shè)是基于三個(gè)百科和多源網(wǎng)站的旅游景點(diǎn)知識(shí)對(duì)齊融合技術(shù)亏栈,感觸頗深台腥。
總體來說,DBpedia绒北、BabelNet黎侈、WikiData、YAGO3都來源于Wikipedia镇饮。通過Cross-lingual Knowledge Linking鏈接發(fā)現(xiàn)中英文蜓竹,主要通過相似性和鏈接關(guān)系實(shí)現(xiàn)。
七.知識(shí)圖譜關(guān)鍵技術(shù)和在企業(yè)中的應(yīng)用——王昊奮
Publishing and Consuming Knowledge Graphs in Vertical Sectors
如何從數(shù)據(jù)中發(fā)現(xiàn)商業(yè)價(jià)值储藐,主要看全面數(shù)據(jù)俱济、可訪問的、可移植(Action)三方面钙勃。知識(shí)圖譜在企業(yè)中的應(yīng)用簡單包括:
IBM的Watson通過分析病人癥狀蛛碌,來實(shí)現(xiàn)自動(dòng)診斷、分析病情辖源、推薦藥物
自動(dòng)診斷Automatic ICD Coding蔚携,通過EMR(電子病歷)建立相應(yīng)的SG(圖譜)
在生物醫(yī)藥方面應(yīng)用Open Phacts
Agriculture農(nóng)業(yè)方面,各種形態(tài)的異構(gòu)數(shù)據(jù)克饶,生物論文Pubmed
Amdocs電信方面CRM(客戶關(guān)系管理)酝蜒,如一位信用好的老客戶該月的電話費(fèi)比平時(shí)增加了30塊,發(fā)現(xiàn)是自己的女兒下載了一個(gè)游戲業(yè)務(wù)矾湃,當(dāng)該客戶打電話過去亡脑,電信公司就已經(jīng)取消了該游戲業(yè)務(wù),這是怎么實(shí)現(xiàn)的呢?它就涉及到了相關(guān)的技術(shù)霉咨。
2012年倫敦奧運(yùn)會(huì)新聞信息蛙紫,很多都是自動(dòng)生成的
Enterprise Knowledge Graph
由于會(huì)議要開到5點(diǎn)半,還有兩個(gè)主題:
Natural Language Question Answering Over Knowledge Graph: A Data-driven Approach
知識(shí)庫問答的問題與挑戰(zhàn)
但我北郵有個(gè)同學(xué)要畢業(yè)了途戒,我就提前離開了參加聚餐去了坑傅。最后希望文章對(duì)你有所幫助吧!因?yàn)椴煌髦v人講述的內(nèi)容不同喷斋,它們之間存在著一定聯(lián)系唁毒,但又不是很密切,同時(shí)自己的深度和理解還不夠继准,所以文章比較渙散枉证,但作為總結(jié)分享出來,你也可以簡單學(xué)習(xí)移必。后面如果我寫畢業(yè)論文相關(guān)的博客室谚,文章相關(guān)度和層次就一目了然了。
(By:Eastmount 2015-6-29 半夜4點(diǎn)半http://blog.csdn.net/eastmount/)