知識圖譜與語義技術(shù)概述:
Vannevar Bush
Sir Tim Berners-Lee:以鏈接為中心的系統(tǒng)
語義網(wǎng):從鏈接文本到鏈接數(shù)據(jù)
語義網(wǎng)絡(luò)(Semantic Network)->本體論(Ontology)->Web->The Semantic Web->Link Data->知識圖譜(Knowledge Graph,KG)
KG輔助搜索鹦赎,從文本搜索變?yōu)檎Z義搜索。
手工眾包作儿,格式轉(zhuǎn)化迅箩,元組抽取,實(shí)體融合屋摇,鏈接預(yù)測揩魂,推理補(bǔ)全,語義嵌入炮温。
KG輔助問答火脉,輸入自然語言,返回精確答案。
給萬物都掛接一個(gè)背景知識庫倦挂。
KG輔助決策畸颅。
預(yù)先抽取語義->建立數(shù)據(jù)鏈接,不規(guī)范數(shù)據(jù)表達(dá)->規(guī)范數(shù)據(jù)表達(dá)方援,粗糙數(shù)據(jù)->可計(jì)算數(shù)據(jù)没炒。
Palantir:動態(tài)本體、Kensho:金融知識圖譜犯戏。
KG輔助AI送火,常識推理。
KG的本質(zhì):
Web視角:像建立文本之間的超鏈接一樣先匪,建立數(shù)據(jù)之間的語義鏈接种吸,并支持語義的搜索。
NPL視角:怎樣從文本中抽取語義和結(jié)構(gòu)化數(shù)據(jù)呀非。
深度學(xué)習(xí)->學(xué)習(xí)
知識圖譜->推理
各種知識圖譜項(xiàng)目:
CYC:常識知識庫骨稿。
包括了術(shù)語Terms(詞)、斷言Assertions(句子)
Wordnet:英語詞義消歧姜钳。
ConceptNet:常識知識庫坦冠。
主要依靠互聯(lián)網(wǎng)眾包、專家創(chuàng)建哥桥、游戲三種方法構(gòu)建辙浑。
以三元組(主謂賓)形式的關(guān)系型知識構(gòu)成,更加接近自然語言拟糕。
Freebase:通過開源免費(fèi)吸引用戶判呕。
Wikidata:目標(biāo)是構(gòu)建全世界最大的免費(fèi)知識庫。
DBPedia:數(shù)據(jù)庫版本的Wikipedia送滞。
YAGO:集成了Wikipedia侠草、Wordnet、GeoNames三個(gè)來源的數(shù)據(jù)犁嗅。
考慮了時(shí)間和空間維度的擴(kuò)展边涕。
Babelnet:多語言詞典知識庫。
NELL:互聯(lián)網(wǎng)挖掘方法從Web自動抽取三元組知識褂微。
Concept Graph:以概念層次體系為中心的知識圖譜功蜓。
OpenKG:中文知識圖譜。
Zhishi.me:合成中文數(shù)據(jù)庫宠蚂。
cnSchema:開放的中文知識圖譜Schema式撼。
知識圖譜技術(shù)概覽:
數(shù)據(jù)來源:文本、結(jié)構(gòu)化數(shù)據(jù)庫求厕、多媒體著隆、傳感器扰楼、眾包->KG Data。
基于數(shù)理邏輯的知識表示->基于向量空間學(xué)習(xí)的分布式知識表示美浦。
語義網(wǎng)知識表示框架:
RDF:Triple-based Assertion model
主語弦赖、賓語是節(jié)點(diǎn),謂語是邊抵代。
RDF Graph:Directed Labeled Graph
基本數(shù)據(jù)模型:有向標(biāo)記圖。
RDFS:Simple Vocabulary and Schema(類比數(shù)據(jù)庫表忘嫉、字段的設(shè)計(jì))
OWL:本體(Ontology)是一個(gè)概念和關(guān)系的描述荤牍,是對其形式化的定義。通過規(guī)范描述庆冕。
OWL extends RDF Schema
SPARQL:RDF的查詢語言康吵。類SQL的聲明式的查詢語言。
子圖匹配访递。
JSON-LD:數(shù)據(jù)交換格式晦嵌。適用于作為程序之間做數(shù)據(jù)交換。
RDFa拷姿、HTML5 MicroData:在網(wǎng)頁中嵌入語義數(shù)據(jù)惭载。
KG的分布式表示:
KG Embedding:KG的分布式表示,在保留語義的同時(shí)响巢,將知識圖譜中的實(shí)體和關(guān)系映射到連續(xù)的稠密的低維向量空間描滔。
張量分解、神經(jīng)網(wǎng)絡(luò)踪古、距離模型(翻譯模型)含长。
知識抽取:NLP + KR:
非結(jié)構(gòu)化文本數(shù)據(jù)->文本預(yù)處理->分詞伏穆、詞性標(biāo)注拘泞、語法解析、依存分析->NER命名實(shí)體識別枕扫、Entity Linking實(shí)體鏈接->關(guān)系抽取陪腌、事件抽取->KR:三元組、多元關(guān)系烟瞧、模態(tài)知識
基于知識工程(正則偷厦、模板匹配、規(guī)則約束)
基于本體抽取(知識挖掘燕刻,PRA)
基于模型的抽取(模型只泼、訓(xùn)練)
知識存儲:
基于干系數(shù)據(jù)庫的存儲、基于原生圖的存儲卵洗。
知識問答:
KBQA基于知識庫的問題回答请唱。
語義解析->語義表示->查詢數(shù)據(jù)庫->返回用戶
知識推理:
基于已知事實(shí)推出未知事實(shí)的計(jì)算過程弥咪。
缺省推理、連續(xù)變化推理十绑、空間推理聚至、因果關(guān)系推理。
基于描述邏輯的推理-本體推理:
描述邏輯是一種用于知識表示的邏輯語言和以其為對象的推理方法本橙。
知識融合:
在不同數(shù)據(jù)集中找出同一個(gè)實(shí)體扳躬。
Dedupe基于python的工具包。
LIMES不要求兩個(gè)數(shù)據(jù)集的實(shí)體具有相似的結(jié)構(gòu)甚亭。
知識眾包:
Wikibase贷币、Schema.ORG
典型案例簡介:
Open PHACTS:藥物研發(fā)的開放數(shù)據(jù)訪問平臺。
SAP:企業(yè)知識圖譜應(yīng)用亏狰。
BBC ONTOLOGIES:更好的搜索體驗(yàn)役纹。