1-知識圖譜概述

  • 知識圖譜與語義技術概述
  • 典型知識庫項目簡介
  • 知識圖譜相關技術簡介
    • 知識表示议纯、知識抽取父款、知識存儲、知識融合
    • 知識推理瞻凤、知識眾包憨攒、語義搜索、知識問答
  • 典型應用案例:醫(yī)藥阀参、電商肝集、企業(yè)、金融结笨、博物館包晰、媒體

知識圖譜與語義技術概述

KG(Knowledge Graph)的概念演化

KG演化.png
  • KG輔助搜索

  • KG輔助問答

  • KG輔助決策

  • KG輔助AI:常識推理

    當一個人聽到或看到一句話的時候,他使用自己所有的知識和背景去理解炕吸。這不僅僅包括語法伐憾,也包括他的詞匯知識,上下文知識赫模,更重要的树肃,是對相關事務的理解——Terry Winograd(自然語言理解系統(tǒng)SHRDLU作者)

KG的本質

Web 視角:像建立文本之間的超鏈接一樣,建立數(shù)據(jù)之間的語義鏈接瀑罗,并支持語義搜索

NLP 視角:怎樣從文本中抽取語義和結構化書數(shù)據(jù)

KR 視角:怎么利用計算機符合表示和處理知識

AI 視角 :怎么利用知識庫來輔助理解人的語言

DB 視角: 用圖的方式去存儲知識

做好KG要兼容并蓄胸嘴,綜合利用好KR、NLP斩祭、Web劣像、ML、DB等多方面的方法和技術

典型知識庫項目

Cyc:最初目的建立人類最大的常識知識庫

Wordnet: 最著名的詞典知識庫摧玫,主要用于詞義消歧

ConceptNet:常識知識庫

Freebase:完全免費并允許商業(yè)化的開發(fā)許可協(xié)議

Wikidata耳奕、DBPedia、YAGO诬像、Babelnet屋群、Nell、微軟 Concept Graph等

OpenKG:中文知識圖譜資源庫

Zhishi.me

cnSchema:開放的中文知識圖譜

知識圖譜技術概覽

知識表示

什么是知識表示:知識表示研究怎么用計算機符號表示人腦中的知識坏挠,以及怎樣通過符號之間的運算來模擬人腦的推理過程芍躏。

基于數(shù)理邏輯的知識表示——> 基于向量空間學習的分布式知識表示

RDF(Resource Description Framework ) : Triple-based Assertion model

RDF Graph:Directed Labeled Graph 基本數(shù)據(jù)模型:有向標記圖

RDFS:simple Vocabulary and Schema

知識表示.png

OWL : Web Ontology Language

OWL extends RDF Schema

SPARQL

RDF的查詢語言:基于RDF數(shù)據(jù)模型

可以對不同的數(shù)據(jù)集撰寫復雜的連接(joins)

由所有主流圖數(shù)據(jù)庫支持

SPARQL Protocl and RDF Query Language

資源描述框架(Resource Description Framework, RDF)是一種描述有關 Web 資源的格式化語句集合的模型。

是一種描述有關 Web 資源的語句集合的模型降狠。這些語句在概念上分為三部分对竣,每條語句包含一個主題(一個 Uniform Resource Identifier (URI))庇楞;一個謂詞(也是一個 URI);還包括一個對象(一個 URI 或字母數(shù)據(jù)值)柏肪。
要了解這類語句的特點姐刁,考慮描述 Web 頁面的 HTML meta 標記。如果將其改為 RDF烦味,
則主題將是 Web 頁面本身的 URI聂使,謂詞將是表示通用描述的標準 URI,而對象將是描述的實際文本谬俄。
通過大量使用 URI柏靶,RDF 試圖最小化這些語句組件標識的模糊性,從而使它們具有足夠的常規(guī)性以方便機器處理溃论。

Web Ontology Language (OWL)是一種 RDF 應用程序屎蜓,通常使用 RDF/XML 編碼,它添加了一種豐富的詞匯表钥勋,可以用來按照格式分類并分析 RDF 資源炬转。
SPARQL Query Language for RDF [開發(fā)階段] 是用于查詢 RDF 數(shù)據(jù)的特殊語法

知識圖譜的分布式表示——KG Eembedding

在保留語義的同時,將知識圖譜中的實體和關系映射到連續(xù)的稠密的低維向量空間

離散的符號表示——> 連續(xù)的向量表示

分布式表示.png

知識抽人憔摹:NLP + KR

4-知識抽取.png

主要方法

  • 知識工程
    • 正則表達式
    • 模板匹配
      • BootStrap:從種子數(shù)據(jù)中識別Patterns扼劈,用于抽取更多數(shù)據(jù),提取更多Patterns
    • 規(guī)則約束
      • POS(Part-Of-Speech 詞性標注)菲驴、NER(Named Entity Recognition 命名實體識別)約束荐吵、距離約束
  • 基于本體的抽取
    • 知識挖掘(推理)
      • PRA 基于圖的抽取
      • TransE系列基于Embedding的抽取
  • 基于模型的抽取
    • 模型
      • SVM, Logistic Model
      • 條件隨機場(CRF)
      • LSTM(Long Short-Term Memory)等循環(huán)神經(jīng)網(wǎng)絡
    • 訓練
      • 有監(jiān)督學習
      • 無監(jiān)督聚類
      • 遠程監(jiān)督(Distant Supervison), 從已有的知識庫獲取少量訓練數(shù)據(jù)

知識存儲

知識比數(shù)據(jù)的結構更加復雜,知識的存儲需要綜合考慮圖的特點、復雜的知識結構存儲赊瞬、索引和查詢 (支持推理)的優(yōu)化等問題

典型的知識存儲引擎分為基于關系數(shù)據(jù)庫的存儲和基于原生圖的存儲

在實踐中,多為混合存儲結構,圖存儲并非必須

知識問答

KBQA(Knowledge-Based Question Answering) 基于知識庫的問題回答

以直接而準確的方式回答用戶自然語言提問的自動問答系統(tǒng)將構成下一代搜索引擎的基本形態(tài)‘

基本實現(xiàn)流程

6-知識問答.png

知識推理

簡單而言先煎,推理是基于已知事實退出未知的事實的計算過程

大部分搜索引擎目前都已經(jīng)支持了一定的推理能力

百度輸入:姚明的女兒的媽媽的老公

5-知識推理.png

知識融合

其它相關叫法:Record Linkage,Entity Resolution,Data Linking,Knowledge Fusion,Entity Alignment......

都是指在不同數(shù)據(jù)集中找出同一個實體的描述記錄,主要目的是對不同數(shù)據(jù)源中的實體信息進行整合,形成更加全面的實體信息

Dedupe, 基于Python的工具包,實現(xiàn)了包括fuzzy matching, deduplication, entity resolution在內的常見任務。主要處理流程是先對所有records通過Clustering/Blocking的方法進行分組,然后在組內部通過計算相似度特征和機器學習分類模型對任一一對records進行預測是否為同一實體巧涧。

適合于兩個數(shù)據(jù)集有相似的結構,如果兩個數(shù)據(jù)集的實體屬性個數(shù)差異很大,不建議采用薯蝎。

Limes: A Time-Efficient Approach forLarge-Scale Link Discovery on theWeb of Data. IJCAI2013

專門針對鏈接數(shù)據(jù)Linked Data設計的鏈接框架,不要求兩個數(shù)據(jù)集的實體具有相似的結構

可靈活配置匹配規(guī)則,自定義距離計 算 模 型 , 也 支 持 基 于 Active Learning的機器學習方法

知識眾包

Wikibase

Schema.ORG

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市谤绳,隨后出現(xiàn)的幾起案子占锯,更是在濱河造成了極大的恐慌,老刑警劉巖闷供,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異统诺,居然都是意外死亡歪脏,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門粮呢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來婿失,“玉大人钞艇,你說我怎么就攤上這事『拦瑁” “怎么了哩照?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長懒浮。 經(jīng)常有香客問我飘弧,道長,這世上最難降的妖魔是什么砚著? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任次伶,我火速辦了婚禮,結果婚禮上稽穆,老公的妹妹穿的比我還像新娘冠王。我一直安慰自己,他們只是感情好舌镶,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布柱彻。 她就那樣靜靜地躺著,像睡著了一般餐胀。 火紅的嫁衣襯著肌膚如雪哟楷。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天骂澄,我揣著相機與錄音吓蘑,去河邊找鬼。 笑死坟冲,一個胖子當著我的面吹牛磨镶,可吹牛的內容都是我干的。 我是一名探鬼主播健提,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼琳猫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了私痹?” 一聲冷哼從身側響起脐嫂,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎紊遵,沒想到半個月后账千,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡暗膜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年匀奏,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片学搜。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡娃善,死狀恐怖论衍,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情聚磺,我是刑警寧澤坯台,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站瘫寝,受9級特大地震影響蜒蕾,放射性物質發(fā)生泄漏。R本人自食惡果不足惜矢沿,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一滥搭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捣鲸,春花似錦瑟匆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至外厂,卻和暖如春冕象,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背汁蝶。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工渐扮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人掖棉。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓墓律,卻偏偏與公主長得像,于是被迫代替她去往敵國和親幔亥。 傳聞我的和親對象是個殘疾皇子耻讽,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內容