中科大腦知識(shí)圖譜平臺(tái)建設(shè)及業(yè)務(wù)實(shí)踐

本文首發(fā)于 Nebula Graph Community 公眾號(hào)

中科大腦知識(shí)圖譜平臺(tái)建設(shè)及業(yè)務(wù)實(shí)踐

“為了支持城市復(fù)雜場景下各類需求,中科大腦知識(shí)圖譜團(tuán)隊(duì)設(shè)計(jì)開發(fā)了一套包含本體可視化設(shè)計(jì)、數(shù)據(jù)映射培遵、數(shù)據(jù)抽取狈谊、數(shù)據(jù)寫入、圖數(shù)據(jù)探索的一體化平臺(tái)卢厂,而本文則詳細(xì)介紹了他們的業(yè)務(wù)背景乾蓬、技術(shù)選型、平臺(tái)建設(shè)等內(nèi)容慎恒∪文冢”

01 背景介紹

中科大腦作為一家城市級(jí)的數(shù)字資產(chǎn)運(yùn)營商,一方面要對各種類型的數(shù)據(jù)進(jìn)行高效存儲(chǔ)融柬,另一方面面臨如何將各類數(shù)據(jù)充分利用的問題死嗦,傳統(tǒng) NoSQL、SQL 不能完全滿足數(shù)據(jù)的存儲(chǔ)和利用粒氧,以圖數(shù)據(jù)庫為基礎(chǔ)的知識(shí)圖譜一定程度上可以解決這些問題越除,知識(shí)圖譜組件(KBU)是腦庫城市大腦產(chǎn)品的核心部件。

背景介紹

中科大腦內(nèi)部對知識(shí)圖譜的需求外盯,總體來說有以下 3 方面:

  1. 政務(wù)知識(shí)圖譜摘盆,將政策法規(guī)、證件材料饱苟、事項(xiàng)流程孩擂、組織架構(gòu)等信息納入知識(shí)圖譜。目前建設(shè)了面向公安戶政箱熬、電子政務(wù)領(lǐng)域事項(xiàng)辦理知識(shí)圖譜类垦,針對不同的職能部門建設(shè)有不同的知識(shí)圖譜囤锉,提升了服務(wù)效率和質(zhì)量。
  2. 資產(chǎn)設(shè)備管理圖譜护锤,對城市中大量公共設(shè)施官地、不動(dòng)產(chǎn)、物聯(lián)網(wǎng)設(shè)備等建立知識(shí)圖譜烙懦,形成聯(lián)動(dòng)管理與運(yùn)維驱入。
  3. 事理知識(shí)圖譜,對城市重大事件氯析、突發(fā)事件亏较、集中投訴事件等建立事理圖譜,包括事件的時(shí)間掩缓、地點(diǎn)雪情、主體及熱度等,發(fā)現(xiàn)事件間的關(guān)聯(lián)關(guān)系和演化規(guī)律你辣,提供決策支持巡通。
    實(shí)踐中,不同板塊的知識(shí)圖譜間并非完全孤立舍哄,而是根據(jù)應(yīng)用需求進(jìn)行融合宴凉,充分發(fā)揮圖譜的關(guān)系鏈接特性,將城市本體要素打通表悬,實(shí)現(xiàn)聯(lián)動(dòng)弥锄,解決數(shù)據(jù)的關(guān)聯(lián)存儲(chǔ)和挖掘。

02 圖數(shù)據(jù)庫選型

在數(shù)據(jù)高度結(jié)構(gòu)化蟆沫、一致性強(qiáng)場景下籽暇,一般選擇使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫;在數(shù)據(jù)具有龐大潛在關(guān)聯(lián)場景下饭庞,圖數(shù)據(jù)存儲(chǔ)及基于此的知識(shí)圖譜技術(shù)將會(huì)是合理的選擇戒悠。
調(diào)研中發(fā)現(xiàn),與關(guān)系數(shù)據(jù)庫或其他 NoSQL 數(shù)據(jù)庫相比但绕,圖數(shù)據(jù)庫的數(shù)據(jù)模型也更加簡單救崔,更具表現(xiàn)力。圖數(shù)據(jù)庫在社交網(wǎng)絡(luò)捏顺、金融風(fēng)控六孵、個(gè)性化推薦、網(wǎng)絡(luò)安全等領(lǐng)域應(yīng)用廣泛幅骄。
我們在圖數(shù)據(jù)庫選型方面主要考慮點(diǎn):
1)功能齊全劫窒、性能強(qiáng)大;2)項(xiàng)目開源拆座,支持靈活的二次開發(fā)主巍;3)安全可靠冠息,國產(chǎn)優(yōu)先;

中科大腦早起進(jìn)行了一些性能和功能對比孕索,也參考美團(tuán)逛艰、騰訊相關(guān)測評(píng),從測試結(jié)果看 Nebula Graph 在數(shù)據(jù)導(dǎo)入搞旭、實(shí)時(shí)寫入及多跳查詢方面性能均優(yōu)于競品散怖。此外,Nebula Graph 社區(qū)活躍肄渗,對相關(guān) issue 的響應(yīng)速度快镇眷,所以團(tuán)隊(duì)最終選擇了基于 Nebula Graph 作為圖數(shù)據(jù)庫平臺(tái)基礎(chǔ)。

圖數(shù)據(jù)庫選型

03 知識(shí)圖譜構(gòu)建平臺(tái)

知識(shí)圖譜構(gòu)建包括業(yè)務(wù)規(guī)則制定翎嫡、本體構(gòu)建欠动、知識(shí)抽取、知識(shí)融合惑申、數(shù)據(jù)存儲(chǔ)等流程具伍,往往需要業(yè)務(wù)專家、工程硝桩、算法沿猜、項(xiàng)目管理等人員參與配合枚荣。有機(jī)整合以上環(huán)節(jié)和分工碗脊,將大大減少知識(shí)圖譜落地速度,目前尚未有開源產(chǎn)品滿足此需求橄妆。為了支持城市復(fù)雜場景下各類需求衙伶,我們設(shè)計(jì)開發(fā)了一套包含本體可視化設(shè)計(jì)、數(shù)據(jù)映射害碾、數(shù)據(jù)抽仁妇ⅰ(結(jié)構(gòu)化、非結(jié)構(gòu)化)慌随、數(shù)據(jù)寫入芬沉、圖數(shù)據(jù)探索的一體化平臺(tái),平臺(tái)結(jié)構(gòu)如圖阁猜。

知識(shí)圖譜構(gòu)建平臺(tái)
  • 項(xiàng)目管理

知識(shí)圖譜平臺(tái)將不同領(lǐng)域知識(shí)圖譜作為項(xiàng)目單元丸逸,每個(gè)項(xiàng)目獨(dú)立進(jìn)行知識(shí)全流程構(gòu)建與管理。項(xiàng)目中包括本體設(shè)計(jì)剃袍、數(shù)據(jù)映射黄刚、數(shù)據(jù)抽取,按照流程一步步進(jìn)行(step-by-step)民效,不同的階段做到“術(shù)”憔维、“業(yè)”專攻涛救。平臺(tái)實(shí)現(xiàn)了企業(yè)內(nèi)部知識(shí)圖譜構(gòu)建的標(biāo)準(zhǔn)化和部門協(xié)作,減少了不同階段人員間的溝通成本业扒、數(shù)據(jù)安全性問題检吆,大大提高了效率。

項(xiàng)目管理
  • 本體設(shè)計(jì)

知識(shí)圖譜的建設(shè)不完全是技術(shù)工作程储,在本體設(shè)計(jì)階段咧栗,業(yè)務(wù)工作可能占據(jù)一半以上工作。業(yè)務(wù)專家往往又不了解知識(shí) schema 設(shè)計(jì)虱肄,通常的流程是業(yè)務(wù)專家以非標(biāo)準(zhǔn)方式標(biāo)記知識(shí)致板,帶來了較多的返工,不同專家之間和專家與技術(shù)之間存在協(xié)作問題咏窿。針對這些痛點(diǎn)斟或,構(gòu)建平臺(tái)借鑒開源項(xiàng)目實(shí)現(xiàn)本體的在線設(shè)計(jì),支持多種格式(OWL集嵌、RDF萝挤、RDFS)的文件導(dǎo)入、導(dǎo)出根欧,兼容性較好怜珍,經(jīng)測試OpenKG中90%以上資源可直接接入》锎郑可視化的構(gòu)建方式真正實(shí)現(xiàn)了以圖構(gòu)圖酥泛。

本體設(shè)計(jì)
  • 數(shù)據(jù)抽取

本體構(gòu)建完成,對結(jié)構(gòu)化數(shù)據(jù)嫌拣,支持對 EXCEL柔袁、CSV 等關(guān)系型數(shù)據(jù)與本體建立映射,完成圖數(shù)據(jù)的寫入异逐。對非結(jié)構(gòu)化數(shù)據(jù)的圖譜抽取捶索,平臺(tái)內(nèi)置了模型服務(wù)進(jìn)行三元組抽取。內(nèi)置模型分為兩種灰瞻,第一種是基于開源數(shù)據(jù)集腥例,如百度 DuIE 2.0,滿足通用數(shù)據(jù)抽取酝润,另一種從自身業(yè)務(wù)出發(fā)燎竖,設(shè)計(jì)模型。我們設(shè)計(jì)了針對市民熱線的事件及關(guān)鍵信息抽取模型袍祖,從圖譜角度挖掘市民熱線不同信件間的關(guān)聯(lián)關(guān)系底瓣,對事件抽取設(shè)計(jì)了聯(lián)合抽取模型,聯(lián)合抽取模型較管線式模型(pipeline)在時(shí)效和準(zhǔn)確率上有較大提升。

數(shù)據(jù)抽取
  • 圖探索

結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入和非結(jié)構(gòu)數(shù)據(jù)化抽取結(jié)果將被寫入到 Nebula Graph 數(shù)據(jù)庫捐凭,圖探索可以方便地實(shí)現(xiàn)對寫入知識(shí)的查詢顯示拨扶,同時(shí)可以通過知識(shí)搜索框直接對點(diǎn)和邊信息進(jìn)行搜索。構(gòu)建者更加簡單地實(shí)現(xiàn)了知識(shí)檢索茁肠、探索和聚合患民。產(chǎn)品功能要點(diǎn):

  1. 知識(shí)展現(xiàn),為了能對圖譜有直觀查閱垦梆,在圖譜探索階段匹颤,加入了自動(dòng)展示子圖功能,類似 Neo4j中 MATCH (n) RETURN n LIMIT 25)托猩,主要是通過簡單算法發(fā)現(xiàn)圖譜中心點(diǎn)印蓖,再由度數(shù)來控制從中心點(diǎn)出發(fā)的子圖大小,同時(shí)防止了展示爆炸京腥。
  2. 知識(shí)搜索赦肃,支持點(diǎn)和邊進(jìn)行模糊匹配,更好地實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)和推薦公浪;
  3. 知識(shí)計(jì)算他宛,內(nèi)置輕量級(jí)圖算法,可以對節(jié)點(diǎn)出入度欠气、中心度厅各、族群、相似節(jié)點(diǎn)類等進(jìn)行計(jì)算预柒。
圖探索

為了滿足自身產(chǎn)品應(yīng)用队塘,我們基于 Nebula Graph、Elasticsearch卫旱、NetworkX 等底層接口人灼,開發(fā)了一系列 API 應(yīng)用接口,未來我們 API 接口實(shí)現(xiàn)也將積極參與到開源中顾翼。

04 業(yè)務(wù)落地

  • 智能問答

圍繞公安戶政知識(shí)建立了領(lǐng)域知識(shí)圖譜,設(shè)計(jì)知識(shí)圖譜問答(KBQA)系統(tǒng) 奈泪,支持多實(shí)體多跳(Multi-hop)匹配和推理适贸。基于腦庫知識(shí)圖譜組件和腦庫時(shí)空構(gòu)建組件將空間和非空間數(shù)據(jù)結(jié)合涝桅,實(shí)現(xiàn)空間推理拜姿,市民可能會(huì)咨詢,“可以辦理出國簽證的機(jī)構(gòu)都在哪兒冯遂?”通過知識(shí)圖譜語義問答和 GIS 的結(jié)合蕊肥,將位置和相應(yīng)的屬性精準(zhǔn)返回,實(shí)現(xiàn)知識(shí)和地圖的可訪問及互操作,為城市服務(wù)提供便捷壁却。

智能問答
  • 知識(shí)指導(dǎo)與決策

城市知識(shí)圖譜覆蓋設(shè)備(Device)批狱、承載物(Thing)、管理(Manage)展东、事件(Event)赔硫、領(lǐng)域(Field)和規(guī)則(Rule)等概念,基本構(gòu)成了城市各領(lǐng)域知識(shí)底座盐肃,用于處理城市服務(wù)和城市治理問題爪膊。例如當(dāng)發(fā)生占用消防車道事件,消防通道傳感器(Device)的功能(Function)記錄相關(guān)信息砸王,服務(wù)(Service)將記錄占用者信息并給予報(bào)警推盛,將占用車車牌等信息反饋給案件管理者,管理者再根據(jù)地址區(qū)域(Area)谦铃、規(guī)章(Rule)等信息對違章停車事件快速干預(yù)處理小槐。相關(guān)構(gòu)建和應(yīng)用研究方法被CCKS2021收錄

知識(shí)指導(dǎo)與決策
  • 知識(shí)流程推薦

在城市大腦個(gè)性化推薦中荷辕,以‘我’為中心整合服務(wù)資源并進(jìn)行個(gè)性化定制凿跳,通過知識(shí)圖譜分析用戶行為習(xí)慣和環(huán)境信息,使用圖嵌入疮方、圖路徑分析控嗜、社區(qū)發(fā)現(xiàn)算法等方法,智能推送用戶關(guān)注度高骡显、關(guān)聯(lián)性強(qiáng)的信息疆栏,主動(dòng)提供服務(wù)。
對于市民惫谤,在案件辦理時(shí)壁顶,自動(dòng)收到個(gè)性化推薦,如相似案例辦理經(jīng)驗(yàn)溜歪、可選路徑若专、辦件足跡及相關(guān)資訊等;對于城市治理者蝴猪,在案件派發(fā)和相似案件推薦中调衰,采用常識(shí)圖譜和專業(yè)領(lǐng)域知識(shí)圖譜相結(jié)合對歷史信息和案件行為分析。利用知識(shí)融合自阱、子圖空間嚎莉、知識(shí)推理等方法,對于案件的派發(fā)和推薦提供更精確的分析和分類沛豌,并推理出相應(yīng)的派發(fā)法方案和相似關(guān)系趋箩,提高了城市大腦的智慧服務(wù)水平和效率。

知識(shí)流程推薦

05 合作 & 未來

目前公司腦庫與圖數(shù)據(jù)庫 Nebula Graph 完成了互操作性測試認(rèn)證,技術(shù)人員積極參與開源社區(qū)項(xiàng)目叫确,通過了知識(shí)圖譜專家級(jí)認(rèn)證(NGCP)跳芳。未來我們持續(xù)支持國產(chǎn)數(shù)據(jù)庫,為社區(qū)積極貢獻(xiàn)代碼启妹。

平臺(tái)方面在構(gòu)建階段筛严,將內(nèi)置圖嵌入、圖學(xué)習(xí)饶米、GNN 等圖算法桨啃、優(yōu)化大規(guī)模圖算法性能,實(shí)現(xiàn)構(gòu)建與應(yīng)用一體化平臺(tái)檬输,為數(shù)字資產(chǎn)的深層次挖掘和智能化應(yīng)用賦能照瘾。

以上為中科大腦知識(shí)圖譜開發(fā)小組帶來的知識(shí)圖譜平臺(tái)建設(shè)和業(yè)務(wù)實(shí)踐方面的分享。


交流圖數(shù)據(jù)庫技術(shù)丧慈?加入 Nebula 交流群請先填寫下你的 Nebula 名片析命,Nebula 小助手會(huì)拉你進(jìn)群~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市逃默,隨后出現(xiàn)的幾起案子鹃愤,更是在濱河造成了極大的恐慌,老刑警劉巖完域,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件软吐,死亡現(xiàn)場離奇詭異,居然都是意外死亡吟税,警方通過查閱死者的電腦和手機(jī)凹耙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肠仪,“玉大人肖抱,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵击困,是天一觀的道長。 經(jīng)常有香客問我欲险,道長,這世上最難降的妖魔是什么匹涮? 我笑而不...
    開封第一講書人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮槐壳,結(jié)果婚禮上然低,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好雳攘,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開白布带兜。 她就那樣靜靜地躺著,像睡著了一般吨灭。 火紅的嫁衣襯著肌膚如雪刚照。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,785評(píng)論 1 314
  • 那天喧兄,我揣著相機(jī)與錄音无畔,去河邊找鬼。 笑死吠冤,一個(gè)胖子當(dāng)著我的面吹牛浑彰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播拯辙,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼郭变,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了涯保?” 一聲冷哼從身側(cè)響起诉濒,我...
    開封第一講書人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎夕春,沒想到半個(gè)月后未荒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡撇他,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年茄猫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片困肩。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡划纽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出锌畸,到底是詐尸還是另有隱情勇劣,我是刑警寧澤,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布潭枣,位于F島的核電站比默,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏盆犁。R本人自食惡果不足惜命咐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谐岁。 院中可真熱鬧醋奠,春花似錦榛臼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至塞祈,卻和暖如春金刁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背议薪。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來泰國打工尤蛮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人笙蒙。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓抵屿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親捅位。 傳聞我的和親對象是個(gè)殘疾皇子轧葛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容