知識(shí)圖譜專家王昊奮:開源知識(shí)圖譜如何保持實(shí)用性

1 月 10 日昂勉,2021 開源數(shù)據(jù)運(yùn)動(dòng)線上研討會(huì)成功舉辦转绷。EpiK借助區(qū)塊鏈去中心化的協(xié)作模式搭建共建共享共益的開放知識(shí)庫,推動(dòng)知識(shí)圖譜的開放與互聯(lián)硼啤。此次大會(huì)议经,EpiK邀請(qǐng)清華大學(xué)信息技術(shù)研究院副院長(zhǎng)邢春曉、中國計(jì)算機(jī)學(xué)會(huì)知識(shí)圖譜 SIG 主席谴返、著名知識(shí)圖譜專家王昊奮煞肾、著名數(shù)據(jù)及知識(shí)圖譜公司創(chuàng)始人及項(xiàng)目負(fù)責(zé)人王會(huì)珍等重量級(jí)嘉賓參與。眾位專家學(xué)者紛紛就知識(shí)圖譜開放與互聯(lián)發(fā)表精彩演講嗓袱。

今天為大家分享中國計(jì)算機(jī)學(xué)會(huì)知識(shí)圖譜 SIG 主席籍救、著名知識(shí)圖譜專家王昊奮的主題演講《開源知識(shí)圖譜如何保持實(shí)用性》,王老師指出渠抹,在區(qū)塊鏈+知識(shí)圖譜方面蝙昙,Epik銘識(shí)協(xié)議有很深的研究,現(xiàn)在也在推出自己更強(qiáng)大的平臺(tái)梧却。全文如下:

非常高興受到Epik銘識(shí)協(xié)議的邀請(qǐng)奇颠,給大家分享一些OpenKG在構(gòu)建知識(shí)圖譜過程中的一些思考和現(xiàn)在獲得的成果。


關(guān)于知識(shí)圖譜

?

知識(shí)圖譜是用來刻畫事物之間的關(guān)系放航,沉淀我們的領(lǐng)域知識(shí)烈拒。我們經(jīng)常會(huì)提到知識(shí)的獲取,特別來自于非結(jié)構(gòu)化、結(jié)構(gòu)化荆几、多媒體吓妆,現(xiàn)在的物聯(lián)網(wǎng)數(shù)據(jù),甚至包括一些眾包的數(shù)據(jù)進(jìn)行一定的關(guān)聯(lián)和提煉吨铸,形成我們稱之為經(jīng)驗(yàn)規(guī)范的數(shù)據(jù)行拢,這其實(shí)就是知識(shí)。

知識(shí)圖譜還有一個(gè)關(guān)鍵詞诞吱,叫做圖譜剂陡,圖譜其實(shí)就是對(duì)于所抽取到的數(shù)據(jù)進(jìn)行深度關(guān)聯(lián),現(xiàn)在有一塊專門體系關(guān)注原來傳統(tǒng)的符號(hào)主義和現(xiàn)在的神經(jīng)連接主義狐胎,特別是深度學(xué)習(xí)為主的聯(lián)系鸭栖。因此,當(dāng)前大家會(huì)看到我們現(xiàn)在對(duì)于知識(shí)的定義握巢,就不再是原來傳統(tǒng)的推理晕鹊,而是稱之為知識(shí)引擎,這個(gè)時(shí)候我們就可以賦能下游任務(wù)暴浦,包括語義的搜索溅话,智能的問答,語言理解歌焦,媒體理解飞几,推理引擎和我們各種各樣的決策引擎,因此独撇,知識(shí)圖譜現(xiàn)在越來越多的受到國家屑墨、企業(yè)、行業(yè)以及科研機(jī)構(gòu)關(guān)注纷铣。

當(dāng)然不得不提到卵史,清華人工智能研究院的張波院士發(fā)文提出了第三代人工智能,第三代人工智能就是從原來最早期的僅以符號(hào)為主的專業(yè)系統(tǒng)和僅以數(shù)據(jù)為主的現(xiàn)代深度學(xué)習(xí)兩者的結(jié)合搜立,去做到數(shù)據(jù)和知識(shí)的雙輪驅(qū)動(dòng)以躯,為下游各種任務(wù)進(jìn)行賦能。

知識(shí)圖譜從上世紀(jì)的一個(gè)專家系統(tǒng)開始啄踊,引入了很多哲學(xué)本體的概念忧设;伴隨著Web的成長(zhǎng),從Web到語義網(wǎng)颠通,并得到了圖靈獎(jiǎng)獲得者Web之父TimBerners-Lee的大力支持址晕。2006年,知識(shí)圖譜的原型出現(xiàn)—Linkeddata蒜哀,強(qiáng)調(diào)數(shù)據(jù)的開放斩箫、數(shù)據(jù)的鏈接和數(shù)據(jù)的語義化;2012年撵儿,谷歌在2010年把mataweb收購了以后乘客,將最大的知識(shí)圖譜合并到了谷歌知識(shí)圖譜的核心,用知識(shí)圖譜來賦能搜索引擎淀歇,從而讓知識(shí)圖譜進(jìn)入大眾視線易核。

知識(shí)圖譜其實(shí)是跟一個(gè)跨學(xué)科多學(xué)科以及非常復(fù)雜的工程,它聚合了web領(lǐng)域浪默,知識(shí)表示和推理領(lǐng)域牡直、AI領(lǐng)域、自然語言處理領(lǐng)域纳决、數(shù)據(jù)庫領(lǐng)域碰逸、多媒體領(lǐng)域等等,是各領(lǐng)域各學(xué)科的結(jié)合阔加。當(dāng)前各大機(jī)構(gòu)都在在構(gòu)建知識(shí)圖譜饵史,這對(duì)組織與應(yīng)用知識(shí)圖譜給到了相當(dāng)多的幫助。


關(guān)于OpenKG

OpenKG社區(qū)目的是為了去推進(jìn)知識(shí)圖譜本身各方面的發(fā)展胜榔,從標(biāo)準(zhǔn)的制定胳喷,到數(shù)據(jù)集的開放,再到工具鏈的開源開放夭织,再到模型的開放吭露。在這過程,我們就一直在思考到底我們能做些什么尊惰。

萬維網(wǎng)是open的讲竿,語義萬維網(wǎng)也是Open的,知識(shí)圖譜迎來了OpenData弄屡,但在開放過程中和想象有出入戴卜,這主要是因?yàn)閿?shù)據(jù)涉及到隱私保護(hù)的問題。但知識(shí)本來作為是一個(gè)數(shù)據(jù)上的高度的統(tǒng)一和抽象琢岩,代表一類人共識(shí)投剥,因此,知識(shí)的開源和開放担孔,其實(shí)相比數(shù)據(jù)開源開放來的會(huì)少很多問題江锨。

接下來說開源工具,深度學(xué)習(xí)包括自然語言處理糕篇,包括知識(shí)表示啄育,以及數(shù)據(jù)庫,他們就構(gòu)成了我們的開源工具集拌消。深度學(xué)習(xí)被狹義地認(rèn)為是人工智能挑豌,為什么它發(fā)展如此迅猛?這主要來源于開源工具,包括國內(nèi)的百度深度學(xué)習(xí)的開源框架氓英,以及開源的代碼和開源的模型侯勉、開放的數(shù)據(jù)集,促成了這樣的生態(tài)繁榮铝阐,所以說知識(shí)圖譜要做到這樣一件事址貌,也必須這樣。

最后徘键,我也將會(huì)提及一些BlockChain方面的內(nèi)容练对,進(jìn)行簡(jiǎn)單的知識(shí)分享。

知識(shí)圖譜的開放基因是多學(xué)科和多領(lǐng)域結(jié)合的結(jié)果吹害。歷史上曾出現(xiàn)過很多語義網(wǎng)的開放項(xiàng)目螟凭,包括2006年的Linkeddata,國際上知名的schemaorg它呀,大家共同去提出的一些上層的知識(shí)表示的一個(gè)規(guī)范赂摆。其中,VPdata是現(xiàn)在最大的知識(shí)眾包或者國際上的眾包钟些,或者知識(shí)庫的知識(shí)圖譜的一個(gè)開源平臺(tái)烟号,當(dāng)然也包括OpenKG,當(dāng)前OpenKG的口號(hào)就是鏈上的開放知識(shí)圖譜政恍。

OpenKG主要的特點(diǎn)是以中文核心為基礎(chǔ)的一個(gè)開放知識(shí)圖譜汪拥,依托中國中文信息學(xué)會(huì)作為上級(jí)指導(dǎo)單位,涵蓋了清華大學(xué)篙耗、浙江大學(xué)迫筑、東南大學(xué)等高校以及其他產(chǎn)業(yè)界如小米,微軟宗弯,華為等等各方面的同事脯燃,共同支持推動(dòng)這一平臺(tái)的發(fā)展。

OpenKG平臺(tái)數(shù)據(jù)集蒙保、工具辕棚、算法均是開放的,而成員也大多是企業(yè)或高校成員邓厕,這些成員會(huì)發(fā)布各類文章逝嚎,包括學(xué)術(shù)前沿、產(chǎn)業(yè)落地详恼,每年都會(huì)出白皮書來指導(dǎo)工作补君。

今年新冠期間,我們做了一個(gè)新冠的專題昧互,主要詳細(xì)介紹一下新冠的病毒開放知識(shí)圖譜挽铁。這里面包含了百科伟桅、科研、藥物叽掘、防控楣铁、臨床、流行病學(xué)等15個(gè)內(nèi)容够掠,我們是由10余家單位共同構(gòu)建民褂,包含很多科研的內(nèi)容茄菊,如所屬的類別疯潭,相似病毒等等,其中有藥理學(xué)或者宿主以及傳播路徑面殖,還有很多的防范和臨床的指導(dǎo)竖哩。

除此之外,通用開放知識(shí)圖譜也是非常重要的脊僚,包括復(fù)旦大學(xué)的知識(shí)工廠提供了CMBDP相叁,北大提供的PTUbase,東南大學(xué)和我這邊一起提供的知識(shí).me辽幌,清華大學(xué)提供的是SDI的KG等等增淹。

除了數(shù)據(jù)集還會(huì)有很多的工作,比如知識(shí)的關(guān)系抽取乌企,數(shù)據(jù)庫虑润、知識(shí)表示等等,還有包括知識(shí)查詢和推理加酵,這些都可以在OpenKG上找到的比較重要的工具拳喻。

前面講到了國際上有一個(gè)叫做cnSchemaOpenKG,它是由谷歌和微軟以及雅虎猪腕、俄羅斯最大的搜索引擎定義的上層的Schema冗澈,但并不符合我們的實(shí)際,OpenKG也做了一個(gè)cnSchema陋葡,是以Schema.org作為藍(lán)本亚亲,對(duì)其中的內(nèi)容進(jìn)行一些梳理,擴(kuò)充了很多符合自身特色的數(shù)據(jù)源腐缤,其中提到了一個(gè)頂層的Schema和指導(dǎo)關(guān)聯(lián)的內(nèi)容朵栖。

另一個(gè)需要重點(diǎn)提及的是Openbase,這是OpenKG下面的一個(gè)知識(shí)圖譜眾包平臺(tái)柴梆,Openbase的目的就是使得大家可以上傳一些數(shù)據(jù)源陨溅,提供高質(zhì)量的知識(shí)圖譜。以新冠為例绍在,在平臺(tái)上门扇,除了游客之外雹有,還有審核員、校對(duì)員和管理員等角色臼寄。知識(shí)圖譜是由點(diǎn)和邊組成霸奕,審核任務(wù)包括實(shí)體審核和關(guān)系審核,當(dāng)然用戶也可以申請(qǐng)成為數(shù)據(jù)的審核組成員吉拳,但這需要完成一定的任務(wù)质帅,就像B站上要成為一個(gè)up主一樣,需要通過一定的測(cè)試來證明申請(qǐng)人自身的專業(yè)性以后留攒,才可以成為這方面的審核員煤惩。

在平臺(tái)角色中,游客主要是起到了下載和瀏覽的作用炼邀,審核者是數(shù)據(jù)標(biāo)注和圖譜的數(shù)據(jù)審核魄揉,驗(yàn)收者是對(duì)于審核者提交的內(nèi)容確定最終的質(zhì)量,作出接收或者是退回的操作拭宁,他是一個(gè)最終的把關(guān)和守門員的作用洛退。

同時(shí),為了方便大家碎片化的時(shí)間去做很多的眾包任務(wù)杰标,也進(jìn)行了一些交互的設(shè)計(jì)兵怯,比如通過小程序可以讓大家做很多的判斷題和一些相應(yīng)的選擇題,在過程中腔剂,用戶也可以查看相應(yīng)的一些信息來得到額外信息幫助他們做判斷媒区。

接下來說一下,OpenKG在區(qū)塊鏈上的嘗試桶蝎,為什么會(huì)考慮到與區(qū)塊鏈的結(jié)合呢驻仅?

知識(shí)互聯(lián)的語義部分強(qiáng)調(diào)的是數(shù)據(jù)的規(guī)范化描述和強(qiáng)關(guān)聯(lián),這也是知識(shí)圖譜本身最最狹義的一個(gè)概念登渣,但是有了互聯(lián)和鏈接的硬需求以后噪服,但是還會(huì)存在很多的問題,主要在于我們會(huì)面臨和所有權(quán)的一個(gè)定界胜茧,同時(shí)我們也會(huì)存在很多新粒度的價(jià)值計(jì)算和可信的溯源機(jī)制粘优,所以我們就需要進(jìn)一步的落實(shí)一些去中心化的架構(gòu),來保證每個(gè)人都可以維護(hù)自己的知識(shí)庫呻顽,并且通過知識(shí)的一些可信共識(shí)雹顺,來確定知識(shí)的可信度,因此需要做很多的溯源廊遍。同時(shí)在這個(gè)過程中嬉愧,因?yàn)橛泻芏嗳藚⑴c到了知識(shí)的加工或者做知識(shí)的挖掘工作,這就需要去做本身價(jià)值的計(jì)算喉前。OpenKG在2019年早期没酣,開始嘗試做確權(quán)王财、溯源以及價(jià)值激勵(lì)的思考。

知識(shí)圖譜的技術(shù)是強(qiáng)調(diào)將分散碎片化的數(shù)據(jù)進(jìn)行互聯(lián)和鏈接融合裕便,同時(shí)還需要強(qiáng)調(diào)多部門的協(xié)同绒净,以及明確部門之間的責(zé)權(quán)利。知識(shí)的生產(chǎn)者需要去確權(quán)和追溯責(zé)任偿衰,同時(shí)也需要去評(píng)估可信度挂疆。在消費(fèi)者角度來說,通過搜索下翎,通過推理和分析缤言,通過問答進(jìn)行各種各樣的點(diǎn)亮,在各種點(diǎn)亮的過程漏设,就可以對(duì)價(jià)值進(jìn)行更多的量化墨闲,形成很多的激勵(lì)今妄。這其中還包含了區(qū)塊鏈的核心技術(shù)郑口,包括共識(shí)算法,分布式帳本以及價(jià)值的傳播和計(jì)算等等盾鳞。

OpenKG上鏈犬性,這里面分為幾塊內(nèi)容。第一塊腾仅,是所有的數(shù)據(jù)源和開源工具乒裆,是去做粗粒度的上鏈。這個(gè)時(shí)候的粗粒度上鏈推励,也就是當(dāng)下載數(shù)據(jù)集的過程鹤耍,會(huì)做點(diǎn)亮和傳播。第二塊验辞,細(xì)粒度的知識(shí)上鏈稿黄,先是從cnSchema開始,也就是眾包上鏈跌造,接下來就是Openbase當(dāng)中去審核的各種各樣的三元組杆怕,包括實(shí)體和關(guān)系,在這里壳贪,三元組做了鏈上的傳陣和分配產(chǎn)生的樓閾值陵珍,上傳、審核违施、編輯互纯、搜索下載和查詢的一些操作的上鏈等均可追蹤。

當(dāng)然在這個(gè)過程中磕蒲,測(cè)試平臺(tái)做了一些小規(guī)模的測(cè)試留潦,也包括一千多位確權(quán)的知識(shí)貢獻(xiàn)者收苏,上鏈的測(cè)試日均點(diǎn)亮的峰值達(dá)到一萬多次,總計(jì)的點(diǎn)亮和鏈上的存證是160多萬次愤兵,并首次驗(yàn)證了實(shí)現(xiàn)了實(shí)體和三元組粒度的知識(shí)確權(quán)鹿霸。

OpenKG區(qū)塊鏈,我們叫做可信開放的聯(lián)邦知識(shí)圖譜平臺(tái)秆乳。目前它是一個(gè)聯(lián)盟鏈的架構(gòu)懦鼠,初始節(jié)點(diǎn)差不多七個(gè),交給不同的大學(xué)和企業(yè)來獨(dú)立運(yùn)營屹堰,相互的獨(dú)立肛冶,來保證它本身是一個(gè)多中心的基礎(chǔ)架構(gòu),并且是通過共識(shí)機(jī)制來做分布式帳本扯键,共同提供可信基礎(chǔ)設(shè)施睦袖。在區(qū)塊鏈+知識(shí)圖譜方面,Epik銘識(shí)協(xié)議有很深的研究荣刑,現(xiàn)在也在推出自己更強(qiáng)大的平臺(tái)馅笙。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市厉亏,隨后出現(xiàn)的幾起案子董习,更是在濱河造成了極大的恐慌,老刑警劉巖爱只,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皿淋,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡恬试,警方通過查閱死者的電腦和手機(jī)窝趣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來训柴,“玉大人哑舒,你說我怎么就攤上這事∑枇福” “怎么了散址?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)宣赔。 經(jīng)常有香客問我预麸,道長(zhǎng),這世上最難降的妖魔是什么儒将? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任吏祸,我火速辦了婚禮,結(jié)果婚禮上钩蚊,老公的妹妹穿的比我還像新娘贡翘。我一直安慰自己蹈矮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布鸣驱。 她就那樣靜靜地躺著泛鸟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪踊东。 梳的紋絲不亂的頭發(fā)上北滥,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音闸翅,去河邊找鬼再芋。 笑死,一個(gè)胖子當(dāng)著我的面吹牛坚冀,可吹牛的內(nèi)容都是我干的济赎。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼记某,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼司训!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辙纬,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤豁遭,失蹤者是張志新(化名)和其女友劉穎叭喜,沒想到半個(gè)月后贺拣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捂蕴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年譬涡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啥辨。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡涡匀,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出溉知,到底是詐尸還是另有隱情陨瘩,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布级乍,位于F島的核電站舌劳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏玫荣。R本人自食惡果不足惜甚淡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捅厂。 院中可真熱鬧贯卦,春花似錦资柔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至啡彬,卻和暖如春官边,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背外遇。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國打工注簿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人跳仿。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓诡渴,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親菲语。 傳聞我的和親對(duì)象是個(gè)殘疾皇子妄辩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 知識(shí)圖譜與語義技術(shù)概論 知識(shí)圖譜(KG)的概念 知識(shí)圖譜(KG)得益于Web的發(fā)展(更多的是數(shù)據(jù)層面),有著來源于...
    Viterbi閱讀 2,288評(píng)論 0 2
  • 搜索技術(shù)日新月異山上,如今它不再是搜索框中輸入幾個(gè)單詞那么簡(jiǎn)單了眼耀。不僅輸入方式多樣化,并且還要在非常短的時(shí)間內(nèi)給出一個(gè)...
    米飯超人閱讀 8,609評(píng)論 2 42
  • 導(dǎo)讀:1月10日佩憾,由EpiK銘識(shí)協(xié)議主辦的“2021開源知識(shí)運(yùn)動(dòng)”主題活動(dòng)為業(yè)界帶來了一場(chǎng)知識(shí)圖譜開放與互聯(lián)的智慧...
    EpikProtocol閱讀 439評(píng)論 0 0
  • 久違的晴天哮伟,家長(zhǎng)會(huì)。 家長(zhǎng)大會(huì)開好到教室時(shí)妄帘,離放學(xué)已經(jīng)沒多少時(shí)間了楞黄。班主任說已經(jīng)安排了三個(gè)家長(zhǎng)分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,513評(píng)論 16 22
  • 今天感恩節(jié)哎抡驼,感謝一直在我身邊的親朋好友鬼廓。感恩相遇!感恩不離不棄致盟。 中午開了第一次的黨會(huì)碎税,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,559評(píng)論 0 11