1 月 10 日昂勉,2021 開源數(shù)據(jù)運(yùn)動(dòng)線上研討會(huì)成功舉辦转绷。EpiK借助區(qū)塊鏈去中心化的協(xié)作模式搭建共建共享共益的開放知識(shí)庫,推動(dòng)知識(shí)圖譜的開放與互聯(lián)硼啤。此次大會(huì)议经,EpiK邀請(qǐng)清華大學(xué)信息技術(shù)研究院副院長(zhǎng)邢春曉、中國計(jì)算機(jī)學(xué)會(huì)知識(shí)圖譜 SIG 主席谴返、著名知識(shí)圖譜專家王昊奮煞肾、著名數(shù)據(jù)及知識(shí)圖譜公司創(chuàng)始人及項(xiàng)目負(fù)責(zé)人王會(huì)珍等重量級(jí)嘉賓參與。眾位專家學(xué)者紛紛就知識(shí)圖譜開放與互聯(lián)發(fā)表精彩演講嗓袱。
今天為大家分享中國計(jì)算機(jī)學(xué)會(huì)知識(shí)圖譜 SIG 主席籍救、著名知識(shí)圖譜專家王昊奮的主題演講《開源知識(shí)圖譜如何保持實(shí)用性》,王老師指出渠抹,在區(qū)塊鏈+知識(shí)圖譜方面蝙昙,Epik銘識(shí)協(xié)議有很深的研究,現(xiàn)在也在推出自己更強(qiáng)大的平臺(tái)梧却。全文如下:
非常高興受到Epik銘識(shí)協(xié)議的邀請(qǐng)奇颠,給大家分享一些OpenKG在構(gòu)建知識(shí)圖譜過程中的一些思考和現(xiàn)在獲得的成果。
關(guān)于知識(shí)圖譜
?
知識(shí)圖譜是用來刻畫事物之間的關(guān)系放航,沉淀我們的領(lǐng)域知識(shí)烈拒。我們經(jīng)常會(huì)提到知識(shí)的獲取,特別來自于非結(jié)構(gòu)化、結(jié)構(gòu)化荆几、多媒體吓妆,現(xiàn)在的物聯(lián)網(wǎng)數(shù)據(jù),甚至包括一些眾包的數(shù)據(jù)進(jìn)行一定的關(guān)聯(lián)和提煉吨铸,形成我們稱之為經(jīng)驗(yàn)規(guī)范的數(shù)據(jù)行拢,這其實(shí)就是知識(shí)。
知識(shí)圖譜還有一個(gè)關(guān)鍵詞诞吱,叫做圖譜剂陡,圖譜其實(shí)就是對(duì)于所抽取到的數(shù)據(jù)進(jìn)行深度關(guān)聯(lián),現(xiàn)在有一塊專門體系關(guān)注原來傳統(tǒng)的符號(hào)主義和現(xiàn)在的神經(jīng)連接主義狐胎,特別是深度學(xué)習(xí)為主的聯(lián)系鸭栖。因此,當(dāng)前大家會(huì)看到我們現(xiàn)在對(duì)于知識(shí)的定義握巢,就不再是原來傳統(tǒng)的推理晕鹊,而是稱之為知識(shí)引擎,這個(gè)時(shí)候我們就可以賦能下游任務(wù)暴浦,包括語義的搜索溅话,智能的問答,語言理解歌焦,媒體理解飞几,推理引擎和我們各種各樣的決策引擎,因此独撇,知識(shí)圖譜現(xiàn)在越來越多的受到國家屑墨、企業(yè)、行業(yè)以及科研機(jī)構(gòu)關(guān)注纷铣。
當(dāng)然不得不提到卵史,清華人工智能研究院的張波院士發(fā)文提出了第三代人工智能,第三代人工智能就是從原來最早期的僅以符號(hào)為主的專業(yè)系統(tǒng)和僅以數(shù)據(jù)為主的現(xiàn)代深度學(xué)習(xí)兩者的結(jié)合搜立,去做到數(shù)據(jù)和知識(shí)的雙輪驅(qū)動(dòng)以躯,為下游各種任務(wù)進(jìn)行賦能。
知識(shí)圖譜從上世紀(jì)的一個(gè)專家系統(tǒng)開始啄踊,引入了很多哲學(xué)本體的概念忧设;伴隨著Web的成長(zhǎng),從Web到語義網(wǎng)颠通,并得到了圖靈獎(jiǎng)獲得者Web之父TimBerners-Lee的大力支持址晕。2006年,知識(shí)圖譜的原型出現(xiàn)—Linkeddata蒜哀,強(qiáng)調(diào)數(shù)據(jù)的開放斩箫、數(shù)據(jù)的鏈接和數(shù)據(jù)的語義化;2012年撵儿,谷歌在2010年把mataweb收購了以后乘客,將最大的知識(shí)圖譜合并到了谷歌知識(shí)圖譜的核心,用知識(shí)圖譜來賦能搜索引擎淀歇,從而讓知識(shí)圖譜進(jìn)入大眾視線易核。
知識(shí)圖譜其實(shí)是跟一個(gè)跨學(xué)科多學(xué)科以及非常復(fù)雜的工程,它聚合了web領(lǐng)域浪默,知識(shí)表示和推理領(lǐng)域牡直、AI領(lǐng)域、自然語言處理領(lǐng)域纳决、數(shù)據(jù)庫領(lǐng)域碰逸、多媒體領(lǐng)域等等,是各領(lǐng)域各學(xué)科的結(jié)合阔加。當(dāng)前各大機(jī)構(gòu)都在在構(gòu)建知識(shí)圖譜饵史,這對(duì)組織與應(yīng)用知識(shí)圖譜給到了相當(dāng)多的幫助。
關(guān)于OpenKG
OpenKG社區(qū)目的是為了去推進(jìn)知識(shí)圖譜本身各方面的發(fā)展胜榔,從標(biāo)準(zhǔn)的制定胳喷,到數(shù)據(jù)集的開放,再到工具鏈的開源開放夭织,再到模型的開放吭露。在這過程,我們就一直在思考到底我們能做些什么尊惰。
萬維網(wǎng)是open的讲竿,語義萬維網(wǎng)也是Open的,知識(shí)圖譜迎來了OpenData弄屡,但在開放過程中和想象有出入戴卜,這主要是因?yàn)閿?shù)據(jù)涉及到隱私保護(hù)的問題。但知識(shí)本來作為是一個(gè)數(shù)據(jù)上的高度的統(tǒng)一和抽象琢岩,代表一類人共識(shí)投剥,因此,知識(shí)的開源和開放担孔,其實(shí)相比數(shù)據(jù)開源開放來的會(huì)少很多問題江锨。
接下來說開源工具,深度學(xué)習(xí)包括自然語言處理糕篇,包括知識(shí)表示啄育,以及數(shù)據(jù)庫,他們就構(gòu)成了我們的開源工具集拌消。深度學(xué)習(xí)被狹義地認(rèn)為是人工智能挑豌,為什么它發(fā)展如此迅猛?這主要來源于開源工具,包括國內(nèi)的百度深度學(xué)習(xí)的開源框架氓英,以及開源的代碼和開源的模型侯勉、開放的數(shù)據(jù)集,促成了這樣的生態(tài)繁榮铝阐,所以說知識(shí)圖譜要做到這樣一件事址貌,也必須這樣。
最后徘键,我也將會(huì)提及一些BlockChain方面的內(nèi)容练对,進(jìn)行簡(jiǎn)單的知識(shí)分享。
知識(shí)圖譜的開放基因是多學(xué)科和多領(lǐng)域結(jié)合的結(jié)果吹害。歷史上曾出現(xiàn)過很多語義網(wǎng)的開放項(xiàng)目螟凭,包括2006年的Linkeddata,國際上知名的schemaorg它呀,大家共同去提出的一些上層的知識(shí)表示的一個(gè)規(guī)范赂摆。其中,VPdata是現(xiàn)在最大的知識(shí)眾包或者國際上的眾包钟些,或者知識(shí)庫的知識(shí)圖譜的一個(gè)開源平臺(tái)烟号,當(dāng)然也包括OpenKG,當(dāng)前OpenKG的口號(hào)就是鏈上的開放知識(shí)圖譜政恍。
OpenKG主要的特點(diǎn)是以中文核心為基礎(chǔ)的一個(gè)開放知識(shí)圖譜汪拥,依托中國中文信息學(xué)會(huì)作為上級(jí)指導(dǎo)單位,涵蓋了清華大學(xué)篙耗、浙江大學(xué)迫筑、東南大學(xué)等高校以及其他產(chǎn)業(yè)界如小米,微軟宗弯,華為等等各方面的同事脯燃,共同支持推動(dòng)這一平臺(tái)的發(fā)展。
OpenKG平臺(tái)數(shù)據(jù)集蒙保、工具辕棚、算法均是開放的,而成員也大多是企業(yè)或高校成員邓厕,這些成員會(huì)發(fā)布各類文章逝嚎,包括學(xué)術(shù)前沿、產(chǎn)業(yè)落地详恼,每年都會(huì)出白皮書來指導(dǎo)工作补君。
今年新冠期間,我們做了一個(gè)新冠的專題昧互,主要詳細(xì)介紹一下新冠的病毒開放知識(shí)圖譜挽铁。這里面包含了百科伟桅、科研、藥物叽掘、防控楣铁、臨床、流行病學(xué)等15個(gè)內(nèi)容够掠,我們是由10余家單位共同構(gòu)建民褂,包含很多科研的內(nèi)容茄菊,如所屬的類別疯潭,相似病毒等等,其中有藥理學(xué)或者宿主以及傳播路徑面殖,還有很多的防范和臨床的指導(dǎo)竖哩。
除此之外,通用開放知識(shí)圖譜也是非常重要的脊僚,包括復(fù)旦大學(xué)的知識(shí)工廠提供了CMBDP相叁,北大提供的PTUbase,東南大學(xué)和我這邊一起提供的知識(shí).me辽幌,清華大學(xué)提供的是SDI的KG等等增淹。
除了數(shù)據(jù)集還會(huì)有很多的工作,比如知識(shí)的關(guān)系抽取乌企,數(shù)據(jù)庫虑润、知識(shí)表示等等,還有包括知識(shí)查詢和推理加酵,這些都可以在OpenKG上找到的比較重要的工具拳喻。
前面講到了國際上有一個(gè)叫做cnSchemaOpenKG,它是由谷歌和微軟以及雅虎猪腕、俄羅斯最大的搜索引擎定義的上層的Schema冗澈,但并不符合我們的實(shí)際,OpenKG也做了一個(gè)cnSchema陋葡,是以Schema.org作為藍(lán)本亚亲,對(duì)其中的內(nèi)容進(jìn)行一些梳理,擴(kuò)充了很多符合自身特色的數(shù)據(jù)源腐缤,其中提到了一個(gè)頂層的Schema和指導(dǎo)關(guān)聯(lián)的內(nèi)容朵栖。
另一個(gè)需要重點(diǎn)提及的是Openbase,這是OpenKG下面的一個(gè)知識(shí)圖譜眾包平臺(tái)柴梆,Openbase的目的就是使得大家可以上傳一些數(shù)據(jù)源陨溅,提供高質(zhì)量的知識(shí)圖譜。以新冠為例绍在,在平臺(tái)上门扇,除了游客之外雹有,還有審核員、校對(duì)員和管理員等角色臼寄。知識(shí)圖譜是由點(diǎn)和邊組成霸奕,審核任務(wù)包括實(shí)體審核和關(guān)系審核,當(dāng)然用戶也可以申請(qǐng)成為數(shù)據(jù)的審核組成員吉拳,但這需要完成一定的任務(wù)质帅,就像B站上要成為一個(gè)up主一樣,需要通過一定的測(cè)試來證明申請(qǐng)人自身的專業(yè)性以后留攒,才可以成為這方面的審核員煤惩。
在平臺(tái)角色中,游客主要是起到了下載和瀏覽的作用炼邀,審核者是數(shù)據(jù)標(biāo)注和圖譜的數(shù)據(jù)審核魄揉,驗(yàn)收者是對(duì)于審核者提交的內(nèi)容確定最終的質(zhì)量,作出接收或者是退回的操作拭宁,他是一個(gè)最終的把關(guān)和守門員的作用洛退。
同時(shí),為了方便大家碎片化的時(shí)間去做很多的眾包任務(wù)杰标,也進(jìn)行了一些交互的設(shè)計(jì)兵怯,比如通過小程序可以讓大家做很多的判斷題和一些相應(yīng)的選擇題,在過程中腔剂,用戶也可以查看相應(yīng)的一些信息來得到額外信息幫助他們做判斷媒区。
接下來說一下,OpenKG在區(qū)塊鏈上的嘗試桶蝎,為什么會(huì)考慮到與區(qū)塊鏈的結(jié)合呢驻仅?
知識(shí)互聯(lián)的語義部分強(qiáng)調(diào)的是數(shù)據(jù)的規(guī)范化描述和強(qiáng)關(guān)聯(lián),這也是知識(shí)圖譜本身最最狹義的一個(gè)概念登渣,但是有了互聯(lián)和鏈接的硬需求以后噪服,但是還會(huì)存在很多的問題,主要在于我們會(huì)面臨和所有權(quán)的一個(gè)定界胜茧,同時(shí)我們也會(huì)存在很多新粒度的價(jià)值計(jì)算和可信的溯源機(jī)制粘优,所以我們就需要進(jìn)一步的落實(shí)一些去中心化的架構(gòu),來保證每個(gè)人都可以維護(hù)自己的知識(shí)庫呻顽,并且通過知識(shí)的一些可信共識(shí)雹顺,來確定知識(shí)的可信度,因此需要做很多的溯源廊遍。同時(shí)在這個(gè)過程中嬉愧,因?yàn)橛泻芏嗳藚⑴c到了知識(shí)的加工或者做知識(shí)的挖掘工作,這就需要去做本身價(jià)值的計(jì)算喉前。OpenKG在2019年早期没酣,開始嘗試做確權(quán)王财、溯源以及價(jià)值激勵(lì)的思考。
知識(shí)圖譜的技術(shù)是強(qiáng)調(diào)將分散碎片化的數(shù)據(jù)進(jìn)行互聯(lián)和鏈接融合裕便,同時(shí)還需要強(qiáng)調(diào)多部門的協(xié)同绒净,以及明確部門之間的責(zé)權(quán)利。知識(shí)的生產(chǎn)者需要去確權(quán)和追溯責(zé)任偿衰,同時(shí)也需要去評(píng)估可信度挂疆。在消費(fèi)者角度來說,通過搜索下翎,通過推理和分析缤言,通過問答進(jìn)行各種各樣的點(diǎn)亮,在各種點(diǎn)亮的過程漏设,就可以對(duì)價(jià)值進(jìn)行更多的量化墨闲,形成很多的激勵(lì)今妄。這其中還包含了區(qū)塊鏈的核心技術(shù)郑口,包括共識(shí)算法,分布式帳本以及價(jià)值的傳播和計(jì)算等等盾鳞。
OpenKG上鏈犬性,這里面分為幾塊內(nèi)容。第一塊腾仅,是所有的數(shù)據(jù)源和開源工具乒裆,是去做粗粒度的上鏈。這個(gè)時(shí)候的粗粒度上鏈推励,也就是當(dāng)下載數(shù)據(jù)集的過程鹤耍,會(huì)做點(diǎn)亮和傳播。第二塊验辞,細(xì)粒度的知識(shí)上鏈稿黄,先是從cnSchema開始,也就是眾包上鏈跌造,接下來就是Openbase當(dāng)中去審核的各種各樣的三元組杆怕,包括實(shí)體和關(guān)系,在這里壳贪,三元組做了鏈上的傳陣和分配產(chǎn)生的樓閾值陵珍,上傳、審核违施、編輯互纯、搜索下載和查詢的一些操作的上鏈等均可追蹤。
當(dāng)然在這個(gè)過程中磕蒲,測(cè)試平臺(tái)做了一些小規(guī)模的測(cè)試留潦,也包括一千多位確權(quán)的知識(shí)貢獻(xiàn)者收苏,上鏈的測(cè)試日均點(diǎn)亮的峰值達(dá)到一萬多次,總計(jì)的點(diǎn)亮和鏈上的存證是160多萬次愤兵,并首次驗(yàn)證了實(shí)現(xiàn)了實(shí)體和三元組粒度的知識(shí)確權(quán)鹿霸。
OpenKG區(qū)塊鏈,我們叫做可信開放的聯(lián)邦知識(shí)圖譜平臺(tái)秆乳。目前它是一個(gè)聯(lián)盟鏈的架構(gòu)懦鼠,初始節(jié)點(diǎn)差不多七個(gè),交給不同的大學(xué)和企業(yè)來獨(dú)立運(yùn)營屹堰,相互的獨(dú)立肛冶,來保證它本身是一個(gè)多中心的基礎(chǔ)架構(gòu),并且是通過共識(shí)機(jī)制來做分布式帳本扯键,共同提供可信基礎(chǔ)設(shè)施睦袖。在區(qū)塊鏈+知識(shí)圖譜方面,Epik銘識(shí)協(xié)議有很深的研究荣刑,現(xiàn)在也在推出自己更強(qiáng)大的平臺(tái)馅笙。