導(dǎo)讀:1月10日颂暇,由EpiK銘識協(xié)議主辦的“2021開源知識運動”主題活動為業(yè)界帶來了一場知識圖譜開放與互聯(lián)的智慧盛宴。活動吸引了包括清華大學信息技術(shù)研究院副院長邢春曉坑鱼、中國計算機學會知識圖譜 SIG 主席/著名知識圖譜專家/OpenKG主要發(fā)起人王昊奮、東北大學自然語言處理實驗室副主任/小牛思拓創(chuàng)始人王會珍在內(nèi)的重量級嘉賓參與絮缅。在此次大會上鲁沥,EpiK借助區(qū)塊鏈去中心化的協(xié)作模式搭建共建共享共益的開放知識庫的構(gòu)想與實踐成為核心亮點并被一眾專家學者給予高度評價。
接下來文章將從以下幾個方面全面解析EpiK開源知識運動:
為何要構(gòu)建去中心化知識圖譜協(xié)作平臺
開源知識運動面臨的挑戰(zhàn)
EpiK銘識協(xié)議解決方案
誰可以參與這場開源知識運動
01
為何要構(gòu)建去中心化知識圖譜協(xié)作平臺
當前耕魄,人工智能時代已經(jīng)來到下半場画恰,我們不再滿足于無法解釋的模型模擬,賦予 AI 認知能力是必須突破的瓶頸吸奴。而在開闊 AI 認知的道路上允扇,知識圖譜作為機器讀懂人類知識的重要媒介,正在成為人工智能時代重要的基礎(chǔ)設(shè)施则奥。
然而考润,大規(guī)模知識圖譜基礎(chǔ)設(shè)施的建設(shè)涉及到來自各領(lǐng)域間海量知識內(nèi)容,對數(shù)據(jù)質(zhì)量要求高读处,因此糊治,需要組織不同領(lǐng)域大量的勞動力共同投入到建設(shè)當中。但是共建知識圖譜的信任成本極高罚舱,企業(yè)間俊戳、國家間的互不信任,導(dǎo)致了大量的重復(fù)勞動馆匿,如何搭建知識圖譜共建平臺的需求浮現(xiàn)于眾抑胎,而在共建平臺之上貢獻者們?nèi)绾喂蚕砉惨娓潜厝灰鉀Q的問題。
2020年渐北,是區(qū)塊鏈去中心化存儲技術(shù)成熟的一年阿逃,搭建一個無許可的、防篡改的、可追溯的公共數(shù)據(jù)庫成為可能恃锉,共建共享共益的知識圖譜協(xié)作平臺有了實踐基礎(chǔ)搀菩。
02
開源知識運動面臨的挑戰(zhàn)
比特幣價格不斷沖擊歷史新高,DeFi破托、IPFS肪跋、DAO等新興區(qū)塊鏈應(yīng)用層出不窮,讓人看到了更多區(qū)塊鏈的可能性土砂。但基于區(qū)塊鏈構(gòu)建共建共享共益的知識圖譜協(xié)作平臺并非易事州既,這要面臨一系列的挑戰(zhàn):
首先,如何實現(xiàn)共建萝映?將各知識領(lǐng)域的人組織在一起共同參與構(gòu)建高質(zhì)量的大規(guī)模知識圖譜吴叶,有效的激勵機制和嚴格的數(shù)據(jù)質(zhì)量驗收機制缺一不可;其次序臂,如何實現(xiàn)共享蚌卤?共享知識圖譜數(shù)據(jù)面臨著可信存儲的問題,創(chuàng)建各貢獻方都可以無許可訪問的不可篡改的公共存儲平臺是必經(jīng)之路奥秆;再次逊彭,如何實現(xiàn)共益?知識圖譜數(shù)據(jù)可被 0 成本復(fù)制傳播构订,為貢獻者找到高效的可變現(xiàn)方式是持續(xù)協(xié)作的動力源侮叮。
基于此,EpiK 借助“去中心化存儲鲫咽、去中心化自治組織、通證經(jīng)濟模型”三大區(qū)塊鏈前沿技術(shù)分支谷异,提出了一套完整的解決方案分尸。
03
EpiK銘識協(xié)議解決方案
針對于去中心化知識圖譜構(gòu)建痛點,EpiK深入剖析區(qū)塊鏈技術(shù)應(yīng)用歹嘹,為去中心化知識圖譜構(gòu)建勾畫出基于區(qū)塊鏈底層邏輯的技術(shù)架構(gòu)箩绍。
其中,最核心的便是知識存儲部分尺上,這里我們核心介紹其中三大重要組件:
Storage材蛛,提供共享的可信存儲,數(shù)據(jù)不可被隨意篡改怎抛,數(shù)據(jù)不可被拒絕訪問;
Incentive卑吭,為生態(tài)內(nèi)多種貢獻者角色提供激勵,在保證各方追求自身利益最大化的同時马绝,能合力共建高品質(zhì)的知識圖譜豆赏;
DAO,允許社區(qū)共參與系統(tǒng)參數(shù)治理,針對不同發(fā)展階段進行動態(tài)調(diào)整掷邦。
1. Storage
EpiK 的 Storage 組件基于 IPFS 協(xié)議進行搭建白胀。IPFS 是一種分布式網(wǎng)絡(luò)傳輸協(xié)議,該協(xié)議將接入的計算機設(shè)備連接為同一個文件系統(tǒng)抚岗。提交給 IPFS 網(wǎng)絡(luò)的文件或杠,將被切分為多份,每份都擁有獨立的 Hash 值宣蔚,借助 Merkle Trie 數(shù)據(jù)結(jié)構(gòu)向抢,將切分出來的多份數(shù)據(jù)塊組織連接到同一個根節(jié)點下,生成唯一的 File Root Hash件已,即為文件 Hash 值笋额。多個文件的根也會被組織到一顆更大的 Merkle Trie 結(jié)構(gòu)中,形成唯一的 Root Hash篷扩。這種結(jié)構(gòu)有一個好處兄猩,即重復(fù)數(shù)據(jù)塊不會被重復(fù)存儲而且節(jié)點彼此之間僅需同步 Root Hash 即可保持對全局文件的一致性視角。每個節(jié)點可以自由選擇保存哪些數(shù)據(jù)塊鉴未,并告知其他節(jié)點自己存了哪些數(shù)據(jù)塊枢冤,每個節(jié)點會把他們了解到的其他節(jié)點的存儲情況記錄在 DHT 中,方便在接受訪問需求時铜秆,可以快速鎖定哪些節(jié)點有對應(yīng)的數(shù)據(jù)并向其索取淹真。IPFS 成功地將誠實無私的節(jié)點連接起來,對外提供了一個統(tǒng)一的文件系統(tǒng)操作接口连茧。但 IPFS 也有其現(xiàn)實中的問題:缺乏激勵機制和防作弊機制核蘸,節(jié)點可能作惡而且可能隨時下線,這些因素都導(dǎo)致僅靠 IPFS 來構(gòu)建存儲是不可靠的啸驯。
激勵手段我們將在3-2中介紹客扎,這里我們簡要介紹節(jié)點潛在的作弊手法。舉例來說罚斗,一份文件為了保證高可用性徙鱼,會在網(wǎng)絡(luò)中多個地方保存多份,如果現(xiàn)在有兩名礦工都向網(wǎng)絡(luò)廣播他們存儲了同一份文件针姿,以此向整個系統(tǒng)索要兩份存儲獎勵袱吆,但是這兩名礦工可能實際分享著同一份物理存儲,文件真實只存了一份距淫,整個系統(tǒng)理應(yīng)只支付一份存儲獎勵绞绒。這就是分布式系統(tǒng)里常見的女巫攻擊。
為了防止女巫攻擊榕暇,EpiK 在 Storage 組件中集成了由 FileCoin 提出的基于零知識證明的復(fù)制證明(PoRep处铛,Proof-of-Replication)和 ?時空證明(PoSt饲趋,Proof-of-Spacetime)兩種驗證方法。其中撤蟆,復(fù)制證明的作用是證明節(jié)點的確按照要求在本地完整存儲了原始數(shù)據(jù)的全新副本奕塑;時空證明的作用是證明節(jié)點還在本地持續(xù)保存著原始數(shù)據(jù)的全新副本。復(fù)制證明的原理是家肯,使用當前節(jié)點的全局唯一 ID 作為種子龄砰,然后通過計算密集型的加密算法對源文件完成密封,然后廣播密封后數(shù)據(jù)的零知識證明讨衣,雖然密封過程復(fù)雜换棚,但是其他節(jié)點可以輕松驗證密封過程的正確性。時空證明的原理是反镇,節(jié)點需要定期廣播已存文件的一個隨機零知識證明固蚤,這個證明如果從非密封的源文件開始生成將會及其耗時,可能導(dǎo)致節(jié)點無法按時完成證明的廣播歹茶,如果其他節(jié)點沒有及時收到該節(jié)點的時空證明廣播夕玩,將會認為該節(jié)點已經(jīng)丟失了這份文件。所以為了保障時空證明的及時性惊豺,節(jié)點不能丟棄已經(jīng)密封好的文件數(shù)據(jù)燎孟。
有了存儲系統(tǒng)和驗證機制之后,我們還需要保證所有節(jié)點之前保持數(shù)據(jù)一致性尸昧,這就要求所有節(jié)點對于文件有哪些揩页,是按照什么順序廣播給全網(wǎng)的都需要保持一致。這里就引入了區(qū)塊鏈賬本技術(shù)烹俗,所有新文件的創(chuàng)建及其創(chuàng)建順序爆侣、節(jié)點存儲文件的行為、節(jié)點提交存儲證明的行為都被記錄到一個全網(wǎng)共識的區(qū)塊鏈賬本上幢妄,每個節(jié)點都會同步完整賬本已獲得和全網(wǎng)一致的數(shù)據(jù)視角兔仰。有了文件內(nèi)容和文件順序之后,EpiK 便可以在 Storage 組件中存儲知識圖譜數(shù)據(jù)庫操作日志文件磁浇,每個節(jié)點按順序同步這些日志文件之后斋陪,便可以在本地恢復(fù)出全網(wǎng)一致的完整知識圖譜數(shù)據(jù)庫朽褪。
目前 EpiK 網(wǎng)絡(luò)中已經(jīng)有 9000+ 節(jié)點注冊置吓,5000+ 節(jié)點接入成功提供存儲。EpiK 當前設(shè)置中缔赠,每一份文件會在網(wǎng)絡(luò)里存儲 3000 份衍锚,如果少于 3000 份,新存儲的節(jié)點可以獲得額外的激勵嗤堰,黑客要 DDoS 整個 EpiK 文件知識圖譜數(shù)據(jù)庫將會變得極其困難戴质。而且全網(wǎng)同步同一賬本信息度宦,黑客只有控制全網(wǎng)超過51%的節(jié)點才能篡改賬本,攻擊成本也會極其高昂告匠。
2. Incentives
EpiK 將知識圖譜貢獻者分為 3 類戈抄,分別為數(shù)據(jù)礦工、領(lǐng)域?qū)<液唾p金獵人后专,另外還有一個使用者的角色划鸽,為數(shù)據(jù)網(wǎng)關(guān)。每天 EpiK 網(wǎng)絡(luò)都會產(chǎn)出固定數(shù)量的積分獎勵戚哎,如何將這些積分合理分配到這3類角色手上以激勵他們?yōu)楣仓R圖譜數(shù)據(jù)庫做貢獻裸诽,以及如何設(shè)計合理的機制來回收積分,都在 Incentives 組件中定義型凳。
數(shù)據(jù)礦工是物理設(shè)備提供者丈冬,通過提供存儲和帶寬資源來獲得收益,每天產(chǎn)出積分的 75% 歸屬數(shù)據(jù)礦工群體甘畅。存儲的數(shù)據(jù)越多埂蕊,收益越高,提供的數(shù)據(jù)下載流量越大橄浓,收益越多粒梦。與此同時,為了預(yù)防數(shù)據(jù)礦工隨意下線導(dǎo)致數(shù)據(jù)備份減少荸实,系統(tǒng)安全性下降匀们,所有數(shù)據(jù)礦工都需要抵押一部分積分才能成為數(shù)據(jù)礦工,通過提供存儲和帶寬資源獲益准给。積分收益將通過區(qū)塊鏈合約自動下發(fā)泄朴,無需經(jīng)過任何中間人審核。
領(lǐng)域?qū)<沂侵R圖譜數(shù)據(jù)的貢獻者和驗收員露氮,也是整個系統(tǒng)中唯一有權(quán)利上傳知識圖譜數(shù)據(jù)的群體祖灰,他們通過貢獻高品質(zhì)的知識圖譜數(shù)據(jù)獲得收益。每天產(chǎn)出積分的 9% 歸屬領(lǐng)域?qū)<胰后w畔规,貢獻的數(shù)據(jù)越多局扶,收益越高。但為了照顧不同領(lǐng)域數(shù)據(jù)規(guī)模的差異叁扫,不同領(lǐng)域?qū)<邑暙I的數(shù)據(jù)大小會在取 log 后按比例獲得獎勵三妈。當然,作為全系統(tǒng)唯一有數(shù)據(jù)上傳權(quán)利的群體莫绣,對于領(lǐng)域?qū)<矣兄鴩栏竦谋O(jiān)督機制畴蒲。首先,領(lǐng)域?qū)<冶仨氂梢呀?jīng)是領(lǐng)域?qū)<业娜颂崦a(chǎn)生对室,提名后的領(lǐng)域?qū)<疫€需要在社區(qū)中獲得 10w 票的支持模燥,每一票都以為著一個積分被鎖定咖祭。一旦領(lǐng)域?qū)<移睌?shù)(鎖倉積分數(shù))少于10萬票,則失去資格蔫骂。如果領(lǐng)域?qū)<疑蟼魈摷倜春病⒗鴶?shù)據(jù),社區(qū)將給予除名處罰辽旋,提名了被除名領(lǐng)域?qū)<业娜艘矊⑹艿竭B帶懲罰硬鞍。為了鼓勵大家投票,每天產(chǎn)出積分的 1% 歸屬所有參與投票的用戶戴已,投票越多收益越高固该。
在將賞金獵人之前,我們先介紹數(shù)據(jù)網(wǎng)關(guān)糖儡。數(shù)據(jù)網(wǎng)關(guān)是用戶獲取最新第一手知識圖譜數(shù)據(jù)的唯一途徑伐坏,數(shù)據(jù)網(wǎng)關(guān)需要抵押積分來獲得數(shù)據(jù)訪問流量,比如抵押 1 積分可以獲得每日 10MB 的數(shù)據(jù)訪問流量握联。那么對于 EpiK 上知識圖譜數(shù)據(jù)的需求越多桦沉,數(shù)據(jù)網(wǎng)關(guān)們抵押的積分就會越多,積分的需求會增加金闽,貢獻者們持有的積分就會越有價值纯露。
有了數(shù)據(jù)網(wǎng)關(guān)抵押積分的概念,我們再來講賞金獵人代芜。賞金獵人是知識圖譜數(shù)據(jù)的標注員和驗證者埠褪,他們通過完成領(lǐng)域?qū)<野l(fā)布的任務(wù)來獲得收益。賞金獵人的收益是隨著數(shù)據(jù)網(wǎng)關(guān)抵押積分的多少來動態(tài)變化挤庇,如果數(shù)據(jù)網(wǎng)關(guān)抵押的積分越多钞速,證明目前 EpiK 上知識圖譜數(shù)據(jù)質(zhì)量還不錯,那我們會更多地激勵數(shù)據(jù)礦工們提升帶寬嫡秕,讓數(shù)據(jù)訪問服務(wù)更加順暢渴语,于是每天產(chǎn)出積分的剩余 15% 會更多地分配給數(shù)據(jù)礦工群體;但如果數(shù)據(jù)網(wǎng)關(guān)抵押的積分不多昆咽,那說明 EpiK 上知識圖譜數(shù)據(jù)質(zhì)量還有待提升驾凶,那么我們會把剩余 15% 更多地分配給賞金獵人,讓更多人工可以參與進來提升數(shù)據(jù)質(zhì)量掷酗。
在整個生態(tài)中调违,每個角色都通過激勵模型讓自己利益實現(xiàn)最大化,數(shù)據(jù)礦工應(yīng)該提供更多的存儲汇在,而且需要去督促領(lǐng)域?qū)<覂?yōu)化知識圖譜數(shù)據(jù)質(zhì)量翰萨,從而贏得更多收益脏答;領(lǐng)域?qū)<覄t是不斷提供更新更高質(zhì)量的數(shù)據(jù)通過貢獻來分得更高收益糕殉;賞金獵人則是完成更多的任務(wù)來獲得更多收益亩鬼,無形的手推動各方共建知識圖譜。
3. 去中心化社區(qū)治理
一輛無人駕駛的汽車四處巡航阿蝶,正在尋找乘客雳锋。乘客下車后,這輛車使用其利潤去充電站充電羡洁,在其初始的編程設(shè)定外玷过,不需外部的幫助就可以決定如何執(zhí)行其任務(wù)。這是比特幣核心協(xié)議開發(fā)者麥克·赫恩(Mike Hearn)描述的一個去中心化組織或者說 DAO 的理想用例筑煮,即依托智能合約辛蚊,組織就可能實現(xiàn)無層級化管理的運作。DAO是區(qū)塊鏈發(fā)展過程中的一項重要延展真仲,而EpiK 銘識協(xié)議借鑒了這種組織形式袋马,將它運用于去中心化知識圖譜的構(gòu)建中去。
EpiK 存在多個 DAO秸应,有治理全局參數(shù)的 EpiK DAO虑凛,如修改各群體收益占比等參數(shù)等;有治理領(lǐng)域?qū)<覂?nèi)部參數(shù)的 Experts DAO软啼,如修改領(lǐng)域?qū)<议g積分分配算法等桑谍;有治理礦工內(nèi)部參數(shù)的 Miners DAO,如修改每份文件的備份數(shù)量等祸挪。DAO 中的各級角色通過智能合約實現(xiàn)自己在組織中的功能锣披,從而使得知識圖譜構(gòu)建這件事兒,被賦予了自動化的流程體系贿条,大大提升了自身的專業(yè)性和效能盈罐,DAO 一旦運轉(zhuǎn)起來將為全球超大知識圖譜構(gòu)建解放巨大的生產(chǎn)力。
依托三駕馬車闪唆,EpiK的知識圖譜+區(qū)塊鏈模式爆發(fā)出前所未有的活力盅粪,構(gòu)建起開源知識共建共享共益平臺。
04
誰可以參與這場開源知識運動
EpiK 開源知識運動讓更多人看到了知識圖譜未來對于AI的重要價值悄蕾,同時也促使越來越多的人加入到 EpiK 共建共享共益的行動中來票顾。事實上,EpiK 是一個底層的數(shù)據(jù)平臺帆调,不同身份的人都能參與到這個平臺建設(shè)中來奠骄。那么什么樣的人可以參與進來呢?
首先番刊,各行業(yè)資深從業(yè)者可以報名參加成為該行業(yè)的領(lǐng)域?qū)<液郏氊熤痪褪且_保數(shù)據(jù)的準確,同時也去把知識圖譜數(shù)據(jù)標注任務(wù)合理地拆分芹务、下發(fā)到平臺上蝉绷,讓用戶可以參與進來共同維護這些領(lǐng)域的知識圖譜鸭廷。
其次,EpiK 引入賞金獵人角色熔吗,幫助領(lǐng)域?qū)<彝瓿商囟I(lǐng)域的任務(wù)辆床。EpiK 賞金獵人只需完成簡單的選擇題,如回答 Yes or No 桅狠,每個回答的背后都會意味著一份知識圖譜的逐步完善讼载。完成任務(wù)之后,賞金獵人將按勞獲得領(lǐng)域?qū)<曳峙涞莫剟钪械0茨壳皽y算咨堤,不低于時薪 36 元。EpiK 希望可以調(diào)動更多的人漩符,可以利用碎片化時間兼職參與進來吱型,同時也能促進三四線城市的全新就業(yè)機會。
再次陨仅,可以選擇做礦工津滞,只需要提供相應(yīng)的儲存空間就可以成為數(shù)據(jù)礦工。在獲得豐富獎勵的同時灼伤,也是在為人類永恒知識庫做出自己的一份貢獻触徐。
還有是數(shù)據(jù)變現(xiàn),這里涉及兩個方面:一方面是數(shù)據(jù)網(wǎng)關(guān)狐赡,隨著鏈上數(shù)據(jù)的增多撞鹉,參與人員可以通過為鏈上的數(shù)據(jù)做知識聚合,提供一些知識好用的訪問服務(wù)以獲得相應(yīng)的補償和收益颖侄;另一個層面就是對接應(yīng)用方鸟雏,可以幫助企業(yè)方省去高昂建數(shù)據(jù)庫的成本。
05
說在最后
本文講解了EpiK去中心化知識圖譜開放協(xié)作平臺的三重構(gòu)建邏輯览祖,在此基礎(chǔ)上孝鹊,EpiK 知識圖譜庫將成為人工智能未來發(fā)展的重要基石,為未來智能化應(yīng)用落地提供重要的數(shù)據(jù)支撐推動數(shù)據(jù)價值的持續(xù)升級展蒂。
EpiK 開源知識運動正在開啟一場50年由碳基生命向硅基生命的史詩級布道又活,一條通往 AI 未來大道正熠熠生輝。
EpiK?Protocol?銘識協(xié)議
EpiK Protocol 致力于去中心化的超大規(guī)模知識圖譜構(gòu)建锰悼,通過去中心化存儲技術(shù)(IPFS)柳骄、去中心化自治組織(DAO)和通證經(jīng)濟模型(Token Economy),組織并激勵全球社區(qū)成員將人類各領(lǐng)域知識梳理成知識圖譜箕般,共建共享并持續(xù)更新這一人類永恒知識庫耐薯,從而將人工智能(AI)的視野拓展到更智能的未來。