大規(guī)模知識圖譜的存儲

(1)存儲系統(tǒng)架構(gòu)

目前大規(guī)模的知識圖譜一般采用圖數(shù)據(jù)庫做為最基本的存儲引擎谈山。圖數(shù)據(jù)庫的優(yōu)點(diǎn)在于其天然的能表示知識圖譜結(jié)構(gòu),圖中的節(jié)點(diǎn)表示知識圖譜的對象庄萎,圖中的邊表示知識圖譜的對象關(guān)系辙纬;但是其缺點(diǎn)是圖數(shù)據(jù)庫的更新比較復(fù)雜生兆,對于復(fù)雜查詢的支持不夠瓷马。所以我們使用以圖數(shù)據(jù)庫為主拴还,結(jié)合其他系統(tǒng)的方式來存儲知識圖譜。

由于我們圖譜每天數(shù)據(jù)都會有變化欧聘,使用hadoop這種適合批量離線處理的系統(tǒng)做為離線更新系統(tǒng)片林,為了效率我們在hadoop上只計(jì)算增量變化;另外我們的圖譜支持用戶編輯怀骤,會將用戶的編輯操作記錄在mysql里费封,并且實(shí)時(shí)更新到圖數(shù)據(jù)庫里;圖數(shù)據(jù)庫做為存儲知識圖譜數(shù)據(jù)的系統(tǒng)蒋伦,用的是自己公司自己的分布式圖數(shù)據(jù)庫弓摘,對于開源的話一般是用neo4j或者titan;為了支持模糊和分詞查詢痕届,還將數(shù)據(jù)同步到了elastic search韧献。

(2)圖數(shù)據(jù)庫存儲結(jié)構(gòu)

在選擇圖數(shù)據(jù)庫做為存儲引擎之后,如何設(shè)計(jì)我們的存儲數(shù)據(jù)結(jié)構(gòu)呢研叫?

首先需要明確選用的圖數(shù)據(jù)庫是否支持schema free的锤窑。像我們的圖數(shù)據(jù)庫不是schema free的,每次節(jié)點(diǎn)增加屬性如果都需要清除數(shù)據(jù)重新導(dǎo)入嚷炉,肯定是無法接受的果复。因此我們抽取了所有節(jié)點(diǎn)的公有屬性做為節(jié)點(diǎn)基本屬性盼樟,比如“節(jié)點(diǎn)id”慢宗,“節(jié)點(diǎn)名稱”淑际,“創(chuàng)建時(shí)間”等,這樣的節(jié)點(diǎn)基本屬性一旦固定下來就需要不變化了独柑。

其次對于節(jié)點(diǎn)的非基本屬性,我們?nèi)孔鰹閳D中的邊來處理私植。比如音樂節(jié)點(diǎn)的“發(fā)行年份”屬性忌栅,我們鏈出一條邊指向String類型節(jié)點(diǎn),邊上有邊名和邊屬性曲稼,邊名就是“發(fā)行年份”索绪,邊屬性就是具體年份。但是后來我們發(fā)現(xiàn)會有海量節(jié)點(diǎn)都指向String贫悄,Double這種節(jié)點(diǎn)瑞驱,造成查詢效率問題。為了解決這個(gè)問題窄坦,我們將所有這種類型的邊指向節(jié)點(diǎn)本身唤反,這樣解決了海量節(jié)點(diǎn)問題凳寺。

最后是對于節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系,使用邊來表示彤侍。比如姚明和葉莉之間有一條“丈夫”的邊肠缨,有一條“妻子”邊。另外我們的節(jié)點(diǎn)類型盏阶,也是用邊關(guān)系表示晒奕,例如姚明和籃球運(yùn)動(dòng)員之間,有一條“類型”的邊名斟。

(3)總結(jié)

知識圖譜的存儲結(jié)構(gòu)設(shè)計(jì)沒有統(tǒng)一的標(biāo)準(zhǔn)脑慧,我有看到對于數(shù)據(jù)量不是很大且結(jié)構(gòu)固定的圖譜就是使用傳統(tǒng)數(shù)據(jù)庫+關(guān)系表來存儲的,也有按照學(xué)術(shù)定義的rdf存儲的蒸眠。還是需要根據(jù)自己的應(yīng)用場景漾橙,數(shù)據(jù)情況來具體設(shè)計(jì),適合自己應(yīng)用場景的才是最好的楞卡。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末霜运,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蒋腮,更是在濱河造成了極大的恐慌淘捡,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件池摧,死亡現(xiàn)場離奇詭異焦除,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)作彤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門膘魄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人竭讳,你說我怎么就攤上這事创葡。” “怎么了绢慢?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵灿渴,是天一觀的道長。 經(jīng)常有香客問我胰舆,道長骚露,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任缚窿,我火速辦了婚禮棘幸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘倦零。我一直安慰自己够话,他們只是感情好蓝翰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著女嘲,像睡著了一般畜份。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上欣尼,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天爆雹,我揣著相機(jī)與錄音,去河邊找鬼愕鼓。 笑死钙态,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的菇晃。 我是一名探鬼主播册倒,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼磺送!你這毒婦竟也來了驻子?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤估灿,失蹤者是張志新(化名)和其女友劉穎崇呵,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體馅袁,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡域慷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了汗销。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片犹褒。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖弛针,靈堂內(nèi)的尸體忽然破棺而出化漆,到底是詐尸還是另有隱情,我是刑警寧澤钦奋,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站疙赠,受9級特大地震影響付材,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜圃阳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一厌衔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捍岳,春花似錦富寿、人聲如沸睬隶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苏潜。三九已至,卻和暖如春变勇,著一層夾襖步出監(jiān)牢的瞬間恤左,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工搀绣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留飞袋,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓链患,卻偏偏與公主長得像巧鸭,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子麻捻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容