圖數(shù)據(jù)庫支持對圖數(shù)據(jù)模型CRUD 伦吠,底層存儲(chǔ)分為原生和非原生,支持對大圖形數(shù)據(jù)的實(shí)時(shí)更新魂拦,同時(shí)支持查詢毛仪,具有靈活的schema修改。圖處理引擎引入免索引鄰接芯勘,帶來非常巨大的性能優(yōu)勢箱靴,而且得到的模型更簡單,更具表現(xiàn)力借尿。圖模型提供了固有的索引數(shù)據(jù)結(jié)構(gòu)刨晴,因此它不需要為給定條件的查詢加載或接觸不相關(guān)的數(shù)據(jù),這與HDFS系統(tǒng)相反路翻。同時(shí)圖模型支持面向?qū)ο蟮乃季S狈癞。另外,很多圖數(shù)據(jù)庫都支持基于RDF的查詢語言SPARQL茂契,也支持基于路徑的查詢語言Gremlin蝶桶。
?圖數(shù)據(jù)庫建模最有用的地方就是,它和領(lǐng)域模型是完全同構(gòu)的掉冶。
帶標(biāo)簽的屬性圖(labeled property graph)是目前最流行的圖模型形式真竖。
帶標(biāo)簽的屬性圖有幾個(gè)特點(diǎn):
1.包含節(jié)點(diǎn)和聯(lián)系
? ?1.1 節(jié)點(diǎn)上有屬性,如成立日期厌小、規(guī)模恢共、地址等。
? ? 1.2 節(jié)點(diǎn)上有一個(gè)多個(gè)標(biāo)簽璧亚,比如小微讨韭、科技公司、中概股等癣蟋。
? ? 1.3 ?聯(lián)系有名字和線透硝,并且總有一個(gè)開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)。
? ? 1.4 聯(lián)系也有屬性疯搅,比如關(guān)注濒生、投資、控股等幔欧。通過在聯(lián)系上添加屬性罪治,可以給圖算法提供元數(shù)據(jù)丽声,也可以給聯(lián)系增加額外語義(比如權(quán)重、特性等)规阀,還可以用于運(yùn)行時(shí)約束查詢恒序。
? ?1.5 實(shí)踐中,保證每個(gè)節(jié)點(diǎn)上都配有恰當(dāng)?shù)臉?biāo)簽和屬性谁撼,同時(shí)在節(jié)點(diǎn)間創(chuàng)建有命名的、有方向的滋饲、有屬性的聯(lián)系厉碟。
1、跨域模型
?俗稱-大圖屠缭,?如單一關(guān)系不能滿足箍鼓,希望加入企業(yè)注冊數(shù)據(jù),來進(jìn)行企業(yè)與人之間的管理分析呵曹。加入法律訴訟信息款咖、輿情信息等,這樣我們的圖從一張小圖變成了大圖奄喂,也從只有一個(gè)領(lǐng)域(企業(yè))的模型變成了多個(gè)領(lǐng)域的跨域模型铐殃。跨域模型有助于理解復(fù)雜的價(jià)值鏈背后的關(guān)聯(lián)跨新,不僅可以聯(lián)合多個(gè)領(lǐng)域富腊,而且每個(gè)領(lǐng)域的內(nèi)容又能單獨(dú)區(qū)分開。主要借助圖數(shù)據(jù)里的2個(gè)概念:屬性圖和標(biāo)簽域帐。屬性圖模型讓不同的領(lǐng)域很容易聯(lián)系起來赘被,這樣每個(gè)域都是可達(dá)的;標(biāo)簽既能表示不同節(jié)點(diǎn)在域中扮演的角色肖揣,又可以將它歸屬的節(jié)點(diǎn)和元數(shù)據(jù)結(jié)合起來民假。
2、建模時(shí)常見的陷阱
關(guān)鍵信息要作為點(diǎn)?
注意情景模式
?數(shù)據(jù)模型轉(zhuǎn)化成業(yè)務(wù)
?3龙优、面向查詢
建模就是利用圖結(jié)構(gòu)來描述問題的過程羊异,面向查詢設(shè)計(jì):
1.描述使用模型的最終用戶的需求
2.將需求轉(zhuǎn)化為領(lǐng)域問題
3.明確領(lǐng)域內(nèi)出現(xiàn)的節(jié)點(diǎn)和聯(lián)系
4.把這些節(jié)點(diǎn)和聯(lián)系翻譯成查詢語言
5.使用路徑表達(dá)式,描述需要解決的問題
通用的小技巧:
常用的名字可以作為標(biāo)簽陋率。
帶有賓語的動(dòng)詞作為聯(lián)系的名稱球化。如sent、write瓦糟、reply
公司名作為節(jié)點(diǎn)筒愚,用一個(gè)或多個(gè)屬性來記錄特點(diǎn)。
4菩浙、避免用反
不要把實(shí)體建成聯(lián)系巢掺。聯(lián)系主要是傳達(dá)實(shí)體之間是如何相連的句伶,以及這些聯(lián)系的屬性。很多時(shí)候陆淀,實(shí)體在日常對話和思維方式中不是立即可見的考余,需要仔細(xì)考慮需求描述中使用的每一個(gè)名詞,避免建模時(shí)將實(shí)體錯(cuò)誤的建成聯(lián)系轧苫。
理解圖的可擴(kuò)展性也非常重要楚堤。增加一些實(shí)體和連接,小圖可以擴(kuò)展成跨域模型含懊,其實(shí)也就是向數(shù)據(jù)庫里灌入數(shù)據(jù)的過程身冬。建模時(shí),為了保證查詢效率而混入數(shù)據(jù)元素的做法是不建議的岔乔,從問題出發(fā)來建模會(huì)更好酥筝。
圖存儲(chǔ)
圖存儲(chǔ)結(jié)構(gòu)有兩種,順序存儲(chǔ)結(jié)構(gòu)(順序表)和鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)(鏈表)雏门。順序表的特點(diǎn)是把邏輯上相鄰的結(jié)點(diǎn)存儲(chǔ)在物理位置上相鄰的存儲(chǔ)單元中嘿歌,結(jié)點(diǎn)之間的邏輯關(guān)系由存儲(chǔ)單元的鄰接關(guān)系來體現(xiàn)。而鏈表中元素之間的邏輯關(guān)系用指針實(shí)現(xiàn)茁影。順序表的存儲(chǔ)空間需要預(yù)先分配宙帝,鏈表的存儲(chǔ)空間是動(dòng)態(tài)分配的。
1呼胚、鄰接矩陣
圖的鄰接矩陣(Adjacency Matrix)存儲(chǔ)方式是用兩個(gè)數(shù)組來表示圖茄唐,一個(gè)一維數(shù)組存儲(chǔ)頂點(diǎn)信息,一個(gè)二維數(shù)組(鄰接矩陣)存儲(chǔ)邊的信息蝇更。
設(shè)圖G=(V, E)沪编,其中V是圖G中頂點(diǎn)的集合,E是圖G中邊的集合年扩,通常用(vi, vj)表示無向邊蚁廓,用表示有向邊。
存儲(chǔ)表示
無向圖的鄰接矩陣是一個(gè)對稱矩陣
無向圖中某個(gè)頂點(diǎn)的度厨幻,就是這個(gè)頂點(diǎn)vi在鄰接矩陣第i行(或者第i列)上的元素之和
有向圖中某個(gè)頂點(diǎn)vi的入度相嵌,就是鄰接矩陣中第i列的元素之和;vi的出度就是第i行的元素之和
不論在無向圖還是有向圖中况脆,求vi的所有鄰接點(diǎn)都是將矩陣第i行的元素遍歷一遍饭宾,查找arc[i][j]為1的頂點(diǎn)
?對于邊數(shù)較少,頂點(diǎn)比較多的稀疏矩陣格了,會(huì)造成很嚴(yán)重的空間浪費(fèi)看铆。
2、鄰接表
鄰接表是一種數(shù)組與鏈表相結(jié)合的存儲(chǔ)方法盛末。
圖中的頂點(diǎn)用一個(gè)一維數(shù)組存儲(chǔ)弹惦,也可以用單鏈表否淤,用數(shù)組讀取頂點(diǎn)信息。在頂點(diǎn)數(shù)組中每個(gè)數(shù)據(jù)元素需要存儲(chǔ)一個(gè)指向第一個(gè)鄰接點(diǎn)的指針棠隐∈眨可以表示為:| data | firstedge | 。
圖中每個(gè)頂點(diǎn)vi的所有鄰接點(diǎn)組成一個(gè)線性表助泽,因?yàn)閭€(gè)數(shù)不定啰扛,用單鏈表存儲(chǔ)。每個(gè)節(jié)點(diǎn)可以表示為:| adjvex | next |报咳。
無向圖中某個(gè)節(jié)點(diǎn)的度直接計(jì)算頂點(diǎn)對應(yīng)的邊表中節(jié)點(diǎn)的個(gè)數(shù)即可侠讯;但是在有向圖中出度容易計(jì)算,入度不好計(jì)算暑刃。
有向圖中如果對于入度是強(qiáng)需求,可以使用逆鄰接表來存儲(chǔ)膜眠。
判斷兩個(gè)頂點(diǎn)vi和vj是否存在關(guān)聯(lián)岩臣,只需要到vi的邊表中 adjvex域是否存在下標(biāo)j即可。
優(yōu)缺點(diǎn)
優(yōu)點(diǎn):對于稀疏圖宵膨,鄰接表比鄰接矩陣更節(jié)約空間架谎。
缺點(diǎn):鄰接表和逆鄰接表分別擅長出度和入度的計(jì)算,對于入度和出度都需要遍歷整個(gè)鄰接表辟躏。
3谷扣、十字鏈表
頂點(diǎn)表的結(jié)構(gòu)為:| data | firstin | firstout |。其中firstin為入邊表的頭指針捎琐,firstout為出邊表的頭指針会涎。
邊表節(jié)點(diǎn)的結(jié)構(gòu)為:| tailvex | headvex | headlink | taillink |。 tailvex和headvex分別是指弧尾和弧頭在頂點(diǎn)表的下標(biāo)瑞凑,headlink和taillink分別指終點(diǎn)相同和起點(diǎn)相同的下一條邊末秃。
優(yōu)缺點(diǎn)
優(yōu)點(diǎn):整合了鄰接表和逆鄰接表,頂點(diǎn)的出度和入度都很容易計(jì)算籽御。
缺點(diǎn):數(shù)據(jù)結(jié)構(gòu)相對復(fù)雜练慕。
鄰接多重表
十字鏈表是針對有向圖的存儲(chǔ)優(yōu)化
針對無向圖的存儲(chǔ)優(yōu)化就是鄰接多重表。
頂點(diǎn)表的結(jié)構(gòu)可以表示:| data | firstedge | 技掏。
邊表節(jié)點(diǎn)的結(jié)構(gòu)為:| ivex | ilink | jvex | jlink |铃将。ivex和jvex是指某條邊依附的兩個(gè)頂點(diǎn)在頂點(diǎn)表的下標(biāo)。ilink和jlink分別指向依附頂點(diǎn)ivex和jvex的下一條邊哑梳。
5劲阎、邊集數(shù)組
邊集數(shù)組用兩個(gè)一維數(shù)組來存儲(chǔ)圖的,其中一個(gè)存儲(chǔ)頂點(diǎn)涧衙,另外一個(gè)存儲(chǔ)邊哪工。頂點(diǎn)數(shù)組不需要額外的指針奥此,而邊的數(shù)組中存儲(chǔ)結(jié)構(gòu)為| begin | end | weight |,begin和end分別表示邊的起點(diǎn)和終點(diǎn)雁比,weight是權(quán)重稚虎。
優(yōu)點(diǎn):適合對邊進(jìn)行依次處理
缺點(diǎn):計(jì)算入度和出度需要掃描全表