圖計算:一張圖秒級洞察千億級復(fù)雜關(guān)系

在數(shù)據(jù)規(guī)模越來越大蚀狰、數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜的大數(shù)據(jù)時代,傳統(tǒng)的關(guān)系型數(shù)據(jù)暴露出了建模缺陷、水平伸縮等問題盹憎,于是具有更強大表達能力的圖數(shù)據(jù)受到業(yè)界極大的重視。如果把關(guān)系數(shù)據(jù)模型比做火車的話铐刘,那么現(xiàn)在的圖數(shù)據(jù)建呐忝浚可比做高鐵。

什么是圖呢镰吵?

圖(Graph)檩禾,將信息中的實體,以及實體之間的關(guān)系疤祭,分別抽象表達成為頂點以及頂點間的邊這樣的結(jié)構(gòu)數(shù)據(jù)盼产。

像Facebook和Twitter這樣的社交網(wǎng)絡(luò),其數(shù)據(jù)天生就適合于圖表示法勺馆。諸多典型的大數(shù)據(jù)應(yīng)用易于通過圖來進行建模戏售,如交通網(wǎng)絡(luò)、CDR通話圖草穆、用戶與產(chǎn)品之間的二分圖灌灾、論文中作者之間的合作關(guān)系網(wǎng)、文章之間的索引關(guān)系悲柱、金融交易網(wǎng)絡(luò)等等锋喜。

于是,基于圖數(shù)據(jù)的分析技術(shù)—關(guān)系分析(圖計算)應(yīng)運而生豌鸡。圖計算系統(tǒng)就是針對圖結(jié)構(gòu)數(shù)據(jù)處理的系統(tǒng)跑芳,并在這樣的數(shù)據(jù)上進行針對性優(yōu)化的高效計算。

我們可以用圖這個通用的直颅、富有表現(xiàn)力的結(jié)構(gòu)來建模各種場景博个,從宇宙火箭的建造到道路系統(tǒng),從食物的供應(yīng)鏈及原產(chǎn)地追蹤到人們的病歷功偿。

在許多實際場合中我們都能找到圖分析的應(yīng)用盆佣。

例如:

在金融風(fēng)控中往堡,將多種變量(如賬號、交易共耍、資金)之間的關(guān)系通過圖聯(lián)系在一起虑灰,共同分析其對金融安全的影響,典型的金融異構(gòu)系統(tǒng)痹兜,如洗錢穆咐、龐氏騙局等都能反映出特定的圖結(jié)構(gòu)。

在大圖上做環(huán)路檢測可以有效識別循環(huán)轉(zhuǎn)賬字旭,幫助預(yù)防信用卡詐騙对湃;

分析可疑人物的近鄰好友和基于屬性圖的社團發(fā)現(xiàn)可以進一步挖掘出騙子團伙或者僵尸賬號。

知識圖譜通過圖來建立知識概念之間的聯(lián)系遗淳,并在此基礎(chǔ)上設(shè)計推理算法拍柒。

知識圖譜常用來進行知識推理,從語義層面理解用戶意圖屈暗,改進搜索質(zhì)量拆讯。

LinkedIn的知識圖譜對會員顯式輸入的技能,比如“分布式系統(tǒng)”养叛、“Hadoop”等种呐,自動推理出其他技能,比如“產(chǎn)品管理”弃甥、“NoSQL”等爽室。特別是AI和機器學(xué)習(xí)中需要處理很多由實體和關(guān)系構(gòu)成的信息。例如潘飘,在推薦系統(tǒng)中,用戶和電影就是實體掉缺,他們之間的喜好構(gòu)成了實體間的關(guān)系卜录;搜索查詢和商品也是實體,他們之間的點擊率構(gòu)成了實體間的關(guān)系眶明。

業(yè)界洞察

整個圖計算領(lǐng)域可進一步細分為查詢分析艰毒、計算引擎、存儲管理搜囱、可視化等子方向丑瞧。目前并沒有一種涵蓋所有子方向的圖引擎。例如圖數(shù)據(jù)庫Neo4j蜀肘、Titan等擅長于圖數(shù)據(jù)的實時查詢绊汹,但并不能高效地據(jù)進行離線分析;分析引擎Turi扮宠、GraphX側(cè)重圖數(shù)據(jù)的離線分析和挖掘西乖,卻不能對屬性圖進行管理,且不支持實時查詢。

同時获雕,圖計算領(lǐng)域也面臨大數(shù)據(jù)環(huán)境下帶來的巨大挑戰(zhàn)薄腻。就當(dāng)前的社交網(wǎng)絡(luò)而言,對全網(wǎng)做查詢分析就意味著對數(shù)十億節(jié)點(人物)數(shù)百億邊(關(guān)系)的大圖進行操作届案。而規(guī)模更大的互聯(lián)網(wǎng)庵楷、物聯(lián)網(wǎng)可達到百億節(jié)點千億邊甚至以上。在如此巨大數(shù)據(jù)量的情況下楣颠,實現(xiàn)高效高并發(fā)的查詢是當(dāng)前一大難點尽纽。

一方面,鑒于圖數(shù)據(jù)結(jié)構(gòu)的稀疏性,并不能通過GPU等硬件手段上取得很好的加速赡若。

另一方面子库,圖的局部性也有別于傳統(tǒng)機器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)組織形式。

社交網(wǎng)絡(luò)中一個人的平均好友數(shù)達到數(shù)百挎春,那他的2度好友就會達到數(shù)十萬之多,于是探索一個人ego-net(對圖中某節(jié)點做擴線查詢得到的子圖)往往會遍歷上千萬甚至更多條邊豆拨。

在多機環(huán)境下直奋,這些邊往往分布在不同的機器上,進一步增大了遍歷的難度施禾。此外脚线,隨著數(shù)據(jù)復(fù)雜性的增加,節(jié)點和邊往往帶有屬性信息弥搞。這些信息既可以是固有屬性(如年齡邮绿、性別等),也可以是計算得到的結(jié)果(如介數(shù)中心度攀例、pagerank值等)船逮,這些計算結(jié)果往往又是下一次查詢的輸入。屬性管理與交互式計算查詢粤铭,是圖領(lǐng)域的另一大挑戰(zhàn)挖胃。

華為圖引擎服務(wù)GES

華為人工智能平臺上的EYWA圖引擎提供了從底層的圖存儲和管理、核心的高性能計算引擎梆惯、直到面向上層的圖分析和圖查詢酱鸭,一整套的關(guān)系網(wǎng)絡(luò)分析解決方案,其基本特征如下:

?高性能

EYWA基于邊集流的塊狀數(shù)據(jù)組織兼顧了圖計算與圖數(shù)據(jù)查詢的性能要求垛吗,并集成了多種面向行業(yè)領(lǐng)域的優(yōu)化算法凹髓。它通過優(yōu)化的prefetch策略降低磁盤的IO操作的性能損耗,同時也通過松弛BSP模型來降低通信IO帶來的性能損耗怯屉。相比Powergraph, GraphX, Powerlyra等計算速度提速4~10倍以上扁誓,而圖數(shù)據(jù)查詢的性能提升更加明顯防泵,具備秒級多跳實時查詢的強大性能。

?一體化

EYWA實現(xiàn)圖計算蝗敢、圖查詢和圖存儲的一體化:提供基于屬性圖模型的數(shù)據(jù)存儲捷泞,支持基本查詢(點查、邊查寿谴、遍歷锁右、屬性過濾等),常用的圖算法(PageRank, SSSP, K-core, graph metrics等)可以基于圖的結(jié)構(gòu)和屬性進行計算讶泰,并將結(jié)果回寫到圖的某一屬性中便于后續(xù)查詢咏瑟。

EYWA已經(jīng)在百億節(jié)點和千億邊的大規(guī)模圖實踐上驗證了其高并發(fā)、低時延的能力痪署。

其中一份實驗用到的公開數(shù)據(jù)集是基于斯坦福大學(xué)SNAP研究組提供的Friendster, 來自真實的社會網(wǎng)絡(luò)码泞。我們用全球計算機排名Graph500提供的Kronecker代碼在對該數(shù)據(jù)集進行擴展,形成了具有2.5億點110億邊的大圖和5.2億點和1011億邊的超大圖狼犯。通過擴線查詢模擬對社交網(wǎng)絡(luò)節(jié)點的ego-net的探索余寥,我們的實驗結(jié)果顯示在百億邊圖100并發(fā)下的3跳擴線查詢總響應(yīng)時間基本在0.1秒以內(nèi)。

以下是針對不同并發(fā)請求數(shù)EYWA系統(tǒng)的響應(yīng)時間(上:并發(fā)狀態(tài)下單個請求的執(zhí)行時間悯森;下:所有并發(fā)請求執(zhí)行完成的總時間)宋舷;千億邊圖100并發(fā)下3跳擴線查詢總響應(yīng)時間在0.5~3秒(隨種子節(jié)點不同而變化)。

EYWA圖引擎支持基于屬性圖模型的復(fù)雜屬性管理瓢姻、內(nèi)置了20余種拓撲度量和基本圖分析算法祝蝠,并通過服務(wù)化API將圖引擎的能力開放出去,提供全方位的關(guān)系網(wǎng)絡(luò)洞察幻碱。

在電信網(wǎng)絡(luò)等行業(yè)實踐中绎狭,利用EYWA我們很自然地表達了各類交換機、路由器褥傍、終端設(shè)備等網(wǎng)元構(gòu)成的物理通信網(wǎng)絡(luò)儡嘶,以及在其上抽象出來的邏輯網(wǎng)絡(luò),并在此基礎(chǔ)上運行復(fù)雜的網(wǎng)絡(luò)規(guī)劃仿真算法摔桦,極大提升了業(yè)務(wù)工作效率社付;

在金融承疲、公共安全等行業(yè)實踐中邻耕,利用EYWA可表達大量的人物、賬戶燕鸽、商家兄世、手機等相互關(guān)聯(lián)的不同實體,并通過頂點和邊上的屬性(如人物的年齡啊研、性別御滩,賬戶的創(chuàng)建時間鸥拧,人和商家之間的交易金額等)精細描述真實世界的信息∠鹘猓基于EYWA大規(guī)模高并發(fā)的支持富弦,以及內(nèi)置的最短路徑、中間人查找氛驮、回路分析腕柜、鄰居子圖等分析功能,客戶能夠高效地進行反欺詐矫废、團伙發(fā)現(xiàn)等業(yè)務(wù)計算盏缤、幫助業(yè)務(wù)人員發(fā)現(xiàn)大量關(guān)聯(lián)數(shù)據(jù)背后有價值的隱藏信息。

轉(zhuǎn)自:華為云社區(qū)? 作者:mr.FangYang?

原文鏈接:http://t.cn/RFADb7C

華為圖引擎服務(wù):http://t.cn/RFz2lAj

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蓖扑,一起剝皮案震驚了整個濱河市唉铜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌律杠,老刑警劉巖潭流,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異俩功,居然都是意外死亡幻枉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門诡蜓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來熬甫,“玉大人,你說我怎么就攤上這事蔓罚〈患纾” “怎么了?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵豺谈,是天一觀的道長郑象。 經(jīng)常有香客問我,道長茬末,這世上最難降的妖魔是什么厂榛? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮丽惭,結(jié)果婚禮上击奶,老公的妹妹穿的比我還像新娘。我一直安慰自己责掏,他們只是感情好柜砾,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著换衬,像睡著了一般痰驱。 火紅的嫁衣襯著肌膚如雪证芭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天担映,我揣著相機與錄音废士,去河邊找鬼。 笑死蝇完,一個胖子當(dāng)著我的面吹牛湃密,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播四敞,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼泛源,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了忿危?” 一聲冷哼從身側(cè)響起达箍,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铺厨,沒想到半個月后缎玫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡解滓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年赃磨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片洼裤。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡邻辉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出腮鞍,到底是詐尸還是另有隱情值骇,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布移国,位于F島的核電站吱瘩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏迹缀。R本人自食惡果不足惜使碾,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望祝懂。 院中可真熱鬧票摇,春花似錦、人聲如沸嫂易。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽怜械。三九已至颅和,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缕允,已是汗流浹背峡扩。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留障本,地道東北人教届。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像驾霜,于是被迫代替她去往敵國和親案训。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 姓名:袁永輝 學(xué)號:17101223423 轉(zhuǎn)載自:http://mp.weixin.qq.com/s/5T...
    AliY520閱讀 588評論 0 4
  • 讀《水滸》 第35回 此回主要是誘秦明落草。宋江花榮落草清風(fēng)山蓉冈,縣衙派秦明圍剿城舞,宋江設(shè)計,花榮實施寞酿,六步擒秦明家夺。宋...
    蝴蝶榮閱讀 2,419評論 0 1
  • 感賞自己認真聽了利花師姐的:感受愛,讓我隨時提醒自己伐弹,在合適的時機拉馋,拉孩子一把,而不是把孩子推出去惨好。 讓我再次克服...
    Ai燕朋happy閱讀 292評論 2 5
  • 她走出來了… … 玉蓮:通過這一段時間的接觸椅邓,我們重新認識了你。 對你很多原來不了解的一面昧狮,都理解了景馁。 你變了,變...
    8月8閱讀 100評論 0 0
  • 早上到公司就開始忙活逗鸣,等閑下來的時候發(fā)現(xiàn)有好幾條未讀微信合住,都是來自我那可愛的妹妹。 “哈哈哈哈撒璧,小薰要結(jié)婚啦...
    易愛琳閱讀 248評論 0 1