姓名:袁永輝? ? ? 學(xué)號(hào):17101223423
轉(zhuǎn)載自:http://mp.weixin.qq.com/s/5TbHPGIi-3e8yrZyDz1wuA
【嵌牛導(dǎo)讀】:12 月初谷丸,華為 EI 企業(yè)智能服務(wù)在華為云官網(wǎng)全新上線。華為云 EI 囊括了基礎(chǔ)平臺(tái)服務(wù)、通用 AI 服務(wù)舌厨、場景解決方案這三大類智能云服務(wù),每一分支大類中包含了針對(duì)視覺忿薇、語音裙椭、圖像、NLP 等垂直領(lǐng)域的解決方案或技術(shù)署浩。
【嵌牛鼻子】:企業(yè)智能服務(wù)
【嵌牛提問】:當(dāng)各廠都在大談“AI”之時(shí)揉燃,華為云為何要另辟蹊徑做 EI?華為云 EI 的決心和野心又劍指何方筋栋?
【嵌牛正文】:
1
大幕揭起:圖引擎服務(wù)的誕生
圖是抽象能力很強(qiáng)的模型炊汤,能用來建模各種場景。在 Facebook 和 Twitter 這類社交網(wǎng)絡(luò)中弊攘,以個(gè)體為單位的社會(huì)關(guān)系構(gòu)成了盤根錯(cuò)節(jié)的一張網(wǎng)抢腐。如果將這張網(wǎng)看作為圖(這里的圖指代的是通過圖來組織數(shù)據(jù),做關(guān)系計(jì)算)肴颊,那么其構(gòu)造中「點(diǎn)」就是人氓栈,「邊」即為人與人之間的關(guān)系。
在數(shù)據(jù)規(guī)模極其龐大婿着、數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜的時(shí)代授瘦,許多應(yīng)用場景都包含了大量具有相互聯(lián)系的不同實(shí)體醋界;而這些實(shí)體之間的關(guān)系可以通過圖上的節(jié)點(diǎn)、邊及刻畫這些點(diǎn)和邊的屬性數(shù)據(jù)來直觀表達(dá)提完。各類基于圖模型的智能分析技術(shù)和數(shù)據(jù)存儲(chǔ)查詢技術(shù)也受到業(yè)界更多的關(guān)注與重視形纺,在其他不同的場景之下,圖模型還被應(yīng)用于交通網(wǎng)絡(luò)徒欣、通信網(wǎng)絡(luò)逐样、合作關(guān)系網(wǎng)、金融交易打肝、用戶商品推薦等諸多領(lǐng)域脂新。
那么,圖引擎平臺(tái)為何會(huì)在以通訊產(chǎn)品起家的華為被瞄上濃墨重彩的一筆呢粗梭?
華為云 EI 圖引擎首席架構(gòu)師夏應(yīng)龍開篇即解釋道争便,華為內(nèi)部有大量的網(wǎng)絡(luò)規(guī)劃需求,同時(shí)外部面向的電商断医、金融等行業(yè)也有廣泛的圖上建模及分析查詢需求滞乙,這就使圖計(jì)算工具的誕生成為了必然。此外鉴嗤,整個(gè)圖計(jì)算領(lǐng)域可進(jìn)一步細(xì)分為查詢分析斩启、計(jì)算引擎、存儲(chǔ)管理醉锅、可視化等子方向兔簇,但截至目前并沒有一種高效涵蓋所有子方向的圖引擎。所以硬耍,圖引擎平臺(tái)的產(chǎn)生之意也是為了讓普通用戶男韧、開發(fā)者和 ISV 能快速建模、高效計(jì)算默垄,從而提升圖分析與計(jì)算的質(zhì)效和速度。
華為云將其自研的圖引擎平臺(tái)命名為 EYWA甚纲。
EYWA 提供了從底層圖存儲(chǔ)和管理口锭、核心的高性能計(jì)算引擎,到面向上層的圖分析介杆、圖查詢這樣一整套解決方案鹃操。在華為云 EI 整體戰(zhàn)略中,圖引擎是基礎(chǔ)平臺(tái)服務(wù)之一春哨,主要為之上的通用服務(wù)和行業(yè)服務(wù)提供基礎(chǔ)的建模和計(jì)算能力荆隘。
但,如果把關(guān)系數(shù)據(jù)模型比做火車的話赴背,那么現(xiàn)在的圖數(shù)據(jù)建囊埽或許可被比喻成高鐵——其發(fā)展仍面臨一系列技術(shù)挑戰(zhàn)晶渠,夏應(yīng)龍?jiān)谠L談中同時(shí)談到了圖計(jì)算領(lǐng)域所存在的諸多挑戰(zhàn):
圖的標(biāo)準(zhǔn)化查詢:目前主流的有 Gremlin 和 Cypher,但與此同時(shí)還不斷有新的開源查詢語言衍生燃观,例如今年 2 月微軟亞洲研究院就開源了 LIKQ褒脯。而語言的多樣化也為查詢分析帶來了不小的難度。
圖的分布式計(jì)算:同時(shí)缆毁,在大數(shù)據(jù)時(shí)代番川,往往需要分布式系統(tǒng)來處理規(guī)模巨大的圖(如社交網(wǎng)的數(shù)據(jù)就高達(dá)數(shù)十億點(diǎn)、數(shù)百億邊)脊框,分布式系統(tǒng)帶來的圖切分也是一大難題——切的太散會(huì)帶來大量的通信開銷颁督,導(dǎo)致查詢效率低下。因此浇雹,在查詢和分析過程中如何減少計(jì)算和通信開銷沉御,保證伸縮和性能也是圖計(jì)算框架著力改進(jìn)之處。
大規(guī)模圖的可視化:例如箫爷,大規(guī)模圖中因邊交叉和節(jié)點(diǎn)覆蓋所帶來的視覺混亂嚷节,亦或無法顯式揭示埋沒于邊中的節(jié)點(diǎn)連接細(xì)節(jié)信息等問題,都讓大規(guī)模圖的可視化研究具備長足發(fā)展空間虎锚。
隨著業(yè)界對(duì)圖分析及計(jì)算的重視加深硫痰,夏應(yīng)龍也相信不久的將來,圖的查詢語言或許會(huì)做到統(tǒng)一窜护,計(jì)算模型也會(huì)得以不斷發(fā)展效斑;從主流的 BSP、GAS 到 MEGA model柱徙,計(jì)算框架會(huì)逐漸被優(yōu)化缓屠;硬件上對(duì) GPU、SSD 等的探索也會(huì)使計(jì)算性能進(jìn)一步提升护侮。
盡管華為云在圖引擎上僅是跨出了第一步敌完,但其遠(yuǎn)景絕不止于此。
華為云 AI 的兩個(gè)重要方向一是視覺羊初,一是語音滨溉。當(dāng)視覺、語音被結(jié)構(gòu)化成數(shù)據(jù)和數(shù)組之后长赞,后面就是向量晦攒,向量的也可以利用圖的技術(shù)來處理。因此可見得哆,圖引擎或許是華為云 EI 戰(zhàn)略中非常重要的一枚棋子脯颜,成與敗,或皆由這匹馬車?yán)瓌?dòng)贩据。
2
拋磚引玉:從圖引擎平臺(tái)技術(shù)創(chuàng)新談「EI」
EYWA 的底層為圖存儲(chǔ)和管理模塊栋操,負(fù)責(zé)數(shù)據(jù)的「接入」闸餐;中間層是負(fù)責(zé)數(shù)據(jù)「運(yùn)算」的核心的高性能計(jì)算引擎以及負(fù)責(zé)數(shù)據(jù)「處理」的面向上層應(yīng)用的圖分析和圖查詢模塊;最上面是通過標(biāo)準(zhǔn)接口輸出負(fù)責(zé)數(shù)據(jù)結(jié)果「呈現(xiàn)」讼庇。
EYWA 整體技術(shù)架構(gòu)
當(dāng)用戶往圖引擎中導(dǎo)入數(shù)據(jù)以及數(shù)據(jù)加載完畢后绎巨,即可通過 Gremlin 語言進(jìn)行數(shù)據(jù)查詢或選擇內(nèi)置算法對(duì)圖數(shù)據(jù)進(jìn)行分析。目前蠕啄,EYWA 已內(nèi)置 20 余種拓?fù)涠攘亢突緢D分析算法场勤,并通過服務(wù)化 API 將圖引擎的能力開放。然后歼跟,開發(fā)者可以調(diào)用 REST API和媳,獲得 JSON 格式的返回?cái)?shù)據(jù)。當(dāng)然哈街,在華為云上圖引擎對(duì)接了前端(console)留瞳,普通用戶可以在網(wǎng)頁上看到可視化結(jié)果。
結(jié)合目前圖計(jì)算領(lǐng)域的特性和需求來看骚秦,平臺(tái)可用性和易用性的關(guān)鍵點(diǎn)或許在于四點(diǎn):
支持大規(guī)模的超大圖計(jì)算和查詢她倘;
兼顧圖計(jì)算和圖查詢的高并發(fā)、低延時(shí)要求作箍;
能對(duì)接標(biāo)準(zhǔn)的查詢接口和查詢語言硬梁;
可集成實(shí)現(xiàn)計(jì)算、查詢胞得、存儲(chǔ)等一體化需求(例如荧止,Neo4j、Titan 等擅長于圖數(shù)據(jù)的實(shí)時(shí)查詢阶剑,但并不能高效地對(duì)圖數(shù)據(jù)進(jìn)行離線分析跃巡;Turi、GraphX 側(cè)重圖數(shù)據(jù)的離線分析和挖掘牧愁,卻不能對(duì)屬性圖進(jìn)行管理素邪,且不支持實(shí)時(shí)查詢)。
另外猪半,結(jié)合華為云曾在大圖查詢和分析上遇到的諸多挑戰(zhàn)(如當(dāng)提供了百億邊以上規(guī)模的大圖且需要秒級(jí)返回多跳查詢結(jié)果時(shí))娘香,華為云圖引擎在技術(shù)上做了如下創(chuàng)新及優(yōu)化:
分布式優(yōu)化 Parallel Sliding Window(PSW) 的圖計(jì)算框架,高效加載圖數(shù)據(jù)办龄,以滿足業(yè)務(wù)大規(guī)模的計(jì)算需要;
兼顧圖計(jì)算與點(diǎn)查詢效率淋昭,開發(fā)基于邊集流(edge-set)的塊狀數(shù)據(jù)組織以合理組織數(shù)據(jù)俐填;
通過邊集合的 prefetch 策略來隱藏磁盤的 IO 操作以及松弛的 BSP 模型來隱藏通信 IO,從而提升性能翔忽;
正如上文所說英融,圖計(jì)算領(lǐng)域目前要想實(shí)現(xiàn)集計(jì)算盏檐、查詢、存儲(chǔ)等于一體的平臺(tái)也并非易事驶悟。華為云曾挑選胡野、測試了幾款主流的圖計(jì)算平臺(tái)及圖數(shù)據(jù)庫,并詳細(xì)分析了它們的優(yōu)劣勢:例如 Neo4j痕鳍、Titan 等具備數(shù)據(jù)持久化能力硫豆,但在數(shù)據(jù)量大的情況下性能劇烈退化且分析功能較弱,Pregel笼呆、Powergraph 和 GraphX 又不能有效支持在線分析和查詢擴(kuò)展熊响。
因此,EYWA 結(jié)合一體化目標(biāo)和實(shí)際需求诗赌,最終選型 GAS 計(jì)算框架擴(kuò)展到我們的 PSW 計(jì)算框架汗茄。考慮到 Java GC 問題铭若,圖引擎采用 C++ 對(duì)自研系統(tǒng)進(jìn)行實(shí)現(xiàn)洪碳,對(duì)圖的切分(點(diǎn)切、邊切)和數(shù)據(jù)組織(edge-set)進(jìn)行優(yōu)化叼屠,提升性能瞳腌,算法上優(yōu)先實(shí)現(xiàn)常用的圖算法(PageRank、SSSP环鲤、 K-core 等)纯趋。通過支持點(diǎn)查、邊查冷离、屬性過濾等基本查詢和上述常用圖算法吵冒,則將查詢存儲(chǔ)等功能全集成。而且這些結(jié)果可回寫到圖的某一屬性中西剥,便于后續(xù)查詢痹栖。
實(shí)際上,圖引擎的這種誕生和創(chuàng)新很大程度上反映了華為云的 AI 戰(zhàn)略瞭空。
在國內(nèi)其他幾大云廠商的 AI 戰(zhàn)略布局中揪阿,可以看到針對(duì)消費(fèi)級(jí) AI 的產(chǎn)品及技術(shù)演進(jìn)會(huì)更為密集,其中原因多樣咆畏。AI 的研究和應(yīng)用南捂,至今更多地分散在單點(diǎn)技術(shù)上,還無法滿足眾多企業(yè)旧找,特別是大中型企業(yè)的供應(yīng)鏈溺健、制造、經(jīng)營管理等復(fù)雜生產(chǎn)系統(tǒng)的需求钮蛛。但鄭葉來認(rèn)為鞭缭,人工智能要為企業(yè)創(chuàng)造更多價(jià)值剖膳,則必須將這些分散的單點(diǎn)技術(shù)集成起來——這也解釋了華為云為何要選擇不同的市場和打法。他在發(fā)言中進(jìn)一步闡釋說岭辣,AI 在企業(yè)最終要解決兩類問題吱晒,一類是確定性問題,即確定的規(guī)則空間沦童;另一類是不確定問題仑濒,即無明確規(guī)則空間。對(duì)于不確定性事情搞动,AI 要做的是模糊性識(shí)別和智能化處理躏精。
對(duì)照而言,圖引擎基礎(chǔ)平臺(tái)更多的是解決規(guī)則不太確定的問題鹦肿,無論是借助圖模型關(guān)系分析制定決策也好矗烛,還是為行業(yè)圖計(jì)算發(fā)展提供新的解決方案也好,EYWA 對(duì)應(yīng)的終歸是空間和規(guī)則的不確定性箩溃,基于對(duì)圖的分析計(jì)算與建模瞭吃,用于指導(dǎo)研發(fā)設(shè)計(jì)、運(yùn)維運(yùn)營等涣旨。而這歪架,也為華為云 EI 兩條落地方向敲下一記重錘。
3
追本溯源:圖引擎的迭代勾勒著「EI」的難與痛
目前霹陡,大部分 AI 公司的業(yè)務(wù)涉及到的是上游的任務(wù)和蚪、模型及算法,但落地實(shí)現(xiàn)還需要操心更深層次的軟件實(shí)現(xiàn)烹棉、系統(tǒng)以及設(shè)備硬件的選擇攒霹。于是 AI 實(shí)現(xiàn)的成本高昂又或者一個(gè)解決方案無法復(fù)用,這就使得技術(shù)無法產(chǎn)品化浆洗,產(chǎn)品無法解決方案化催束。
另外,企業(yè)級(jí) AI 對(duì)于解決方案完備性具有更高要求伏社,可以看到抠刺,無論 BAT 還是科大訊飛,都在快速鋪建圍繞自身技術(shù)的生態(tài)和產(chǎn)業(yè)鏈摘昌。同樣速妖,同一平臺(tái)解決方案的完備性對(duì)產(chǎn)品走向市場而言具有重要價(jià)值。
這也是 AI 的落地總是伴隨著所謂的泡沫聪黎。
采訪中罕容,夏應(yīng)龍為我們講述了 EYWA 一共經(jīng)歷的三次迭代,我們或許可以管中窺豹,看出 EI 實(shí)現(xiàn)的不易與艱難:
第一次迭代:最開始圖引擎團(tuán)隊(duì)采用了開源系統(tǒng)進(jìn)行二次開發(fā)杀赢,盡管剛開始容易上手,也取得一定的性能提升(20%+)湘纵,但由于系統(tǒng)約束太多導(dǎo)致無法匹配一體化的設(shè)計(jì)目標(biāo)脂崔。其后嘗試過 Powergraph 和 Titan+GraphX 的二次開發(fā),前者不具備查詢擴(kuò)展能力梧喷,后者在數(shù)據(jù)量大的情況下性能劇烈退化砌左。
第二次迭代:此后,團(tuán)隊(duì)開始重構(gòu)圖切分铺敌、計(jì)算框架等核心模塊汇歹,將整個(gè)平臺(tái)服務(wù)化。這個(gè)過程中又遇到了分布式編程困難(進(jìn)程同步偿凭、數(shù)據(jù)一致等)产弹,開發(fā)調(diào)試過程漫長等困難。期間弯囊,圖引擎團(tuán)隊(duì)摸索和總結(jié)了 PSW 框架痰哨、邊集流組織等創(chuàng)新技術(shù),而這時(shí)的系統(tǒng)性能也已比開源系統(tǒng)性能提速了數(shù)倍匾嘱。
第三次迭代:目前斤斧,團(tuán)隊(duì)讓 EYWA 融合了查詢和計(jì)算一體化的能力,加入了并發(fā)能力優(yōu)化通信等霎烙。服務(wù)化之后撬讽,開發(fā)和調(diào)試也加速了許多(不需要重復(fù)加載圖),并且針對(duì)具體算法悬垃,圖引擎團(tuán)隊(duì)又進(jìn)一步優(yōu)化數(shù)據(jù)結(jié)構(gòu)游昼,以使通信開銷最小化。
可以看出盗忱,EYWA 的每一輪優(yōu)化與迭代都可謂是一次「重生」酱床。但創(chuàng)新就意味著挑戰(zhàn),華為創(chuàng)始人兼 CEO 任正非在今年 10 月《一杯咖啡吸收宇宙能量趟佃,一桶漿糊粘接世界智慧》的講話中說扇谣,“華為采取的是改良方式進(jìn)行技術(shù)改進(jìn),否則就要拋棄大量的存量市場闲昭,這會(huì)是個(gè)很大的浪費(fèi)……隨著技術(shù)與社會(huì)進(jìn)步的速度越來越快罐寨,變化時(shí)間短,就成了顛覆序矩⊙炻蹋”相對(duì)應(yīng),EYWA 無論是實(shí)現(xiàn)一體化設(shè)計(jì)目標(biāo)還是加入新的能力優(yōu)化,都彷佛是在極短的時(shí)間內(nèi)做「再造工程」瓶蝴,從而搶為人先毒返。
例如,當(dāng)前圖計(jì)算領(lǐng)域巨大數(shù)據(jù)量的情況下舷手,實(shí)現(xiàn)高效高并發(fā)的查詢是一大難點(diǎn)拧簸。于是,EYWA 開啟了一項(xiàng)通過擴(kuò)線查詢模擬對(duì)社交網(wǎng)絡(luò)節(jié)點(diǎn)的 ego-net 的探索男窟。為測試探索結(jié)果盆赤,華為云用全球計(jì)算機(jī)排名 Graph500 提供的 Kronecker 代碼在對(duì)該數(shù)據(jù)集進(jìn)行擴(kuò)展,形成了具有 2.5 億點(diǎn) 110 億邊的大圖和 5.2 億點(diǎn)和 1011 億邊的超大圖歉眷,優(yōu)化后的實(shí)驗(yàn)結(jié)果顯示在百億邊圖 100 并發(fā)下的 3 跳擴(kuò)線查詢總響應(yīng)時(shí)間基本維持在 0.1 秒以內(nèi)牺六。
4
圖引擎的落地與展望:怎么看 EI 的未來
談到 EYWA 在華為內(nèi)部的落地(當(dāng)然 EYWA 也同時(shí)在金融、公共安全等行業(yè)均有應(yīng)用)汗捡,夏應(yīng)龍舉例說淑际,華為內(nèi)部有大量的網(wǎng)絡(luò)規(guī)劃場景(例如將北京地區(qū)的基站、路由等線路進(jìn)行重新規(guī)劃)凉唐,站點(diǎn)庸追、路由就是圖的節(jié)點(diǎn),光纜台囱、道路就是圖的邊淡溯,在規(guī)劃中有大量的約束條件。用戶的核心痛點(diǎn)就是圖計(jì)算效率低下簿训,在大規(guī)模圖上使用當(dāng)前最流行的某開源圖數(shù)據(jù)庫咱娶,子圖查詢需要耗費(fèi)數(shù)小時(shí),不借助 EYWA 獨(dú)立開發(fā)的規(guī)劃算法也需要花費(fèi) 7.8 小時(shí)强品。而 EYWA 的使用則將子圖查詢和路徑規(guī)劃計(jì)算時(shí)間降到了幾分鐘膘侮。
為何要以內(nèi)部落地來舉例,根源在于華為自身是其 EI 應(yīng)用的天然場景之一的榛。華為供應(yīng)鏈每年都需要處理大量的單據(jù)或用技術(shù)支撐物流等業(yè)務(wù)的發(fā)展琼了。它也將 EI 服務(wù)能力延展到了多個(gè)行業(yè)場景中,千億規(guī)模圖數(shù)據(jù)復(fù)雜計(jì)算與處理就是其中重要一項(xiàng)夫晌。
同時(shí)雕薪,夏應(yīng)龍也為我們規(guī)劃了華為云藍(lán)圖中 EYWA 的未來圖景。
他說晓淀,未來 EYWA 計(jì)劃加入更多的智能技術(shù)所袁,其中包括:
具有半監(jiān)督 / 無監(jiān)督學(xué)習(xí)的 ML 能力(Google 有團(tuán)隊(duì)在此方向上發(fā)力);
高階圖算法凶掰,圖嵌入燥爷,影響力模型蜈亩;
概率圖模型,對(duì)推理前翎、故障定界稚配、異常檢測、行為檢查都有用港华。
此外药有,EYWA 未來也會(huì)提供一整套的工具鏈幫助用戶更好的開發(fā)。比如提供數(shù)據(jù)轉(zhuǎn)換工具苹丸,幫助用戶從不同的數(shù)據(jù)源(HDFS、MySQL)往圖引擎加載數(shù)據(jù)苇经;提供 schema 工具幫助用戶定義數(shù)據(jù)格式赘理,提供 SDK 供用戶二次開發(fā)等等。
技術(shù)演進(jìn)層面上扇单,EYWA 下一步的努力方向是提供更好的圖切分商模、更快的數(shù)據(jù)加載等;優(yōu)化任務(wù)并行和任務(wù)調(diào)度蜘澜;進(jìn)行系統(tǒng)性能優(yōu)化和架構(gòu)升級(jí)以及探索 GPU施流、FPGA 對(duì)計(jì)算加速的幫助。
那么話說過來鄙信,在各家都在大談 AI瞪醋,AI 也仍是泡沫滿天飛的今天,華為云 EI 是否有「可能」和「未來」呢装诡?任正非在《一杯咖啡吸收宇宙能量银受,一桶漿糊粘接世界智慧》說過這句話,“人工智能雖然我們晚了鸦采,但我們現(xiàn)在將著力點(diǎn)用在簡化管理和產(chǎn)品競爭力提升上宾巍,這樣可以讓使能工程部匯聚起幾千人馬,奮起追趕渔伯《ハ迹”所以,無論未來是「五朵云」中哪朵云或哪些云的天下锣吼,但華為云一直在用野心做著 EI 這件事兒选浑。