[阿里巴巴]大數(shù)據(jù)系統(tǒng)架構(gòu)概述

“NASA”計劃背后媳友,阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu)概述 - 大數(shù)據(jù)_CIO時代網(wǎng) - CIO時代—新IT知識與資源庫 http://www.ciotimes.com/bigdata/126101.html

  • Github項目: awesome-coder-resources:編程/學(xué)習(xí)/閱讀資源(開源項目,面試題,網(wǎng)站,書,博客,教程等等)......【歡迎Star,歡迎圍觀】......
Paste_Image.png

阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS瓤狐,Operational Data Store)、明細數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS,Application Data Store)祸憋。通過數(shù)據(jù)倉庫不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對整個過程進行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理肖卧。


DT時代蚯窥,人們比以往任何時候都收集到更多的數(shù)據(jù)。據(jù)IDC報告塞帐,預(yù)計到2020年拦赠,全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于40萬億GB),這一數(shù)據(jù)量是2011年的22倍葵姥!正在“爆炸式”增長的數(shù)據(jù)荷鼠,其潛在巨大價值有待發(fā)掘。它作為一種新的能源榔幸,正在發(fā)生聚變允乐,變革著我們的生產(chǎn)和生活矮嫉,催生了當(dāng)下大數(shù)據(jù)行業(yè)的熱火朝天。但是我們?nèi)绻荒軐@些數(shù)據(jù)進行有序牍疏、有結(jié)構(gòu)的分類組織和存儲敞临,如果不能有效利用并發(fā)掘產(chǎn)生價值,那么它也是一個數(shù)據(jù)災(zāi)難麸澜,它猶如堆積如山的垃圾,給我們企業(yè)帶來的是極大的成本奏黑。
  現(xiàn)實情況是:阿里集團的數(shù)據(jù)存儲已經(jīng)逼近EB級別炊邦,部分單張表每天的數(shù)據(jù)記錄數(shù)高達幾千億條;阿里內(nèi)部熟史,離線數(shù)據(jù)處理每天面對的是百萬級規(guī)模的作業(yè)馁害,每天有數(shù)千位活躍的工程師在進行數(shù)據(jù)處理工作,加上阿里大數(shù)據(jù)的井噴式爆發(fā)蹂匹,給數(shù)模型碘菜、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運維保障工作增加了更高的難度限寞。

面對阿里內(nèi)部成千上萬對數(shù)據(jù)有著深刻需求的員工忍啸,以及外部千萬級對數(shù)據(jù)有迫切渴望的商家和合作伙伴,如何有效滿足他們的需求履植,提高他們對數(shù)據(jù)使用的滿意度计雌,是數(shù)據(jù)服務(wù)、數(shù)據(jù)產(chǎn)品面臨的更大挑戰(zhàn)玫霎。

![](http://upload-images.jianshu.io/upload_images/2569324-2b734c687597dd05.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

注:阿里巴巴數(shù)據(jù)體系架構(gòu)圖

上圖是阿里巴巴數(shù)據(jù)體系架構(gòu)圖凿滤,可以清晰地看到我們的數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計算庶近、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次翁脆。

  1數(shù)據(jù)采集層

阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家鼻种、消費者反番、商業(yè)組織等)在平臺上從事商業(yè)、消費叉钥、娛樂等活動恬口,每時每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里數(shù)據(jù)體系第一環(huán)尤為重要沼侣。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案祖能,并致力全面、高性能蛾洛、規(guī)范地完成海量數(shù)據(jù)的采集养铸,并將其傳輸?shù)酱髷?shù)據(jù)平臺雁芙。

阿里巴巴的日志采集體系包括兩大體系:Aplus.JS是Web端日志采集技術(shù)方案;UserTack是APP端日志采集技術(shù)方案钞螟。

在采集技術(shù)之上奠滑,阿里巴巴有面向各個場景的埋點規(guī)范,來滿足通用瀏覽萄喳、點擊寒矿、特殊交互、APP事件拯啦、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場景澡匪。同時,建立了一套高性能褒链、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸唁情;在傳輸方面我們采用TimeTunnel(TT),它既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸甫匹,也包括日志數(shù)據(jù)的傳輸甸鸟;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既能支持實時流式計算兵迅、也能實時各種時間窗口的批量計算抢韭。另一方面,也通過數(shù)據(jù)同步工具(DataX和同步中心恍箭,其中同步中心是基于DataX易用性封裝)直連異構(gòu)數(shù)據(jù)庫(備庫)來抽取各種時間窗口的數(shù)據(jù)篮绰。

  2數(shù)據(jù)計算層

從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合季惯、計算才能洞察商業(yè)規(guī)律吠各、挖掘潛在信息、實現(xiàn)大數(shù)據(jù)價值勉抓,達到賦能商業(yè)贾漏、創(chuàng)造商業(yè)的目的。面對海量的數(shù)據(jù)和復(fù)雜的計算藕筋,阿里巴巴的數(shù)據(jù)計算層包括兩大體系:數(shù)據(jù)存儲及計算云平臺(離線計算平臺MaxCompute和實時計算平臺StreamCompute)和數(shù)據(jù)整合及管理體系(OneData)纵散。MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺,其豐富的功能和強大的存儲及計算能力使得阿里巴巴的大數(shù)據(jù)有了強大的存儲和計算引擎隐圾;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺伍掀,在內(nèi)部較好的支持了阿里巴巴流式計算需求;OneData是數(shù)據(jù)整合及管理的方法體系和工具暇藏,阿里巴巴的大數(shù)據(jù)工程師在其體系下蜜笤,構(gòu)建統(tǒng)一、規(guī)范盐碱、可共享的全域數(shù)據(jù)體系把兔,避免數(shù)據(jù)的冗余和重復(fù)建設(shè)沪伙,規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮阿里巴巴在大數(shù)據(jù)海量县好、多樣性方面的獨特優(yōu)勢围橡。

  借助OneData方法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層缕贡,并可以幫助相似大數(shù)據(jù)項目快速落地實現(xiàn)翁授。

從數(shù)據(jù)計算頻率角度來看,阿里數(shù)據(jù)倉庫可以分為離線數(shù)據(jù)倉庫和實時數(shù)據(jù)倉庫晾咪。離線數(shù)據(jù)倉庫主要是傳統(tǒng)的數(shù)據(jù)倉庫概念收擦,數(shù)據(jù)計算頻率是主要是以天(包含小時、周和月)為單位禀酱;如T-1,則每天凌晨處理上一天的數(shù)據(jù)牧嫉。但是隨著業(yè)務(wù)的發(fā)展特別是交易過程的縮短剂跟,用戶對數(shù)據(jù)產(chǎn)出的實時性要求逐漸提高,所以阿里的實時數(shù)據(jù)倉庫應(yīng)運而生酣藻。雙11實時數(shù)據(jù)直播大屏曹洽,就是實時數(shù)據(jù)倉庫的一種典型應(yīng)用。

阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS辽剧,Operational Data Store)送淆、明細數(shù)據(jù)層(DWD,Data Warehouse Detail)怕轿、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS偷崩,Application Data Store)。通過數(shù)據(jù)倉庫不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化撞羽,并且對整個過程進行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理阐斜。

在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個重要的組成部分诀紊。主要包含數(shù)據(jù)源元數(shù)據(jù)谒出、數(shù)據(jù)倉庫元數(shù)據(jù)、數(shù)據(jù)鏈路元數(shù)據(jù)邻奠、工具類元數(shù)據(jù)笤喳、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)碌宴、數(shù)據(jù)管理等杀狡,如用于存儲、計算和成本管理等贰镣。

  3數(shù)據(jù)服務(wù)層

當(dāng)數(shù)據(jù)已被整合和計算好捣卤,需要提供給產(chǎn)品和應(yīng)用進行數(shù)據(jù)消費忍抽,為了更好的性能和體驗,阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層董朝,通過接口服務(wù)化方式對外提供數(shù)據(jù)服務(wù)鸠项。針對不同的需求,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫之上子姜,如Mysql和Hbase等祟绊。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫ApsaraDB for RDS(簡稱RDS)和表格存儲(Table Store)等。

數(shù)據(jù)服務(wù)可以使應(yīng)用對底層數(shù)據(jù)存儲透明哥捕,將海量數(shù)據(jù)方便高效地開放給集團內(nèi)部各應(yīng)用使用∧脸椋現(xiàn)數(shù)據(jù)服務(wù)每天幾十億的數(shù)據(jù)調(diào)用量,如何在性能遥赚、穩(wěn)定性扬舒、擴展性等多方面更好地服務(wù)用戶;如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求凫佛;如何保證雙11媒體大屏的數(shù)據(jù)服務(wù)接口的高可用讲坎;隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)服務(wù)也在不斷前進愧薛。

數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)主要是通過OneService平臺晨炕。OneService以數(shù)據(jù)倉庫整合計算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù)毫炉,主要提供簡單數(shù)據(jù)查詢服務(wù)瓮栗、復(fù)雜數(shù)據(jù)查詢服務(wù)(類似用戶畫像(GProfile)等復(fù)雜數(shù)據(jù)查詢服務(wù))和實時數(shù)據(jù)推送服務(wù)等三大特色數(shù)據(jù)服務(wù)。

  4數(shù)據(jù)應(yīng)用層

數(shù)據(jù)已經(jīng)準(zhǔn)備好瞄勾,需要通過合適的應(yīng)用提供給用戶费奸,讓數(shù)據(jù)最大化地發(fā)揮價值。阿里對數(shù)據(jù)的應(yīng)用表現(xiàn)在各個方面进陡,搜索货邓、推薦、廣告四濒、金融换况、信用、保險盗蟆、文娛戈二、物流等。商家喳资,阿里內(nèi)部的搜索觉吭、推薦、廣告仆邓、金融等平臺鲜滩,阿里內(nèi)部的運營和管理人員等伴鳖,都是數(shù)據(jù)應(yīng)用方,各種應(yīng)用產(chǎn)品百花齊放徙硅; ISV榜聂、研究機構(gòu)和社會組織等也可以利用我們開放的數(shù)據(jù)能力和技術(shù)。

阿里巴巴基于數(shù)據(jù)的應(yīng)用有很多嗓蘑。我們相信须肆,數(shù)據(jù)作為新能源,為社會注入的改變是顯而易見的桩皿。我們對數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)豌汇、服務(wù)和應(yīng)用上。我們正在挖掘大數(shù)據(jù)更深層次的價值泄隔,為社會經(jīng)濟和民生基礎(chǔ)建設(shè)等提供數(shù)據(jù)層面的解讀拒贱。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市佛嬉,隨后出現(xiàn)的幾起案子逻澳,更是在濱河造成了極大的恐慌,老刑警劉巖巷燥,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赡盘,死亡現(xiàn)場離奇詭異号枕,居然都是意外死亡缰揪,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門葱淳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钝腺,“玉大人,你說我怎么就攤上這事赞厕⊙藓” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵皿桑,是天一觀的道長毫目。 經(jīng)常有香客問我,道長诲侮,這世上最難降的妖魔是什么镀虐? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮沟绪,結(jié)果婚禮上刮便,老公的妹妹穿的比我還像新娘。我一直安慰自己绽慈,他們只是感情好恨旱,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布辈毯。 她就那樣靜靜地躺著,像睡著了一般搜贤。 火紅的嫁衣襯著肌膚如雪谆沃。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天入客,我揣著相機與錄音管毙,去河邊找鬼。 笑死桌硫,一個胖子當(dāng)著我的面吹牛夭咬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铆隘,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼卓舵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了膀钠?” 一聲冷哼從身側(cè)響起掏湾,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肿嘲,沒想到半個月后融击,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡雳窟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年尊浪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片封救。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡拇涤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出誉结,到底是詐尸還是另有隱情鹅士,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布惩坑,位于F島的核電站掉盅,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏以舒。R本人自食惡果不足惜趾痘,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望稀轨。 院中可真熱鬧扼脐,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至肚吏,卻和暖如春方妖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背罚攀。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工党觅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人斋泄。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓杯瞻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親炫掐。 傳聞我的和親對象是個殘疾皇子魁莉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容