“NASA”計劃背后媳友,阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu)概述 - 大數(shù)據(jù)_CIO時代網(wǎng) - CIO時代—新IT知識與資源庫 http://www.ciotimes.com/bigdata/126101.html
- Github項目: awesome-coder-resources:編程/學(xué)習(xí)/閱讀資源(開源項目,面試題,網(wǎng)站,書,博客,教程等等)......【歡迎Star,歡迎圍觀】......
阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS瓤狐,Operational Data Store)、明細數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS,Application Data Store)祸憋。通過數(shù)據(jù)倉庫不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對整個過程進行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理肖卧。
DT時代蚯窥,人們比以往任何時候都收集到更多的數(shù)據(jù)。據(jù)IDC報告塞帐,預(yù)計到2020年拦赠,全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于40萬億GB),這一數(shù)據(jù)量是2011年的22倍葵姥!正在“爆炸式”增長的數(shù)據(jù)荷鼠,其潛在巨大價值有待發(fā)掘。它作為一種新的能源榔幸,正在發(fā)生聚變允乐,變革著我們的生產(chǎn)和生活矮嫉,催生了當(dāng)下大數(shù)據(jù)行業(yè)的熱火朝天。但是我們?nèi)绻荒軐@些數(shù)據(jù)進行有序牍疏、有結(jié)構(gòu)的分類組織和存儲敞临,如果不能有效利用并發(fā)掘產(chǎn)生價值,那么它也是一個數(shù)據(jù)災(zāi)難麸澜,它猶如堆積如山的垃圾,給我們企業(yè)帶來的是極大的成本奏黑。
現(xiàn)實情況是:阿里集團的數(shù)據(jù)存儲已經(jīng)逼近EB級別炊邦,部分單張表每天的數(shù)據(jù)記錄數(shù)高達幾千億條;阿里內(nèi)部熟史,離線數(shù)據(jù)處理每天面對的是百萬級規(guī)模的作業(yè)馁害,每天有數(shù)千位活躍的工程師在進行數(shù)據(jù)處理工作,加上阿里大數(shù)據(jù)的井噴式爆發(fā)蹂匹,給數(shù)模型碘菜、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運維保障工作增加了更高的難度限寞。
面對阿里內(nèi)部成千上萬對數(shù)據(jù)有著深刻需求的員工忍啸,以及外部千萬級對數(shù)據(jù)有迫切渴望的商家和合作伙伴,如何有效滿足他們的需求履植,提高他們對數(shù)據(jù)使用的滿意度计雌,是數(shù)據(jù)服務(wù)、數(shù)據(jù)產(chǎn)品面臨的更大挑戰(zhàn)玫霎。
注:阿里巴巴數(shù)據(jù)體系架構(gòu)圖
上圖是阿里巴巴數(shù)據(jù)體系架構(gòu)圖凿滤,可以清晰地看到我們的數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計算庶近、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次翁脆。
1數(shù)據(jù)采集層
阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家鼻种、消費者反番、商業(yè)組織等)在平臺上從事商業(yè)、消費叉钥、娛樂等活動恬口,每時每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里數(shù)據(jù)體系第一環(huán)尤為重要沼侣。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案祖能,并致力全面、高性能蛾洛、規(guī)范地完成海量數(shù)據(jù)的采集养铸,并將其傳輸?shù)酱髷?shù)據(jù)平臺雁芙。
阿里巴巴的日志采集體系包括兩大體系:Aplus.JS是Web端日志采集技術(shù)方案;UserTack是APP端日志采集技術(shù)方案钞螟。
在采集技術(shù)之上奠滑,阿里巴巴有面向各個場景的埋點規(guī)范,來滿足通用瀏覽萄喳、點擊寒矿、特殊交互、APP事件拯啦、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場景澡匪。同時,建立了一套高性能褒链、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸唁情;在傳輸方面我們采用TimeTunnel(TT),它既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸甫匹,也包括日志數(shù)據(jù)的傳輸甸鸟;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既能支持實時流式計算兵迅、也能實時各種時間窗口的批量計算抢韭。另一方面,也通過數(shù)據(jù)同步工具(DataX和同步中心恍箭,其中同步中心是基于DataX易用性封裝)直連異構(gòu)數(shù)據(jù)庫(備庫)來抽取各種時間窗口的數(shù)據(jù)篮绰。
2數(shù)據(jù)計算層
從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合季惯、計算才能洞察商業(yè)規(guī)律吠各、挖掘潛在信息、實現(xiàn)大數(shù)據(jù)價值勉抓,達到賦能商業(yè)贾漏、創(chuàng)造商業(yè)的目的。面對海量的數(shù)據(jù)和復(fù)雜的計算藕筋,阿里巴巴的數(shù)據(jù)計算層包括兩大體系:數(shù)據(jù)存儲及計算云平臺(離線計算平臺MaxCompute和實時計算平臺StreamCompute)和數(shù)據(jù)整合及管理體系(OneData)纵散。MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺,其豐富的功能和強大的存儲及計算能力使得阿里巴巴的大數(shù)據(jù)有了強大的存儲和計算引擎隐圾;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺伍掀,在內(nèi)部較好的支持了阿里巴巴流式計算需求;OneData是數(shù)據(jù)整合及管理的方法體系和工具暇藏,阿里巴巴的大數(shù)據(jù)工程師在其體系下蜜笤,構(gòu)建統(tǒng)一、規(guī)范盐碱、可共享的全域數(shù)據(jù)體系把兔,避免數(shù)據(jù)的冗余和重復(fù)建設(shè)沪伙,規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮阿里巴巴在大數(shù)據(jù)海量县好、多樣性方面的獨特優(yōu)勢围橡。
借助OneData方法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層缕贡,并可以幫助相似大數(shù)據(jù)項目快速落地實現(xiàn)翁授。
從數(shù)據(jù)計算頻率角度來看,阿里數(shù)據(jù)倉庫可以分為離線數(shù)據(jù)倉庫和實時數(shù)據(jù)倉庫晾咪。離線數(shù)據(jù)倉庫主要是傳統(tǒng)的數(shù)據(jù)倉庫概念收擦,數(shù)據(jù)計算頻率是主要是以天(包含小時、周和月)為單位禀酱;如T-1,則每天凌晨處理上一天的數(shù)據(jù)牧嫉。但是隨著業(yè)務(wù)的發(fā)展特別是交易過程的縮短剂跟,用戶對數(shù)據(jù)產(chǎn)出的實時性要求逐漸提高,所以阿里的實時數(shù)據(jù)倉庫應(yīng)運而生酣藻。雙11實時數(shù)據(jù)直播大屏曹洽,就是實時數(shù)據(jù)倉庫的一種典型應(yīng)用。
阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS辽剧,Operational Data Store)送淆、明細數(shù)據(jù)層(DWD,Data Warehouse Detail)怕轿、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS偷崩,Application Data Store)。通過數(shù)據(jù)倉庫不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化撞羽,并且對整個過程進行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理阐斜。
在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個重要的組成部分诀紊。主要包含數(shù)據(jù)源元數(shù)據(jù)谒出、數(shù)據(jù)倉庫元數(shù)據(jù)、數(shù)據(jù)鏈路元數(shù)據(jù)邻奠、工具類元數(shù)據(jù)笤喳、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)碌宴、數(shù)據(jù)管理等杀狡,如用于存儲、計算和成本管理等贰镣。
3數(shù)據(jù)服務(wù)層
當(dāng)數(shù)據(jù)已被整合和計算好捣卤,需要提供給產(chǎn)品和應(yīng)用進行數(shù)據(jù)消費忍抽,為了更好的性能和體驗,阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層董朝,通過接口服務(wù)化方式對外提供數(shù)據(jù)服務(wù)鸠项。針對不同的需求,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫之上子姜,如Mysql和Hbase等祟绊。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫ApsaraDB for RDS(簡稱RDS)和表格存儲(Table Store)等。
數(shù)據(jù)服務(wù)可以使應(yīng)用對底層數(shù)據(jù)存儲透明哥捕,將海量數(shù)據(jù)方便高效地開放給集團內(nèi)部各應(yīng)用使用∧脸椋現(xiàn)數(shù)據(jù)服務(wù)每天幾十億的數(shù)據(jù)調(diào)用量,如何在性能遥赚、穩(wěn)定性扬舒、擴展性等多方面更好地服務(wù)用戶;如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求凫佛;如何保證雙11媒體大屏的數(shù)據(jù)服務(wù)接口的高可用讲坎;隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)服務(wù)也在不斷前進愧薛。
數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)主要是通過OneService平臺晨炕。OneService以數(shù)據(jù)倉庫整合計算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù)毫炉,主要提供簡單數(shù)據(jù)查詢服務(wù)瓮栗、復(fù)雜數(shù)據(jù)查詢服務(wù)(類似用戶畫像(GProfile)等復(fù)雜數(shù)據(jù)查詢服務(wù))和實時數(shù)據(jù)推送服務(wù)等三大特色數(shù)據(jù)服務(wù)。
4數(shù)據(jù)應(yīng)用層
數(shù)據(jù)已經(jīng)準(zhǔn)備好瞄勾,需要通過合適的應(yīng)用提供給用戶费奸,讓數(shù)據(jù)最大化地發(fā)揮價值。阿里對數(shù)據(jù)的應(yīng)用表現(xiàn)在各個方面进陡,搜索货邓、推薦、廣告四濒、金融换况、信用、保險盗蟆、文娛戈二、物流等。商家喳资,阿里內(nèi)部的搜索觉吭、推薦、廣告仆邓、金融等平臺鲜滩,阿里內(nèi)部的運營和管理人員等伴鳖,都是數(shù)據(jù)應(yīng)用方,各種應(yīng)用產(chǎn)品百花齊放徙硅; ISV榜聂、研究機構(gòu)和社會組織等也可以利用我們開放的數(shù)據(jù)能力和技術(shù)。
阿里巴巴基于數(shù)據(jù)的應(yīng)用有很多嗓蘑。我們相信须肆,數(shù)據(jù)作為新能源,為社會注入的改變是顯而易見的桩皿。我們對數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)豌汇、服務(wù)和應(yīng)用上。我們正在挖掘大數(shù)據(jù)更深層次的價值泄隔,為社會經(jīng)濟和民生基礎(chǔ)建設(shè)等提供數(shù)據(jù)層面的解讀拒贱。