數(shù)據(jù)的井噴式爆發(fā),如何做好數(shù)據(jù)模型深胳、數(shù)據(jù)研發(fā)绰疤、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作,并且如何提高用戶(hù)的數(shù)據(jù)使用滿(mǎn)意度舞终,即數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品也是需要我們思考的問(wèn)題轻庆。
如何建設(shè)高效的數(shù)據(jù)模型和體系,使數(shù)據(jù)易用敛劝,避免重復(fù)建設(shè)和數(shù)據(jù)不一致性余爆,保證數(shù)據(jù)的規(guī)范性;如何提供高效易用的數(shù)據(jù)開(kāi)發(fā)工具夸盟;如何做好數(shù)據(jù)質(zhì)量保障蛾方;如何有效管理和控制日益增長(zhǎng)的存儲(chǔ)和計(jì)算消耗;如何保證數(shù)據(jù)服務(wù)的穩(wěn)定上陕,保證其性能桩砰;如何設(shè)計(jì)有效的數(shù)據(jù)產(chǎn)品高效賦能于外部客戶(hù)和內(nèi)部員工......
1、數(shù)據(jù)采集層--一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案
阿里巴巴的日志采集體系方案包括兩大體系:Aplus.JS是web端日志采集技術(shù)方案释簿;UserTrack是APP端日志采集技術(shù)方案亚隅。用以滿(mǎn)足瀏覽、點(diǎn)擊辕万、特殊交互枢步、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場(chǎng)景渐尿。
同事還建立了一套高性能醉途、高可靠性的數(shù)據(jù)傳輸體系,完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸砖茸。采用TimeTunnel(TT)隘擎,既能包括數(shù)據(jù)庫(kù)的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)傳輸凉夯;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu)货葬,既支持實(shí)時(shí)流式計(jì)算,也支持各種事件窗口的批量計(jì)算劲够。另外震桶,也通過(guò)數(shù)據(jù)同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封裝的)直連異構(gòu)數(shù)據(jù)庫(kù)(備庫(kù))來(lái)抽取各種時(shí)間窗口的數(shù)據(jù)征绎。
2蹲姐、數(shù)據(jù)計(jì)算層--數(shù)據(jù)的整合與計(jì)算
阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體系:數(shù)據(jù)存儲(chǔ)及計(jì)算云平臺(tái)(離線計(jì)算平臺(tái)MaxCompute和實(shí)時(shí)計(jì)算平臺(tái)StreamCompute)和數(shù)據(jù)整合及管理體系(內(nèi)部稱(chēng)之為“OneData”)。其中MaxCompute是離線大數(shù)據(jù)平臺(tái),其豐富的功能和強(qiáng)大的存儲(chǔ)及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲(chǔ)和計(jì)算引擎柴墩;StreamCompute是流式大數(shù)據(jù)平臺(tái)忙厌;OneData是數(shù)據(jù)整合及管理的方法體系和工具,構(gòu)建統(tǒng)一江咳、規(guī)范逢净、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的冗余和重復(fù)建設(shè)歼指,規(guī)避數(shù)據(jù)煙囪和不一致性爹土,充分發(fā)揮海量、多樣性等方面的優(yōu)勢(shì)东臀。借助統(tǒng)一化數(shù)據(jù)整合及管理的方法體系着饥,構(gòu)建了數(shù)據(jù)公共層。
間里數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念惰赋,包括操作數(shù)據(jù)層( Operational Data Store, ODS )、明細(xì)數(shù)據(jù)層( Data WarehouseDetail , DWD )呵哨、匯總數(shù)據(jù)層( Data Warehouse Summary, DWS )和應(yīng)用數(shù)據(jù)層( Application Data Store, ADS )赁濒。。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間的加工過(guò)程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化孟害,并且對(duì)整個(gè)過(guò)程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理拒炎。
在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個(gè)重要的組成部分挨务,主要包含數(shù)據(jù)源元數(shù)據(jù)击你、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù) 、數(shù)據(jù)鏈路元數(shù)據(jù)谎柄、工具類(lèi)元數(shù)據(jù) 數(shù)據(jù)質(zhì)量類(lèi)元數(shù)據(jù)等丁侄。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等 朝巫,如用于存儲(chǔ)鸿摇、計(jì)算和成本管理等。
3劈猿、數(shù)據(jù)服務(wù)層--提供產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi)
數(shù)據(jù)服務(wù)可以使應(yīng)用對(duì)底層數(shù)據(jù)存儲(chǔ)透明拙吉,將海量數(shù)據(jù)方便高效地開(kāi)放給集團(tuán)內(nèi)部各應(yīng)用使用。數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù)主要是通過(guò)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)(方便閱讀揪荣,簡(jiǎn)稱(chēng)為“OneService ”)筷黔。One Service 以數(shù)據(jù)倉(cāng)庫(kù)整合計(jì)算好的數(shù)據(jù)作為數(shù)據(jù)源,對(duì)外通過(guò)接口的方式提供數(shù)據(jù)服務(wù)仗颈,主要提供簡(jiǎn)單數(shù)據(jù)查詢(xún)服務(wù)佛舱、復(fù)雜數(shù)據(jù)查詢(xún)服務(wù)(承接集團(tuán)用戶(hù)識(shí)別、用戶(hù)畫(huà)像等復(fù)雜數(shù)據(jù)查詢(xún)服務(wù))和實(shí)時(shí)數(shù)據(jù)推送服務(wù)三大特色數(shù)據(jù)服務(wù)。
4名眉、數(shù)據(jù)應(yīng)用層--通過(guò)合適的應(yīng)用提供給用戶(hù)粟矿,讓數(shù)據(jù)最大化地發(fā)揮價(jià)值。
如搜索损拢、推薦陌粹、廣告、金融福压、信用掏秩、保險(xiǎn)、文娛荆姆、物流等蒙幻。阿里內(nèi)部的運(yùn)營(yíng)和管理人員等,都是數(shù)據(jù)應(yīng)用方胆筒; ISV研究機(jī)構(gòu)和社會(huì)組織等也可以利用阿里開(kāi)放的數(shù)據(jù)能力和技術(shù)邮破。
我們相信,數(shù)據(jù)作為新能源仆救,為產(chǎn)業(yè)注人的變革是顯而易見(jiàn)的抒和。我們對(duì)數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上彤蔽。我們正在挖掘大數(shù)據(jù)更深層次的價(jià)值摧莽,為社會(huì)經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供創(chuàng)新方法。