從去年開始,越來越多的大數(shù)據(jù)從業(yè)者提到“數(shù)據(jù)中臺”的概念袭蝗。在信息系統(tǒng)建設(shè)工作中,我們熟知系統(tǒng)可以分為前臺和后臺般婆,但什么是中臺到腥,每個人的理解并不一致,筆者根據(jù)網(wǎng)上一些資料蔚袍,結(jié)合自己的實(shí)踐經(jīng)驗(yàn)乡范,在本文中講述了什么是數(shù)據(jù)中臺,阿里公司的數(shù)據(jù)中臺解決方案页响,以及提出一種筆者理想中的數(shù)據(jù)中臺架構(gòu)篓足。
當(dāng)人們談?wù)摂?shù)據(jù)中臺時,他們在談?wù)撌裁?/b>
當(dāng)下闰蚕,人人都在談?wù)摂?shù)字化轉(zhuǎn)型栈拖,但怎么轉(zhuǎn),做什么没陡,中臺有可能成為企業(yè)推進(jìn)數(shù)字化轉(zhuǎn)型的有效方法之一涩哟。“中臺”早期是由美軍的作戰(zhàn)體系演化而來的盼玄,使用“中臺”這種作戰(zhàn)體系贴彼,目的就在于給予前方高效、靈活和強(qiáng)大炮火支持埃儿。2015年器仗,阿里巴巴率先提出了“中臺戰(zhàn)略”,以及其有名的“大中臺童番、小前臺”的機(jī)制精钮。2018年8月,阿里發(fā)布“雙中臺+ET”數(shù)字化轉(zhuǎn)型方法論剃斧,阿里的雙中臺包括了數(shù)據(jù)中臺和業(yè)務(wù)中臺轨香。在“業(yè)務(wù)中臺”模式下,前端業(yè)務(wù)部門可以像搭積木一樣調(diào)用平臺上的產(chǎn)品技術(shù)模塊幼东,從而快速搭建新業(yè)務(wù)場景臂容。“數(shù)據(jù)中臺”則打破了不同業(yè)務(wù)部門之間的煙囪式IT架構(gòu)根蟹,從而打通數(shù)據(jù)孤島脓杉,實(shí)現(xiàn)了“一切業(yè)務(wù)數(shù)據(jù)化”的目標(biāo)。ET大腦是指其面向特定行業(yè)的智能化解決方案简逮。
在阿里中臺概念的引領(lǐng)下丽已,很多企業(yè)也提出了自己的“中臺戰(zhàn)略”。如把內(nèi)部一些通用性技術(shù)平臺买决、支撐系統(tǒng)打包在一起沛婴,稱之為技術(shù)中臺;把一些大的業(yè)務(wù)服務(wù)系統(tǒng)督赤,邏輯上集中起來稱之為業(yè)務(wù)中臺嘁灯;或干脆把現(xiàn)有的數(shù)據(jù)倉庫、數(shù)據(jù)治理平臺躲舌、數(shù)據(jù)運(yùn)維平臺整合稱之為數(shù)據(jù)中臺丑婿;還有一種更簡單的方式,就是把以前內(nèi)部IT支撐系統(tǒng)的后臺直接改名没卸,與數(shù)據(jù)相關(guān)的部分就叫數(shù)據(jù)中臺羹奉,與業(yè)務(wù)耦合度較緊密的就叫業(yè)務(wù)中臺。以上定義约计,各有各有道理诀拭,但有一點(diǎn)大家都有一致的意見,就是建立中臺的目的在于:減少冗余煤蚌,增加復(fù)用耕挨,快速響應(yīng)用戶需求。
一般來說尉桩,數(shù)據(jù)中臺是指企業(yè)利用大數(shù)據(jù)技術(shù)筒占,對內(nèi)外部海量數(shù)據(jù)統(tǒng)一進(jìn)行采集、計算蜘犁、存儲翰苫,并使用統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行管理,數(shù)據(jù)規(guī)范包括數(shù)據(jù)口徑这橙、數(shù)據(jù)模型奏窑、元數(shù)據(jù)規(guī)范、參考數(shù)據(jù)標(biāo)準(zhǔn)析恋、主數(shù)據(jù)標(biāo)準(zhǔn)良哲、業(yè)務(wù)規(guī)則等。更進(jìn)一步助隧,廣義的數(shù)據(jù)中臺筑凫,還包括企業(yè)長期積累下來與業(yè)務(wù)有較強(qiáng)關(guān)聯(lián)性的一些技術(shù)組件,如業(yè)務(wù)標(biāo)簽并村,算法模型巍实,數(shù)據(jù)產(chǎn)品等。數(shù)據(jù)中臺的主要作用在于將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標(biāo)準(zhǔn)化數(shù)據(jù)哩牍,挖掘出對企業(yè)最有價值的數(shù)據(jù)棚潦,構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,對內(nèi)對外提供一致的膝昆、高可用大數(shù)據(jù)服務(wù)丸边。
阿里公司數(shù)據(jù)中臺案例分析
阿里是數(shù)據(jù)中臺概念的首先提出者叠必,其案例更具分析意義。從網(wǎng)絡(luò)中流傳的一幅阿里巴巴數(shù)據(jù)中臺全景圖(圖1)可以看出妹窖,阿里的數(shù)據(jù)中臺包括了計算與存儲平臺纬朝、數(shù)據(jù)資產(chǎn)管理、智能數(shù)據(jù)研發(fā)骄呼、統(tǒng)一數(shù)據(jù)中心中間件(OneService)四大模塊共苛,最上層支撐著阿里數(shù)據(jù)、數(shù)據(jù)大屏蜓萄、生意參謀等大數(shù)據(jù)應(yīng)用隅茎。
阿里的統(tǒng)一數(shù)據(jù)中心中間件又分為萃取數(shù)據(jù)中心、公共數(shù)據(jù)中心和垂直數(shù)據(jù)中心三部分嫉沽,垂直數(shù)據(jù)中心負(fù)責(zé)從阿里旗下各個業(yè)務(wù)單元采集數(shù)據(jù)辟犀,公共數(shù)據(jù)中心類似數(shù)據(jù)倉庫,將所有數(shù)據(jù)按不同主題域(電商耻蛇、文娛踪蹬、營銷、物流臣咖、金融等)分類管理跃捣,萃取數(shù)據(jù)中心負(fù)責(zé)按照業(yè)務(wù)需求,將各主題域數(shù)據(jù)加工處理夺蛇,建立起消費(fèi)者疚漆、企業(yè)、內(nèi)容刁赦、商品娶聘、位置五大數(shù)據(jù)體系。阿里數(shù)據(jù)中臺的目的旨在對內(nèi)提供數(shù)據(jù)基礎(chǔ)建設(shè)和統(tǒng)一的數(shù)據(jù)服務(wù)甚脉,對外提供服務(wù)商家的統(tǒng)一化數(shù)據(jù)產(chǎn)品丸升。
通過以上架構(gòu),可以看出牺氨,阿里提出的數(shù)據(jù)中臺模式有以下一些特點(diǎn)狡耻。首先是對全域數(shù)據(jù)的采集與存儲,實(shí)現(xiàn)了對企業(yè)中各業(yè)務(wù)類別數(shù)據(jù)的整合和集中化管理猴凹。其次是按照規(guī)范化的數(shù)據(jù)架構(gòu)(數(shù)據(jù)倉庫規(guī)劃夷狰、數(shù)據(jù)模型構(gòu)建、指標(biāo)定義規(guī)范等)統(tǒng)一研發(fā)數(shù)據(jù)郊霎,實(shí)現(xiàn)數(shù)據(jù)口徑沼头、數(shù)據(jù)模型標(biāo)準(zhǔn)化。第三是建立業(yè)務(wù)需求驅(qū)動的幾大數(shù)據(jù)體系,深度萃取數(shù)據(jù)價值进倍;第四是集成數(shù)據(jù)資產(chǎn)管理能力土至,從數(shù)據(jù)的運(yùn)營、應(yīng)用背捌、管理毙籽、分析、可視化五方面統(tǒng)一管理數(shù)據(jù)資產(chǎn)毡庆。
通過這樣的數(shù)據(jù)中臺架構(gòu)設(shè)計,阿里實(shí)現(xiàn)了對下屏蔽各數(shù)據(jù)來源不同的現(xiàn)狀烙如,對上提供統(tǒng)一的數(shù)據(jù)服務(wù)接口和標(biāo)準(zhǔn)化數(shù)據(jù)唬渗。數(shù)據(jù)中臺將阿里內(nèi)部諸如淘寶良价、天貓、聚劃算這些數(shù)據(jù)孤島一一打通,將公共數(shù)據(jù)能力積累沉淀吗浩,對內(nèi)對外提供數(shù)據(jù)共享服務(wù),新的業(yè)務(wù)需求再出現(xiàn)的時候盹兢,開發(fā)人員不用再從頭做起砂轻,直接基于數(shù)據(jù)中臺提供的能力,就可以快速完成新應(yīng)用開發(fā)然爆。
一種理想的數(shù)據(jù)中臺架構(gòu)
企業(yè)建設(shè)數(shù)據(jù)中臺的最終目標(biāo)還是賦能業(yè)務(wù)站粟,服務(wù)用戶。數(shù)據(jù)中臺的建設(shè)也不應(yīng)該只是一個口號曾雕,一次運(yùn)動奴烙,或一個項(xiàng)目,而是需要企業(yè)不斷去投入資源剖张、迭代更新切诀,通過數(shù)據(jù)中臺的建設(shè),驅(qū)動企業(yè)業(yè)務(wù)創(chuàng)新和發(fā)展搔弄。企業(yè)建設(shè)數(shù)據(jù)中臺幅虑,可以通過合理規(guī)劃、復(fù)用內(nèi)部現(xiàn)有已經(jīng)完善的大數(shù)據(jù)處理工具來支撐建設(shè)顾犹,充分借鑒業(yè)界數(shù)據(jù)中臺建設(shè)實(shí)踐倒庵,從核心需求出發(fā),以某垂直業(yè)務(wù)的數(shù)據(jù)入手蹦渣,打通數(shù)據(jù)采集哄芜、存儲、計算柬唯、治理认臊、服務(wù)的工作全流程,逐步擴(kuò)展到全域數(shù)據(jù)的接入锄奢、加工和管理失晴,建設(shè)起自有的數(shù)據(jù)中臺剧腻。
數(shù)據(jù)中臺包括哪些內(nèi)容,做哪些事情涂屁,圖2是筆者理想中的數(shù)據(jù)中臺架構(gòu)书在。共分為五個大的功能組成。
數(shù)據(jù)采集拆又。為數(shù)據(jù)中臺提供匯集數(shù)據(jù)的能力儒旬,應(yīng)提供統(tǒng)一的數(shù)據(jù)獲取接入方式,數(shù)據(jù)來源包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)帖族,數(shù)據(jù)類型應(yīng)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集栈源。傳統(tǒng)的ETL工具仍然可以復(fù)用,實(shí)現(xiàn)數(shù)據(jù)采集竖般、轉(zhuǎn)換甚垦、加載等關(guān)鍵處理過程。采集方式上應(yīng)能支持對周期性接口文件的批量采集涣雕,對產(chǎn)生頻率高艰亮、實(shí)時性強(qiáng)的數(shù)據(jù)以數(shù)據(jù)流形式采集,針對企業(yè)外部互聯(lián)網(wǎng)數(shù)據(jù)挣郭,使用網(wǎng)頁爬蟲自動抓取的方式采集迄埃。
數(shù)據(jù)計算。為數(shù)據(jù)中臺提供統(tǒng)一的大數(shù)據(jù)計算能力丈屹,針對不同大數(shù)據(jù)處理場景调俘,所需提供的數(shù)據(jù)計算能力也不同,一般主要包括批量離線計算(如MapReduce)旺垒、內(nèi)存計算(如Spark彩库、Ignite)、在線流式計算(如Storm先蒋、Samza骇钦、Spark Streaming、S4)等竞漾。特別是人工智能技術(shù)的廣泛發(fā)展和應(yīng)用眯搭,基于大數(shù)據(jù)對機(jī)器學(xué)習(xí)算法模型的訓(xùn)練工具(如Mahout、Spark MLib业岁、Caffe鳞仙、Keras、TensorFlow)也可以歸為數(shù)據(jù)計算工具的類別笔时。
數(shù)據(jù)存儲棍好。數(shù)據(jù)中臺中全域數(shù)據(jù)的存儲中心,按照不同的數(shù)據(jù)類型,可以采用圖2中一種或多種數(shù)據(jù)存儲系統(tǒng)的“混搭”架構(gòu)借笙。傳統(tǒng)數(shù)據(jù)倉庫(如DB2/ORACLE/Teradata)是最為成熟穩(wěn)定的數(shù)據(jù)存儲方式扒怖,承載著及時性、準(zhǔn)確性要求高的企業(yè)核心應(yīng)用业稼。分布式關(guān)系數(shù)據(jù)庫盗痒,也常簡稱為MPP數(shù)據(jù)庫,相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫低散,具有高性能處理能力俯邓、高數(shù)據(jù)吞吐能力的優(yōu)勢。NoSQL分布式數(shù)據(jù)庫屬于非關(guān)系型數(shù)據(jù)庫管理系統(tǒng)熔号,在大數(shù)據(jù)簡單存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢看成。分布式文件系統(tǒng)(HDFS)是當(dāng)前最常見的大數(shù)據(jù)存儲方式,它具極高的性價比跨嘉,擴(kuò)展性強(qiáng)。數(shù)據(jù)湖作為一種新的存儲大量復(fù)雜格式數(shù)據(jù)吃嘿,避免企業(yè)數(shù)據(jù)孤島化的數(shù)據(jù)架構(gòu)方案祠乃,可用來將不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一聚合和存儲。
數(shù)據(jù)治理兑燥。亦稱之為數(shù)據(jù)資產(chǎn)管理亮瓷,指的是為了實(shí)現(xiàn)對企業(yè)中數(shù)據(jù)資產(chǎn)價值的獲取、管控降瞳、交付等目的嘱支,基于制定的數(shù)據(jù)規(guī)范,對數(shù)據(jù)資產(chǎn)所做的一系列管理活動挣饥。數(shù)據(jù)標(biāo)準(zhǔn)管理指對數(shù)據(jù)口徑除师、公共術(shù)語、參考數(shù)據(jù)扔枫、數(shù)據(jù)編碼等制定和實(shí)施標(biāo)準(zhǔn)化的管理活動汛聚。數(shù)據(jù)模型管理負(fù)責(zé)對系統(tǒng)中核心的邏輯模型、物理模型短荐、數(shù)據(jù)庫表倚舀、字段、視圖等進(jìn)行統(tǒng)一管控忍宋、促進(jìn)其規(guī)范化痕貌。元數(shù)據(jù)管理的作用是統(tǒng)一管理所有業(yè)務(wù)系統(tǒng)元數(shù)據(jù),包括業(yè)務(wù)元數(shù)據(jù)糠排、技術(shù)元數(shù)據(jù)舵稠、流程元數(shù)據(jù)和數(shù)據(jù)管理制度元數(shù)據(jù)。數(shù)據(jù)質(zhì)量管理,指運(yùn)用質(zhì)量管理技術(shù)稽核柱查、度量廓俭、評估和改進(jìn)數(shù)據(jù)的質(zhì)量水平。數(shù)據(jù)安全管理唉工,指通過制定和執(zhí)行數(shù)據(jù)安全政策和措施研乒,為數(shù)據(jù)提供的認(rèn)證、授權(quán)淋硝、審計等安全管理能力雹熬。
數(shù)據(jù)服務(wù)。包括了與業(yè)務(wù)相關(guān)的谣膳、可復(fù)用的一些公共技術(shù)組件或產(chǎn)品竿报,如數(shù)據(jù)目錄、數(shù)據(jù)標(biāo)簽继谚、數(shù)據(jù)分析烈菌、數(shù)據(jù)開放接口、機(jī)器學(xué)習(xí)算法模型等花履,它們可以使用SAAS方式直接對外提供服務(wù)芽世,也可以以更小粒度如API、消息接口诡壁、文件接口济瓢、服務(wù)接口、SDK軟件包等方式只提供組件能力或數(shù)據(jù)服務(wù)妹卿,內(nèi)部或外部第三方應(yīng)用不必關(guān)心底層數(shù)據(jù)準(zhǔn)備情況旺矾,直接調(diào)用數(shù)據(jù)服務(wù)模塊對外提供的服務(wù)接口,就可以方便進(jìn)行二次開發(fā)夺克,借以增強(qiáng)自身的能力箕宙。
以上五個功能部分中,數(shù)據(jù)采集懊直、數(shù)據(jù)計算扒吁、數(shù)據(jù)存儲三部分能力,企業(yè)已經(jīng)都有現(xiàn)成的一些積累室囊,不需要重復(fù)開發(fā)雕崩,只要合理規(guī)劃進(jìn)行統(tǒng)一,就很容易獲取和建設(shè)起來融撞。數(shù)據(jù)治理的能力盼铁,常常分散在各個支撐系統(tǒng)中,需要統(tǒng)一抽取出來尝偎,對以前考慮不全的內(nèi)容需要補(bǔ)充饶火。數(shù)據(jù)服務(wù)能力鹏控,則更多是與業(yè)務(wù)關(guān)聯(lián)的、復(fù)用性較好的應(yīng)用組件肤寝,需要企業(yè)長期提煉当辐、積累和優(yōu)化。
結(jié)語
大數(shù)據(jù)時代鲤看,數(shù)據(jù)常被比作石油缘揪,數(shù)據(jù)中臺的作用就是煉油廠。在沒有數(shù)據(jù)中臺的時候义桂,企業(yè)內(nèi)部找筝、外部數(shù)據(jù)不斷積累,數(shù)據(jù)采集方式多種多樣慷吊,數(shù)據(jù)計算袖裕、存儲方式各自為政,數(shù)據(jù)治理只限于某些業(yè)務(wù)條線或主題域內(nèi)數(shù)據(jù)溉瓶,數(shù)據(jù)服務(wù)方式也是五花八門急鳄,造成了企業(yè)內(nèi)部數(shù)據(jù)口徑、數(shù)據(jù)模型堰酿、參考數(shù)據(jù)攒岛、質(zhì)量標(biāo)準(zhǔn)、服務(wù)接口參差不齊胞锰,數(shù)據(jù)加工效率低下,極大制約了數(shù)據(jù)對應(yīng)用的支撐能力兢榨。有了數(shù)據(jù)中臺嗅榕,通過對海量數(shù)據(jù)進(jìn)行統(tǒng)一采集、計算吵聪、存儲凌那、治理,進(jìn)行標(biāo)準(zhǔn)化吟逝,形成對企業(yè)真正有價值的數(shù)據(jù)資產(chǎn)帽蝶,才能為上層大數(shù)據(jù)應(yīng)用提供高質(zhì)量的數(shù)據(jù)服務(wù)。數(shù)據(jù)中臺块攒,未來有望成為企業(yè)大數(shù)據(jù)核心能力掌控的重要抓手励稳。
來源:中國信息產(chǎn)業(yè)網(wǎng)