近期總是會(huì)從種種渠道看到關(guān)于數(shù)據(jù)中臺(tái)的推薦文章,Sorry我不是很了解吸占,我們先看看業(yè)界對(duì)中臺(tái)的普遍看法是什么晴叨。
數(shù)據(jù)中臺(tái):是指通過(guò)數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集矾屯、計(jì)算兼蕊、存儲(chǔ)、加工件蚕,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑孙技。數(shù)據(jù)中臺(tái)把數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù)排作,再進(jìn)行存儲(chǔ)牵啦,形成大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶(hù)提供高效服務(wù)妄痪。這些服務(wù)跟企業(yè)的業(yè)務(wù)有較強(qiáng)關(guān)聯(lián)性哈雏,是這個(gè)企業(yè)獨(dú)有且能復(fù)用的。
這就是數(shù)據(jù)中臺(tái)的普遍定義,首先強(qiáng)調(diào)的是數(shù)據(jù)技術(shù)裳瘪,然后是海量數(shù)據(jù)履因。意味著什么?數(shù)據(jù)中臺(tái)似乎是用大數(shù)據(jù)生態(tài)技術(shù)來(lái)解決業(yè)務(wù)對(duì)數(shù)據(jù)訴求的一種模式盹愚。
我嘗試著從網(wǎng)絡(luò)上搜索了一些關(guān)于中臺(tái)架構(gòu)的設(shè)計(jì)圖栅迄,下面是一個(gè)比較簡(jiǎn)單的例子〗耘拢看起來(lái)有四層架構(gòu)設(shè)計(jì)毅舆,數(shù)據(jù)采集、計(jì)算愈腾、服務(wù)和應(yīng)用憋活。
其實(shí)已經(jīng)算是比較容易讓人理解的了,至少比其他文章中要顯的簡(jiǎn)單易懂虱黄。
我們都知道目前使用數(shù)據(jù)中臺(tái)的都是哪些企業(yè)悦即?發(fā)起者:阿里巴巴,看過(guò)阿里的大數(shù)據(jù)之路的話橱乱,應(yīng)該比較能理解為什么阿里需要引用數(shù)據(jù)中臺(tái)的概念出來(lái)辜梳。
原因有很多,互聯(lián)網(wǎng)企業(yè)泳叠,數(shù)據(jù)產(chǎn)生的速度作瞄,體量都是中國(guó)企業(yè)的No.1,想用傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)來(lái)解決數(shù)據(jù)決策乃至對(duì)外提供服務(wù)么危纫?基本不可能宗挥?有什么業(yè)務(wù)部門(mén)能夠等IT兩周的時(shí)間去設(shè)計(jì),開(kāi)發(fā)种蝶,測(cè)試再上線契耿?基本上互聯(lián)網(wǎng)企業(yè)要求的時(shí)效性都是最高的,因?yàn)閿?shù)據(jù)的產(chǎn)生要服務(wù)于下一個(gè)業(yè)務(wù)環(huán)節(jié)螃征,任何多余的等待都是在影響企業(yè)盈利搪桂。基于此会傲,幾乎所有的中國(guó)互聯(lián)網(wǎng)企業(yè)都一股腦的奔向了數(shù)據(jù)中臺(tái)锅棕,試圖擁抱數(shù)據(jù)中臺(tái)來(lái)解決他們的問(wèn)題。
那么搭建數(shù)據(jù)中臺(tái)需要什么淌山?很顯然,互聯(lián)網(wǎng)企業(yè)需要的是大數(shù)據(jù)人才顾瞻,這也是為什么數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)中基本上都是Hadoop生態(tài)環(huán)境的產(chǎn)品組件泼疑,F(xiàn)link,Kafka荷荤,Strom退渗,ELK移稳,Spark Stream,MySQL等会油,國(guó)內(nèi)數(shù)據(jù)中臺(tái)的搭建首先想到的是擁有這批技能的專(zhuān)業(yè)人才个粱,那么他們是哪類(lèi)人才?程序員翻翩,沒(méi)錯(cuò)都许,我們口中所說(shuō)的Programer。
但是Programer != Modeler嫂冻,為什么數(shù)據(jù)倉(cāng)庫(kù)體系很少能夠給這類(lèi)互聯(lián)網(wǎng)企業(yè)帶來(lái)直接的盈利胶征?因?yàn)樽儸F(xiàn)太難了,互聯(lián)網(wǎng)企業(yè)業(yè)務(wù)變化日新月異桨仿,每天都可能有無(wú)數(shù)個(gè)idea出來(lái)睛低,業(yè)務(wù)部門(mén)想第一時(shí)間去嘗試,然后就有了數(shù)據(jù)中臺(tái)服傍,以大數(shù)據(jù)钱雷,實(shí)時(shí)分析,機(jī)器學(xué)期吹零,集群...等大數(shù)據(jù)基礎(chǔ)支撐起來(lái)的產(chǎn)品急波。
那么數(shù)據(jù)中臺(tái)是否仍有問(wèn)題?我猜是數(shù)據(jù)模型設(shè)計(jì)瘪校,看看上圖澄暮,ODS,DWS阱扬,DWD泣懊,ADS,沿用的是Kimball的維度設(shè)計(jì)理論麻惶,反范式化的模型設(shè)計(jì)馍刮,的確一定程度上讓復(fù)雜的業(yè)務(wù)數(shù)據(jù)在多種維度上進(jìn)行了統(tǒng)一,各個(gè)業(yè)務(wù)部門(mén)有了統(tǒng)一的維度模型窃蹋,數(shù)據(jù)更加規(guī)范卡啰;使用SQL Query效率更高,能夠以數(shù)據(jù)立方體的形式提供給決策部門(mén)有力的數(shù)據(jù)支持警没。這和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)思路一致匈辱,并沒(méi)有什么差別。
如果無(wú)法從模型角度解決適應(yīng)業(yè)務(wù)變化的方案杀迹,我相信數(shù)據(jù)中臺(tái)在未來(lái)一段時(shí)間內(nèi)仍有很多路要走亡脸。
個(gè)人理解,數(shù)據(jù)中臺(tái)也僅僅是構(gòu)建在大數(shù)據(jù)技術(shù)基礎(chǔ)之上,為了適應(yīng)業(yè)務(wù)快速發(fā)展變化浅碾,目標(biāo)是為了提供可復(fù)用的數(shù)據(jù)服務(wù)的一種方案大州,但是由于其模型理論上的缺陷,只能依靠技術(shù)去解決和適應(yīng)變化垂谢,未來(lái)一定是需要修正的厦画。它包含了部分的數(shù)據(jù)倉(cāng)庫(kù)的概念,但是與企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)仍有區(qū)別滥朱,從理論到技術(shù)根暑,再到應(yīng)用場(chǎng)景都有巨大的區(qū)別。
下篇文章焚虱,我們可以從數(shù)據(jù)模型角度出發(fā)购裙,討論一下企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該如何搭建。
歡迎批評(píng)指正鹃栽。