文:史凱
轉自:AI前線
數(shù)據(jù)中臺被譽為大數(shù)據(jù)的下一站,由阿里興起胰锌,核心思想是數(shù)據(jù)共享骗绕,并在 2018 年因為“騰訊數(shù)據(jù)中臺論”再度成為了人們談論的焦點。在 3 月 15 日 ThoughtWorks 技術雷達峰會上资昧,關于數(shù)據(jù)中臺的話題也獲得了眾多參會者的熱烈關注酬土。如今似乎人人都在提數(shù)據(jù)中臺,但卻不是所有人都清楚數(shù)據(jù)中臺到底意味著什么格带。數(shù)據(jù)中臺是只有大廠才需要考慮的高大上的概念嗎撤缴?普通企業(yè)該不該做數(shù)據(jù)中臺?數(shù)據(jù)中臺的出現(xiàn)會給現(xiàn)有數(shù)據(jù)從業(yè)者們帶來顛覆式的挑戰(zhàn)嗎叽唱?帶著上述問題屈呕,InfoQ 在技術雷達峰會上采訪了 ThoughtWorks 數(shù)據(jù)和智能總監(jiān)史凱,談談他對于數(shù)據(jù)中臺的看法棺亭。
?數(shù)據(jù)中臺不是大數(shù)據(jù)平臺虎眨!
首先它不是一個平臺,也不是一個系統(tǒng),如果有廠商說他們有個數(shù)據(jù)中臺賣給你,對不起馅精,它是個騙子龄恋。
要回答數(shù)據(jù)中臺是什么,首先要探討一下中臺到底是什么。雖然沒有明確的定義,但是作為理工直男,我們可以先把中臺看作是一種中間層扑庞。既然是一種中間層,那么中臺確實是一種十足技術用語拒逮,我們可以完全從技術角度來探討了罐氨。
我們可以應用 Gartner 的 Pace Layer 來理解為什么要有中間層,這樣可以更好地理解中臺的定位和價值滩援。Pace Layer 里提到岂昭,可以按照事物變化的速度來分層,這樣可以逐層分析并設計合理的邊界與服務狠怨。
在數(shù)據(jù)開發(fā)中约啊,核心數(shù)據(jù)模型的變化是相對緩慢的,同時佣赖,對數(shù)據(jù)進行維護的工作量也非常大恰矩;但業(yè)務創(chuàng)新的速度、對數(shù)據(jù)提出的需求的變化憎蛤,是非惩飧担快速的纪吮。
數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應用開發(fā)之間萎胰,由于開發(fā)速度不匹配碾盟,出現(xiàn)的響應力跟不上的問題。
數(shù)據(jù)中臺解決的問題可以總結為如下三點:
效率問題:為什么應用開發(fā)增加一個報表技竟,就要十幾天時間冰肴?為什么不能實時獲得用戶推薦清單?當業(yè)務人員對數(shù)據(jù)產(chǎn)生一點疑問的時候榔组,需要花費很長的時間熙尉,結果發(fā)現(xiàn)是數(shù)據(jù)源的數(shù)據(jù)變了,最終影響上線時間搓扯。
協(xié)作問題:當業(yè)務應用開發(fā)的時候检痰,雖然和別的項目需求大致差不多,但因為是別的項目組維護的锨推,所以數(shù)據(jù)還是要自己再開發(fā)一遍铅歼。
能力問題:數(shù)據(jù)的處理和維護是一個相對獨立的技術,需要相當專業(yè)的人來完成换可,但是很多時候谭贪,我們有一大把的應用開發(fā)人員,而數(shù)據(jù)開發(fā)人員很少锦担。
這三類問題都會導致應用開發(fā)團隊變慢。這就是中臺的關鍵——讓前臺開發(fā)團隊的開發(fā)速度不受后臺數(shù)據(jù)開發(fā)的影響慨削。
史凱總結說洞渔,“數(shù)據(jù)中臺是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務缚态,提供給前臺以業(yè)務價值的邏輯概念”磁椒。
如下圖所示:
DData API 是數(shù)據(jù)中臺的核心,它是連接前臺和后臺的橋梁玫芦,通過 API 的方式提供數(shù)據(jù)服務浆熔,而不是直接把數(shù)據(jù)庫給前臺、讓前臺開發(fā)自行使用數(shù)據(jù)桥帆。至于產(chǎn)生 DataAPI 的過程医增,怎么樣讓 DataAPI 產(chǎn)生得更快,怎么樣讓 DATA API 更加清晰老虫,怎么樣讓 DATA API 的數(shù)據(jù)質量更好叶骨,這些是要圍繞數(shù)據(jù)中臺去構建的能力。
數(shù)據(jù)中臺和數(shù)據(jù)倉庫祈匙、數(shù)據(jù)平臺的關鍵區(qū)別
這是現(xiàn)在數(shù)據(jù)行業(yè)大家經(jīng)常討論的問題忽刽,到底數(shù)據(jù)倉庫天揖、數(shù)據(jù)平臺和數(shù)據(jù)中臺的區(qū)別是什么。
概括地說跪帝,三者的關鍵區(qū)別有以下幾方面:
數(shù)據(jù)中臺是企業(yè)級的邏輯概念今膊,體現(xiàn)企業(yè) D2V(Data to Value)的能力,為業(yè)務提供服務的主要方式是數(shù)據(jù) API伞剑;
數(shù)據(jù)倉庫是一個相對具體的功能概念斑唬,是存儲和管理一個或多個主題數(shù)據(jù)的集合,為業(yè)務提供服務的方式主要是分析報表纸泄;
數(shù)據(jù)平臺是在大數(shù)據(jù)基礎上出現(xiàn)的融合了結構化和非結構化數(shù)據(jù)的數(shù)據(jù)基礎平臺赖钞,為業(yè)務提供服務的方式主要是直接提供數(shù)據(jù)集;
數(shù)據(jù)中臺距離業(yè)務更近聘裁,為業(yè)務提供速度更快的服務雪营;
數(shù)據(jù)倉庫是為了支持管理決策分析,而數(shù)據(jù)中臺則是將數(shù)據(jù)服務化之后提供給業(yè)務系統(tǒng)衡便,不僅限于分析型場景献起,也適用于交易型場景;
數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上镣陕,是加速企業(yè)從數(shù)據(jù)到業(yè)務價值的過程的中間層谴餐。
數(shù)據(jù)倉庫具有歷史性,其中存儲的數(shù)據(jù)大多是結構化數(shù)據(jù)呆抑,這些數(shù)據(jù)并非企業(yè)全量數(shù)據(jù)岂嗓,而是根據(jù)需求針對性抽取的,因此數(shù)據(jù)倉庫對于業(yè)務的價值是各種各樣的報表鹊碍,但這些報表又無法實時產(chǎn)生厌殉。數(shù)據(jù)倉庫報表雖然能夠提供部分業(yè)務價值,但不能直接影響業(yè)務侈咕。
數(shù)據(jù)平臺的出現(xiàn)是為了解決數(shù)據(jù)倉庫不能處理非結構化數(shù)據(jù)和報表開發(fā)周期長的問題公罕,所以先撇開業(yè)務需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起耀销,成為一個大的數(shù)據(jù)集楼眷,其中有結構化數(shù)據(jù)、非結構化數(shù)據(jù)等熊尉。當業(yè)務方有需求的時候罐柳,再把他們需要的若干個小數(shù)據(jù)集單獨提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應用狰住。
而數(shù)據(jù)中臺是在數(shù)據(jù)倉庫和數(shù)據(jù)平臺的基礎上硝清,將數(shù)據(jù)生產(chǎn)為為一個個數(shù)據(jù) API 服務,以更高效的方式提供給業(yè)務转晰。
數(shù)據(jù)中臺應該具備什么能力芦拿?
大數(shù)據(jù)和人工智能大火之后這幾年士飒,很多人一直在提一個說法,那就是“數(shù)據(jù)是新的石油”蔗崎。但史凱的觀點卻有些不同酵幕,在他看來,數(shù)據(jù)不等于數(shù)據(jù)資產(chǎn)缓苛,如果沒有從業(yè)務的角度對數(shù)據(jù)進行規(guī)劃芳撒,再多的數(shù)據(jù)也無法產(chǎn)生價值。
史凱認為數(shù)據(jù)中臺最核心的一個關鍵組件是數(shù)據(jù)資產(chǎn)目錄未桥”噬玻“我們認為,一個企業(yè)的數(shù)據(jù)要能夠充分發(fā)揮價值冬耿,很重要的一個前提條件就是這個企業(yè)的數(shù)據(jù)結構和數(shù)據(jù)資產(chǎn)目錄是對整個企業(yè)開放的舌菜。所有人都能夠通過這個資產(chǎn)目錄了解公司有哪些類別的數(shù)據(jù)、包含什么屬性亦镶、源數(shù)據(jù)由誰管理日月,這樣就可以快速搞清楚這些數(shù)據(jù)是不是自己需要的。但數(shù)據(jù)本身可以不開放缤骨,因為數(shù)據(jù)是有隱私信息和安全級別的爱咬。”
大企業(yè)內部業(yè)務眾多绊起,不同業(yè)務可能存在很多重復數(shù)據(jù)精拟。所謂的數(shù)據(jù)資產(chǎn)目錄就是把數(shù)據(jù)的模型去重、歸一虱歪、梳理蜂绎,變成一個樹狀結構,這個樹狀結構不直接對應數(shù)據(jù)庫中的字段实蔽。以航空貨運為例,其數(shù)據(jù)資產(chǎn)可能包括貨機谨读、客運機的輔艙局装,一架貨機就是一個數(shù)據(jù)資產(chǎn)目錄的節(jié)點,而貨機的各種屬性(如貨機型號劳殖、空間大小铐尚、年份等)就是這個節(jié)點下面的數(shù)據(jù)模型。數(shù)據(jù)資產(chǎn)目錄做的事情就是從業(yè)務層面出發(fā)制定數(shù)據(jù)標準哆姻,將企業(yè)業(yè)務相關的數(shù)據(jù)資產(chǎn)模型抽取出來宣增,這跟后面用什么數(shù)據(jù)庫去存儲、用什么結構去存儲矛缨、存成結構化還是非結構化都沒有關系爹脾。它相當于把企業(yè)的業(yè)務從數(shù)據(jù)層面做了一個梳理帖旨,用數(shù)據(jù)的語言把企業(yè)的業(yè)務模型還原出來。數(shù)據(jù)資產(chǎn)目錄做好之后灵妨,后面才是用什么技術手段解阅、從哪里提取數(shù)據(jù)來映射到這個數(shù)據(jù)資產(chǎn)目錄。
除了開放泌霍,數(shù)據(jù)資產(chǎn)目錄還應該具有標簽描述货抄、可檢索,這樣才能最大程度地方便真正使用數(shù)據(jù)的人朱转,以最快的速度找到他們需要的東西蟹地。
在 ThoughtWorks 提出的精益數(shù)據(jù)創(chuàng)新體系中將企業(yè)所需要具備的數(shù)據(jù)能力概括為以下六種,具備了這六種能力藤为,企業(yè)才具備成為數(shù)據(jù)驅動的智能企業(yè)的基礎怪与,而這些能力的承載平臺,就是數(shù)據(jù)中臺:
- 數(shù)據(jù)資產(chǎn)的規(guī)劃和治理
做中臺之前凉蜂,首先需要知道業(yè)務價值是什么琼梆,從業(yè)務角度去思考企業(yè)的數(shù)據(jù)資產(chǎn)是什么。數(shù)據(jù)資產(chǎn)不等同于數(shù)據(jù)窿吩,數(shù)據(jù)資產(chǎn)是唯一的茎杂,能為業(yè)務產(chǎn)生價值的數(shù)據(jù)。 對于同一堆數(shù)據(jù)纫雁,不同業(yè)務部門所關注的數(shù)據(jù)指標可能完全不同煌往,怎么讓各個跨域的業(yè)務變成統(tǒng)一的標準,就需要規(guī)劃企業(yè)的數(shù)據(jù)全景圖轧邪,將所有有可能用上的刽脖、所有對企業(yè)有可能有價值的數(shù)據(jù)都規(guī)劃出來,最終梳理出企業(yè)的數(shù)據(jù)資產(chǎn)目錄忌愚。在這個時候不需要考慮有沒有系統(tǒng)曲管、有沒有數(shù)據(jù),只需要關注哪些數(shù)據(jù)是對企業(yè)業(yè)務有價值的硕糊。這一層不建議做得太細院水,太細就難以形成標準,不能適用于多個場景了简十。數(shù)據(jù)治理是數(shù)據(jù)中臺很重要的一個領域檬某,ThoughtWorks 認為在現(xiàn)在業(yè)務邊界消失、需求快速變化的情況下螟蝙,企業(yè)需要具備精益數(shù)據(jù)治理的能力——Lean Data Governance恢恼。傳統(tǒng)的中心化、事前控制式的數(shù)據(jù)治理方式胰默,要改變?yōu)槿ブ行幕“摺⑹潞蠓帐降闹卫矸绞健?/p>
- 數(shù)據(jù)資產(chǎn)的獲取和存儲
數(shù)據(jù)中臺要為企業(yè)提供強大的數(shù)據(jù)資產(chǎn)的獲取和存儲的能力漓踢。
3. 數(shù)據(jù)的共享和協(xié)作
企業(yè)的數(shù)據(jù)中臺一定是跨域的,需要讓所有的人都知道數(shù)據(jù)資產(chǎn)目錄在哪里和簸。不能因為數(shù)據(jù)安全彭雾,就不讓大家知道企業(yè)有什么數(shù)據(jù)。沒有共享和開放锁保,數(shù)據(jù)沒有辦法流動起來薯酝,沒有流動的話數(shù)據(jù)的價值產(chǎn)生的速度就會非常慢。所以在數(shù)據(jù)安全的基礎上爽柒,企業(yè)的數(shù)據(jù)資產(chǎn)目錄要對利益相關者吴菠、價值創(chuàng)造者開放,要讓業(yè)務人員能夠做到“Self-Service”浩村。
4. 業(yè)務價值的探索和分析
數(shù)據(jù)中臺不僅要建立到源數(shù)據(jù)的通路做葵,還需要提供分析數(shù)據(jù)的工具和能力,幫助業(yè)務人員去探索和發(fā)現(xiàn)數(shù)據(jù)的業(yè)務價值心墅。一個好的數(shù)據(jù)中臺解決方案中需要針對不同業(yè)務崗位的用戶提供個性化的數(shù)據(jù)探索和分析的工具酿矢,并且在此基礎上一鍵生成數(shù)據(jù) API,以多樣化的方式提供給前臺系統(tǒng)怎燥。
- 數(shù)據(jù)服務的構建和治理
數(shù)據(jù)中臺需要保證數(shù)據(jù)服務的性能和穩(wěn)定性瘫筐,以及數(shù)據(jù)質量和準確性,還需要具備強大的服務治理能力铐姚。數(shù)據(jù)中臺是一個生態(tài)平臺策肝,在數(shù)據(jù)中臺上面會不斷生長各種數(shù)據(jù)服務,所以從一開始就構建好數(shù)據(jù)服務的治理結構是非常重要的隐绵,數(shù)據(jù)服務需要可以被記錄之众、可被跟蹤、可被審計依许、可被監(jiān)控棺禾。
- 數(shù)據(jù)服務的度量和運營
如果數(shù)據(jù)中臺最終只是做到把數(shù)據(jù)給到業(yè)務人員,那它就只是一個搬運工的角色峭跳。數(shù)據(jù)中臺還需要具備度量和運營數(shù)據(jù)服務的能力膘婶,能夠對中臺上提供的數(shù)據(jù)服務及相關行為持續(xù)跟蹤和記錄,包括哪些數(shù)據(jù)服務被哪個部門用了多少次等坦康,通過這些去度量每一個數(shù)據(jù)服務的業(yè)務價值竣付。
史凱認為诡延,數(shù)據(jù)中臺是一個需要用互聯(lián)網(wǎng)思維去經(jīng)營的利潤中心平臺滞欠,數(shù)據(jù)中臺的經(jīng)營分析人員需要分析業(yè)務,了解為什么今天上午這個財務部門的人用了數(shù)據(jù)中臺肆良、調用了十次筛璧,下午他不用了逸绎,原因是什么,調用了這些數(shù)據(jù)服務的人通常還會調用哪些其他的數(shù)據(jù)服務夭谤。這些都需要相應地做記錄棺牧、做日志、做分析朗儒,要把數(shù)據(jù)當做像電商平臺一樣去經(jīng)營颊乘,然后實時地根據(jù)這些業(yè)務行為數(shù)據(jù)去提醒數(shù)據(jù)服務提供方,調整醉锄、改變乏悄、優(yōu)化數(shù)據(jù)服務,這才是可經(jīng)營的數(shù)據(jù)中臺恳不,也只有這樣業(yè)務部門才能得到最快的支持和響應檩小。
為什么人人都需要數(shù)據(jù)中臺?
數(shù)據(jù)中臺并非只有大公司才需要的高大上的玩意烟勋。
ThoughtWorks 從 2017 年到現(xiàn)在规求,已經(jīng)幫助多家大型國內外企業(yè)建設數(shù)據(jù)中臺,其中有體量巨大的企業(yè)級數(shù)據(jù)中臺卵惦,也有部門級的小數(shù)據(jù)中臺阻肿。
“未來所有的企業(yè)核心都會變成加工數(shù)據(jù)的企業(yè),而數(shù)據(jù)中臺是數(shù)據(jù)價值化的加工廠鸵荠,所以所有的企業(yè)都需要數(shù)據(jù)中臺的能力冕茅,數(shù)據(jù)中臺一定是未來每個企業(yè)的標準配置∮颊遥”
在史凱看來姨伤,數(shù)據(jù)中臺并不意味著“大而全”的數(shù)據(jù)平臺。根據(jù)企業(yè)的規(guī)模和業(yè)務的不同庸疾,數(shù)據(jù)中臺可大可小乍楚,規(guī)模、復雜度可能都不相同届慈,但它對業(yè)務產(chǎn)生的價值是一樣的徒溪。
當企業(yè)評估自己是否應該建設數(shù)據(jù)中臺時,應該從哪些方面來考慮金顿?史凱認為臊泌,從戰(zhàn)略角度來說,每個企業(yè)都需要建立自己的數(shù)據(jù)中臺揍拆;從戰(zhàn)術角度來說渠概,當企業(yè)發(fā)現(xiàn)自己的數(shù)據(jù)開發(fā)利用的速度和應用開發(fā)的速度不匹配的時候,就需要考慮構建數(shù)據(jù)中臺。
原來很多企業(yè)在做應用系統(tǒng)的時候播揪,什么都不考慮直接上單體架構贮喧,一上來就先做數(shù)據(jù)庫,然后在上面建應用猪狈。ThoughtWorks 建議現(xiàn)在的企業(yè)箱沦,即使不做數(shù)據(jù)中臺、不去立一個叫做“數(shù)據(jù)中臺”的項目雇庙,但是在做應用的時候谓形,最好把這個應用分成三層,業(yè)務層疆前、數(shù)據(jù)中臺層套耕、源數(shù)據(jù)層,在一開始做應用的時候就把三個層次抽象出來峡继。
數(shù)據(jù)質量差所以做不了數(shù)據(jù)中臺冯袍?No!
歷史遺留的數(shù)據(jù)質量問題經(jīng)常讓大家對數(shù)據(jù)的利用和價值產(chǎn)生質疑碾牌。2018 年康愤,史凱在與不同企業(yè)溝通過程中經(jīng)常聽到的一句話就是,“我們現(xiàn)在還沒有到利用數(shù)據(jù)這一步舶吗,因為(應用系統(tǒng)中的)數(shù)據(jù)質量太差”征冷。
每次聽到這句話,史凱腦子里就好像聽到了另外一句話誓琼,“還沒到培養(yǎng)孩子的時候啊检激,孩子太小了”。
不能因為數(shù)據(jù)質量差腹侣,就不去利用數(shù)據(jù)叔收。恰恰是因為沒有去做后面的事情,所以數(shù)據(jù)質量才差傲隶。而且也不能因為數(shù)據(jù)質量差就拋開業(yè)務場景饺律、試圖全面解決數(shù)據(jù)質量的問題,這樣得不到業(yè)務部門的支持跺株,也無法從數(shù)據(jù)工作中產(chǎn)生業(yè)務價值复濒。所以 ThoughtWorks 建議的恰恰是利用做應用、做業(yè)務的需求乒省,同步解決數(shù)據(jù)質量問題巧颈。
史凱認為,數(shù)據(jù)質量問題袖扛,根本上是在構建應用之初缺乏整體數(shù)據(jù)規(guī)劃和數(shù)據(jù)思維導致的問題砸泛。原來的流程類應用構建之初,只考慮了如何讓流程跑起來,缺乏對這個應用在整個企業(yè)的數(shù)據(jù)全景圖(Data Landscape)中的定位的分析晾嘶,沒有從源頭上優(yōu)化數(shù)據(jù)的存儲、流轉娶吞,從而更好地與其他的系統(tǒng)中的數(shù)據(jù)去對齊口徑垒迂、統(tǒng)一語言,將流程問題抽象成領域模型問題妒蛇,再將領域模型抽象成數(shù)據(jù)模型机断。
建設數(shù)據(jù)中臺的挑戰(zhàn)及應對策略
建設數(shù)據(jù)中臺最大的挑戰(zhàn)在于前期能否從業(yè)務層面梳理清楚有業(yè)務價值的場景老充,以及數(shù)據(jù)全景圖州藕,而不僅在于后期的技術建設。
數(shù)據(jù)中臺建設面臨的挑戰(zhàn)包括:
梳理業(yè)務場景:搞清楚數(shù)據(jù)中臺如何對業(yè)務產(chǎn)生價值浓领。
建設數(shù)據(jù)中臺的優(yōu)先級策略:需求可能大而全陶耍,但我們不能直接建大而全的數(shù)據(jù)中臺奋蔚,應該根據(jù)業(yè)務重要性來排需求的優(yōu)先級。
-
數(shù)據(jù)治理問題:和業(yè)務獨立開的數(shù)據(jù)治理少有成功的烈钞,大的數(shù)據(jù)標準要有(數(shù)據(jù)資產(chǎn)目錄)泊碑,通過數(shù)據(jù)資產(chǎn)目錄將共有的緯度、共性的業(yè)務模型提煉出來毯欣,在此基礎之上數(shù)據(jù)治理需要跟業(yè)務場景緊密結合馒过。
數(shù)據(jù)中臺的建設需要兩個戰(zhàn)略耐心
數(shù)據(jù)中臺是為了加快從數(shù)據(jù)到業(yè)務價值的產(chǎn)生速度,但是它的生產(chǎn)過程依然是需要時間酗钞、有很多復雜的工作要做的腹忽,所以對于數(shù)據(jù)中臺的投資方和數(shù)據(jù)中臺的建設方來講,都需要對應的戰(zhàn)略耐心砚作。
對于投資方來講窘奏,要充分認識到數(shù)據(jù)中臺類項目的價值和局限性。在現(xiàn)在的組織結構和技術成熟度下葫录,數(shù)據(jù)中臺依舊是一個技術平臺蔼夜,對于業(yè)務價值的產(chǎn)生是一個加速的過程。但是業(yè)務對于數(shù)據(jù)的需求不會因為有了數(shù)據(jù)中臺就減少压昼,數(shù)據(jù)中臺也不是哆啦 A 夢求冷,不能隨心所欲地變出各種業(yè)務想要的服務。這依然是一個需要統(tǒng)籌規(guī)劃窍霞、敏捷迭代匠题、演進建設的系統(tǒng)性工程,所以需要要管理好期望但金,有一定的戰(zhàn)略耐心韭山。
-
對于建設方來講,要充分認識到數(shù)據(jù)中臺建設的復雜度,不要操之過急钱磅,不要期待畢其功于一役梦裂。史凱的建議是要從小中臺做起,圍繞具體有價值的業(yè)務場景去建設盖淡,盡量不脫離場景去搞周期長年柠、大而全的純工具平臺建設。
數(shù)據(jù)中臺也可以小而美
建設數(shù)據(jù)中臺的關鍵考量包括兩方面褪迟。
首先數(shù)據(jù)中臺一定要與業(yè)務價值對齊冗恨。構建數(shù)據(jù)中臺,最重要的不是技術味赃,也不是數(shù)據(jù)質量好不好掀抹,而是數(shù)據(jù)思維和數(shù)據(jù)文化。數(shù)據(jù)思維就是要建立起從數(shù)據(jù)的視角去思考問題的方式心俗;數(shù)據(jù)文化就是要把數(shù)據(jù)和業(yè)務當成一體去看傲武,而不是只將數(shù)據(jù)當作一個支持工具。想清楚業(yè)務對于數(shù)據(jù)的訴求是構建數(shù)據(jù)中臺的第一步城榛,哪怕暫時不能想的太細谱轨,也要去想,想不清楚就先不要做吠谢。
不要在業(yè)務場景還沒有明確土童、優(yōu)先級還不清晰、價值度量體系尚未建立起來的時候工坊,就建立大而全的數(shù)據(jù)平臺献汗,并且把所有的數(shù)據(jù)都存起來。企業(yè)都是追求投入產(chǎn)出比的王污,大而全的數(shù)據(jù)平臺往往會面臨尷尬的局面罢吃,一堆功能看上去很有用,應該都能用上昭齐,但是缺乏應用場景尿招,真的有了場景,發(fā)現(xiàn)也不能開箱即用阱驾,還需要眾多的定制化就谜。
其次,數(shù)據(jù)中臺應該從小數(shù)據(jù)里覆、小場景做起丧荐。
數(shù)據(jù)中臺是面向場景而非面向技術的,這種與客戶的業(yè)務喧枷、企業(yè)的結構和信息化發(fā)展階段有著緊密的相關性的業(yè)務基礎架構虹统,是很難買一個大而全的產(chǎn)品來一勞永逸解決的弓坞。
可以通過下面這個圖來解釋構建中臺的原則:
一開始的時候需要頂層設計,面向業(yè)務愿景制定中臺的整體規(guī)劃车荔,全面的梳理數(shù)據(jù)創(chuàng)新全景藍圖渡冻,這就是上圖左邊的黑色框架部分,通過業(yè)務愿景驅動出所有的業(yè)務場景探索忧便,從而推導出數(shù)據(jù)中臺的全景架構族吻、技術支撐。
但是在實施的時候茬腿,要從具體的業(yè)務場景出發(fā)。從高價值數(shù)據(jù)集場景做起宜雀,然后順著這個場景豎切切平,找到數(shù)據(jù)全景圖中的一個或多個數(shù)據(jù)集合,從小數(shù)據(jù)場景落地辐董,這樣才能快速驗證價值悴品。大處思考,全局拉通简烘,避免后續(xù)的數(shù)據(jù)孤島苔严,但是從小數(shù)據(jù)集切入,從可實現(xiàn)性高的場景啟動孤澎。然后一個個的場景做起來届氢,業(yè)務價值和中臺能力也就同步建立起來了。
總的來講就是覆旭,“設計階段橫著走退子,落地階段豎著切⌒徒”
數(shù)據(jù)中臺團隊和技術選型
數(shù)據(jù)中臺團隊通常需要包含以下角色:
業(yè)務專家團隊:了解業(yè)務寂祥、梳理業(yè)務場景,確定數(shù)據(jù)資產(chǎn)與業(yè)務場景的一一對應關系七兜,確定業(yè)務場景的優(yōu)先級丸凭,為數(shù)據(jù)中臺的建設提供依據(jù)。
數(shù)據(jù)工程團隊:建設和維護數(shù)據(jù)中臺腕铸,包括 ETL惜犀、數(shù)據(jù)采集,以及數(shù)據(jù)中臺性能和穩(wěn)定性保證狠裹,利用中臺的工具采集向拆、存儲、加工酪耳、處理數(shù)據(jù)浓恳。
數(shù)據(jù)分析團隊:分析數(shù)據(jù)價值刹缝、探索場景,生產(chǎn)更多的數(shù)據(jù)服務颈将。
數(shù)據(jù)治理團隊:梳理數(shù)據(jù)標準梢夯、構件數(shù)據(jù)安全和隱私規(guī)范,利用開源去中心化的數(shù)據(jù)治理工具(比如 atlas晴圾、wherehows)來圍繞業(yè)務場景解決數(shù)據(jù)質量和安全問題颂砸。
智能算法團隊:為數(shù)據(jù)分析、業(yè)務探索提供智能和算法工具死姚。
而這樣的一個團隊的工作就構成了一個數(shù)據(jù)生產(chǎn)線人乓,一個從數(shù)據(jù)到業(yè)務服務的數(shù)據(jù)服務工廠,這個工廠有生產(chǎn)車間(Data Pipeline)都毒、研發(fā)中心(數(shù)據(jù)實驗室)色罚、管理辦公室(數(shù)據(jù)治理),還有產(chǎn)品展示中心(數(shù)據(jù)服務商店)账劲。
數(shù)據(jù)工廠是一個邏輯概念戳护,不是一個大而全的產(chǎn)品,ThoughtWorks 結合過去幾年的實踐給出了一個數(shù)據(jù)工廠組件選型的參考架構瀑焦,這些推薦的架構和組件腌且,很多都體現(xiàn)在過去 ThoughtWorks 推出的技術雷達中并進行了詳細解釋,如下:
數(shù)據(jù)中臺的出現(xiàn)對于現(xiàn)有數(shù)據(jù)團隊的挑戰(zhàn)
前面已經(jīng)提到榛瓮,數(shù)據(jù)中臺是企業(yè)的 Data API 工廠铺董,用更高效、更協(xié)同的方式加快從數(shù)據(jù)到業(yè)務的價值禀晓,能夠給業(yè)務提供更高的響應力柄粹。所以數(shù)據(jù)中臺距離業(yè)務更近,這對于傳統(tǒng)企業(yè)的數(shù)據(jù)業(yè)務來講匆绣,是一個重大的變化驻右,同時給原來的數(shù)據(jù)團隊也會帶來巨大的挑戰(zhàn)。
1. 對數(shù)據(jù)分析人員的業(yè)務要求提高了
企業(yè)傳統(tǒng)的數(shù)據(jù)工作和業(yè)務工作分工明確崎淳、界限清晰堪夭,業(yè)務人員負責業(yè)務需求,提出業(yè)務問題拣凹,并將業(yè)務問題拆解成一個個清晰的數(shù)據(jù)問題森爽,然后數(shù)據(jù)工程師和數(shù)據(jù)分析師在這個清晰的問題下解題。
但是嚣镜,在數(shù)據(jù)中臺出現(xiàn)后爬迟,數(shù)據(jù)中臺是一個賦能平臺,它會沉淀菊匿、提供很多數(shù)據(jù)分析工具和數(shù)據(jù)服務付呕,能夠讓不具備專業(yè)數(shù)據(jù)能力的業(yè)務人員也可以進行一些簡單的數(shù)據(jù)分析计福,產(chǎn)生業(yè)務的洞察。這就意味著在數(shù)據(jù)中臺的支持下徽职,相對簡單清晰的業(yè)務問題會更多的由業(yè)務人員自己解決掉象颖,那么傳遞到專業(yè)數(shù)據(jù)人員的問題,都會是更加復雜的問題姆钉。這對于數(shù)據(jù)人員的業(yè)務理解能力就加強了说订,他 / 她們必須具備快速理解業(yè)務的能力,才能夠體現(xiàn)出專業(yè)性和優(yōu)勢潮瓶。
2. 對于數(shù)據(jù)人員的工程能力要求提高了
原來的數(shù)據(jù)分析工作屬于個體工作方式陶冷,每一個數(shù)據(jù)科學家、數(shù)據(jù)分析師就是一個獨立的工作單元毯辅,業(yè)務部門給出業(yè)務問題埂伦,他們通過自己擅長熟悉的工具和方法給出結果。但是在數(shù)據(jù)中臺出現(xiàn)后悉罕,他們一方面獲得了更多數(shù)據(jù)分析的武器和工具赤屋,能夠站在前人的基礎上工作立镶,提高了效率和準確度壁袄,另外一方面,他們也需要掌握更多的平臺化的數(shù)據(jù)分析工具媚媒,比如 Jupyter Notebook嗜逻,同時也被要求能夠把自己分析的結果轉化成數(shù)據(jù)服務,沉淀到中臺缭召。
3. 數(shù)據(jù)團隊需要具備更多的業(yè)務視角
原來的數(shù)據(jù)分析團隊是一個功能型團隊栈顷,更多以數(shù)據(jù)智囊團的身份存在。大部分情況下嵌巷,距離業(yè)務比較遠萄凤,更不要提對業(yè)務的結果負責。而在數(shù)據(jù)中臺出現(xiàn)后搪哪,數(shù)據(jù)中臺距離業(yè)務會越來越近靡努,甚至直接影響和參與業(yè)務的運行,數(shù)據(jù)團隊將慢慢脫離數(shù)據(jù)智囊團的身份晓折,逐漸從后臺走向前臺惑朦,直接負責一個個數(shù)據(jù)服務,而這些數(shù)據(jù)服務是會直接參與到業(yè)務當中漓概、產(chǎn)生業(yè)務價值的漾月。這樣的定位變化,要求數(shù)據(jù)團隊具備更多的業(yè)務視角胃珍,要更關注業(yè)務價值梁肿,直接對齊企業(yè)的業(yè)務目標去工作蜓陌。
所以,數(shù)據(jù)中臺的出現(xiàn)栈雳,不僅是一個技術平臺护奈,它對于企業(yè)而言是一個系統(tǒng)化的工作,企業(yè)數(shù)據(jù)相關的流程哥纫、職責霉旗、分工都要有對應的調整,才能達成整體的目標蛀骇。
數(shù)據(jù)中臺 VS 數(shù)據(jù)隱私
對于數(shù)據(jù)中臺來說厌秒,數(shù)據(jù)隱私和安全性也是非常重要的問題∩勉荆可能很多人還記得前些日子馬化騰針對“騰訊數(shù)據(jù)中臺論”的回應鸵闪。去年騰訊組織架構調整進程中實現(xiàn)了技術打通,而對數(shù)據(jù)打通保持謹慎態(tài)度暑诸。馬化騰在 18 年 11 月的世界互聯(lián)網(wǎng)大會上回應“數(shù)據(jù)中臺論”:“騰訊不能套用很多其他公司的做法蚌讼,把數(shù)據(jù)直接去任意打通。因為在我們的平臺里面个榕,大量全部都是人和人之間的通信篡石、社交行為數(shù)據(jù),如果說數(shù)據(jù)可以任意打通西采,給公司業(yè)務部門或者給外部的客戶用凰萨,那是會帶來災難性的后果。這方面我們要更加謹慎械馆,我們要從用戶的角度來考慮胖眷,把個人信息和數(shù)據(jù)保護放在優(yōu)先地位∨椋”很多人將這解讀為騰訊不做數(shù)據(jù)中臺珊搀,史凱卻不這么認為。
在他看來尾菇,騰訊的回應并不是說他們不做數(shù)據(jù)中臺境析,而是強調要在數(shù)據(jù)隱私上做更多的工作。其實所有的數(shù)據(jù)安全和隱私的保護都需要從場景出發(fā)错沽。史凱認為簿晓,“不能從純數(shù)據(jù)層面來看數(shù)據(jù)隱私,數(shù)據(jù)隱私是不能脫離場景的”千埃。如果純粹從數(shù)據(jù)層面憔儿,而不從業(yè)務場景層面去管理數(shù)據(jù)隱私,就會帶來兩方面的問題放可,要么數(shù)據(jù)被管理的非常死谒臼,阻礙了業(yè)務價值的產(chǎn)生朝刊;要么數(shù)據(jù)隱私管理就會有漏洞。
史凱舉了一個例子蜈缤,比如我們講的用戶交易數(shù)據(jù)拾氓,如果不關聯(lián)用戶基本信息,交易數(shù)據(jù)本身對于用戶來說是不具備隱私風險的底哥,因為它不關聯(lián)到任何一個用戶個體咙鞍。所以,是可以對脫敏后的用戶交易數(shù)據(jù)進行分析和利用的趾徽。
另一方面续滋,如果脫離場景談數(shù)據(jù)隱私,也可能會導致忽略了潛在的安全問題孵奶。有時候如果不把場景關聯(lián)起來疲酌,可能兩個數(shù)據(jù)看上去沒有安全問題,但其實外人把這兩個數(shù)據(jù)關聯(lián)起來就產(chǎn)生價值了了袁。這也是為什么在一開始的時候就要把所有的場景朗恳,盡可能地全部分析出來。
另外载绿,設置權限粥诫、數(shù)據(jù)分級審核、庫級數(shù)據(jù)脫敏等都是可以提升數(shù)據(jù)安全的手段÷校現(xiàn)代數(shù)據(jù)中臺必須具備數(shù)據(jù)調用行為的監(jiān)控和記錄機制臀脏,反過來也能增強對數(shù)據(jù)安全和隱私的保護劝堪。
數(shù)據(jù)中臺的下一步
當前國內外已經(jīng)有不少公司開始投資建設數(shù)據(jù)中臺冀自,大家比較熟悉的包括阿里、華為秒啦、聯(lián)想熬粗、海航、上汽余境、殼牌等驻呐。
在史凱看來,數(shù)據(jù)中臺當前處于上升發(fā)展期芳来。雖然未來數(shù)據(jù)中臺未必還叫做數(shù)據(jù)中臺含末,但它一定會成為企業(yè)必備的基礎組件。
世界正在從信息化向數(shù)字化發(fā)展即舌。信息化是指大部分的工作都在物理世界里完成佣盒,然后用信電腦的數(shù)字化世界解決一小部分問題。數(shù)字化則是把人從物理世界搬到數(shù)字化世界顽聂。從這個角度來講肥惭,數(shù)據(jù)中臺將會變成物理世界的業(yè)務在數(shù)字化世界的一個還原盯仪。
數(shù)據(jù)中臺設計的初衷是將計算與存儲分離,從狹義上來說蜜葱,真正最核心的數(shù)據(jù)中臺可以是沒有存儲的全景。但就當前的情況來看,廣義的數(shù)據(jù)中臺在未來一段時間內仍會涵蓋數(shù)據(jù)倉庫牵囤、數(shù)據(jù)湖等存儲組件爸黄,“數(shù)據(jù)工廠”這個概念可能更適用于現(xiàn)在的階段。但隨著數(shù)據(jù)中臺的發(fā)展揭鳞,未來很有可能不再需要數(shù)據(jù)湖了馆纳。
最后,史凱也提到了阿里中臺戰(zhàn)略中的另一個中臺——“業(yè)務中臺”汹桦。他表示“當前業(yè)務中臺更偏實時交易鲁驶,是從上往下沉淀業(yè)務;數(shù)據(jù)中臺目前更偏分析舞骆、決策和洞察钥弯,為業(yè)務提供 T+N 和 T+0 的數(shù)據(jù)服務,但是再往前走督禽,數(shù)據(jù)中臺跟交易會慢慢結合得更為緊密脆霎。隨著計算能力越來越強,以及微服務架構的進一步發(fā)展狈惫,未來業(yè)務中臺和數(shù)據(jù)中臺可能會融為一體睛蛛。”
采訪嘉賓
史凱胧谈,ThoughtWorks 數(shù)據(jù)和智能總監(jiān)忆肾,精益數(shù)據(jù)創(chuàng)新體系的提出者,2019 年被評選為 DataIQ100 的數(shù)據(jù)賦能者菱肖,有近 20 年年的企業(yè)信息化客冈、數(shù)字化轉型架構和實施經(jīng)驗,為眾多大型客戶提供數(shù)字化轉型戰(zhàn)略略規(guī)劃和咨詢實施服務稳强。
技術雷達是 ThoughtWorks 推出的公益的场仲、不限行業(yè)的技術選型趨勢報告,至今已堅持十年退疫,旨在以雷達的表現(xiàn)形式渠缕,通過清晰的解讀,給技術人員提供高質量褒繁、落地性強的技術平臺亦鳞、工具框架方面的選型指導,助力企業(yè)數(shù)字化轉型。