從數據中臺到AI中臺

文章發(fā)布于公號【數智物語】 (ID:decision_engine)王污,關注公號不錯過每一篇干貨重抖。

轉自 | ThoughtWorks商業(yè)洞見

作者 | 白發(fā)川

企業(yè)對數據的利用有三個階段:響應運營,響應業(yè)務踪古,創(chuàng)造業(yè)務含长。數據中臺解決的是響應業(yè)務的問題,第三階段“創(chuàng)造業(yè)務”伏穆,則需要AI中臺拘泞。

01

數據中臺的意義

數據中臺對一個企業(yè),起著至關重要的作用枕扫。在數據中臺這個稱謂成型之前陪腌,各個企業(yè)也都在用不同的方式來盡可能地利用數據產生價值。只是在這個過程中烟瞧,也不得不處理著數據帶來的各種問題诗鸭,比如各個業(yè)務系統(tǒng)經年累月以煙囪架構形式存在而導致的數據孤島、數據隔離燕刻、數據不一致等等只泼。因為這些問題實在是過于繁雜,企業(yè)開始建立數據團隊卵洗,或者數據部分開始繼續(xù)數據整頓工作请唱,因此數據倉庫、數據湖过蹂、主數據治理等一系列的工作職能應運而生十绑。

本質上,這些工作都是因為業(yè)務需要不得不進行的一系列數據治理的動作酷勺,對于如何利用數據來發(fā)力本橙,并沒有形成一個強有力的底座。有點像“頭痛醫(yī)頭脆诉、腳痛醫(yī)腳”:各個業(yè)務系統(tǒng)規(guī)范不一致了甚亭,于是開展了元數據治理;數據分析的時候數據關聯(lián)不上了击胜,于是不得不進行主數據治理亏狰。

這樣的數據治理工作在進行了很多年后,數據中臺這個概念逐漸有人提出了偶摔,阿里的《企業(yè)IT轉型直到:阿里巴巴中臺戰(zhàn)略思想與架構實踐》這本書更是把用中臺戰(zhàn)略把這個概念推向了一個極致暇唾。中臺戰(zhàn)略中,人們常說:大中臺,小前臺策州。在這種模式下瘸味,頻繁出現的字眼是:共享。那么够挂,到底共享的是什么旁仿?答案便是數據的服務。中臺戰(zhàn)略下硕,并不是搭建一個數據平臺丁逝,但是中臺的大部分服務都是圍繞數據而生,更加巧妙的地方是中臺戰(zhàn)略讓數據在數據平臺和業(yè)務系統(tǒng)之間形成了一個良性的閉環(huán)梭姓。于是,數據和業(yè)務系統(tǒng)融為了一體嫩码。

(圖1 數據中臺所解決的問題)

過去誉尖,數據依賴于手工進行,沒有軟件铸题;有了數據中臺铡恕,以功能驅動,固定的數據輸入丢间,得到固定的數據輸出探熔,構建出能用的服務變得更快速、更加的標準化烘挫,解決了業(yè)務側的“能用”問題诀艰。但是,如何以固定的輸入饮六,以產生更靈活多變的輸出其垄,提供比如個性化的服務,做到“好用”卤橄,數據中臺并沒有給出答案绿满。

在建立了數據中臺架構之后,我們逐步認識到窟扑,原來數據的價值并不只是個運營出個參考的分析報表喇颁,做一系列的預算。數據中臺為大型企業(yè)數據利用最大化提供了一個初始的參照方向嚎货。當我們發(fā)現橘霎,深度學習、機器學習等等一系列技術開始在這個平臺下施展拳腳的時候厂抖,我們可能已經清晰地認識到:中臺并不是數據分析利用的終點茎毁。

02

企業(yè)利用數據的三個發(fā)展階段

如果回顧數據分析的歷程,可以歸納發(fā)現數據利用大概有如下三個階段:

響應運營

響應業(yè)務

創(chuàng)造業(yè)務

(圖2 企業(yè)對數據的利用,有三個發(fā)展階段)

01

第一階段:響應運營

響應運營是數據分析最直接也是最原始的訴求七蜘。沒有誰不關心自己的用戶留存率谭溉,沒有誰不關心自己的營收額;出現了故障橡卤、如何分析定位扮念,如何預測預防,運用數據分析自然不過碧库。但是在運營分析過程中柜与,也發(fā)現了另外一系列的問題,比如各個業(yè)務系統(tǒng)的數據存儲格式嵌灰、存儲介質都不相同弄匕,在進行基本的運營分析的時候,無法流暢的進行沽瞭。此時迁匠,不得不進行一系列的數據治理。常見的主數據驹溃、元數據治理就是發(fā)生在這個階段城丧,只是數據倉庫將主數據和元數據治理進行了規(guī)范化。

02

第二階段:響應業(yè)務

數據分析停留在運營階段的時候豌鹤,對企業(yè)來講最大的感受就是投入產出比不對稱亡哄。這個問題在大數據爆發(fā)的時間點上,更為凸顯布疙。例如在今天的業(yè)務場景下蚊惯,傳統(tǒng)的數據倉庫已經解決不了海量數據、異構數據等一系列問題拐辽,而大行其道的大數據分析技術拣挪,硬件要求高、學習門檻高俱诸。要實施一個大數據平臺菠劝,成立一個大數據團隊,這是一個不小的成本開銷睁搭,更何況現在有不少數據分析團隊要借助機器學習等手段赶诊,來對數據做分析來響應運營,這導致基礎設施成本园骆、整體門檻進一步提高舔痪。

于是像數據中臺這樣的思想就被提了出來:既然數據是從業(yè)務系統(tǒng)產生的,那么是否業(yè)務系統(tǒng)也需要數據分析結果呢锌唾?對于數據平臺來說锄码,數據平臺本身提供兩大能力:數據存儲和數據計算的能力夺英。那么業(yè)務系統(tǒng)的數據存儲和數據計算能力是否可以剝離到數據平臺,僅僅讓業(yè)務系統(tǒng)很輕量的維護自己的業(yè)務流程操作滋捶?所以利用中臺剝離了復雜的業(yè)務環(huán)境痛悯,再配合微服務等技術,一下子讓人感受到了“數據服務的共享”重窟。

而對業(yè)務場景來說载萌,很多時候是需要數據服務的,例如用戶的基本信息管理巡扇、用戶的行為數據分析扭仁,這些數據不但可以暴露給業(yè)務系統(tǒng)使用,甚至可以直接丟給終端用戶自行使用厅翔。類似這種契合點乖坠,讓數據平臺變成了一個服務,提供給業(yè)務系統(tǒng)刀闷。而對數據服務的使用者來說瓤帚,在消費數據的同時也在繼續(xù)產生數據侵蒙,這樣在數據平臺和業(yè)務系統(tǒng)之間就構成了一個良性的閉環(huán)批销。

03

第三階段:創(chuàng)造業(yè)務

業(yè)務不會總停滯不前飘千,因為人的生活會改變,想要的體驗會改變筒扒。過去,大家到視頻平臺看視頻绊寻,利用通用的數據服務花墩,不同的用戶看到的視頻推薦都是一樣的;很快澄步,我們就會發(fā)現根據用戶的偏好冰蘑,推薦個性化的視頻幾乎是必不可少的體驗要求。然后村缸,我們就開始思考:數據是否可以變成個性化服務提供給終端用戶祠肥?這是一個非常簡單、常見的例子梯皿。當這樣的個性化數據服務越來越多之后仇箱,各種服務不斷組合,就會創(chuàng)造出很多可能性东羹,進而提供創(chuàng)新的個性化體驗和新的業(yè)務模式剂桥,這就是數據服務用于創(chuàng)造業(yè)務的階段。

雖然有了數據中臺属提,但是當有大規(guī)模的权逗、基于智能算法的數據服務需要落地實現時,依然會碰到以下挑戰(zhàn)。

1. 如何對規(guī)恼遛保化的智能服務進行管理:當只是零星三兩個智能服務的時候师坎,通過手動人工管理等方式,不會有太大的問題奔垦;然則屹耐,當智能服務成千上萬的時候,如何管理椿猎、如何構建惶岭、如何高效維護,就會成為很大的麻煩犯眠。

2. 沒有良好的工程實踐來保證質量和流暢性:對于常規(guī)的應用軟件開發(fā)我們有TDD按灶、自動化測試、CI/CD等成熟的工程實踐做保障筐咧;但是在智能服務這一塊鸯旁,無論是編程開發(fā)、還是服務構建量蕊,都沒有成熟的工程實踐铺罢,也沒有良好的基礎設施支撐,非常依賴于構建這個服務的數據工程師的個人能力残炮,導致在實施過程中韭赘,問題難以復現,難于定位势就。

3. 數據安全泉瞻、治理和數據量不充分:數據中臺的價值點,在于提供了數據的計算和存儲的能力苞冯,但是在智能服務構建下袖牙,光有計算和存儲還不夠。治理到什么程度的數據舅锄,才能較好的支撐服務的構建鞭达?個性化的服務與數據安全沖突的時候,如何抉擇巧娱?數據量不足導致算法模型泛化能力太差碉怔,怎么辦?

(圖3 創(chuàng)造業(yè)務階段禁添,數據中臺面臨的挑戰(zhàn))

03

從數據中臺到AI中臺

01

什么是AI中臺撮胧?

數據中臺本身還是圍繞數據服務來進行的,而非圍繞智能服務來進行的老翘。未來的操作系統(tǒng)芹啥,一定會越來越個性化锻离,甚至每一個人看到的登錄界面都不一樣,系統(tǒng)可以根據對應的終端用戶自行呈現符合該用戶習慣的系統(tǒng)界面墓怀。那么對于這樣的場景和服務汽纠,我們需要怎樣的平臺?整個軟件開發(fā)架構和流程是否也都會相應重造傀履?

回到創(chuàng)造業(yè)務的需求虱朵。以簡單的銷售業(yè)務為例,數據中臺提供的服務本質如下圖所示:

(圖4 軟件平臺的業(yè)務模式)

這是目前最常見的軟件平臺的運作方式钓账,開發(fā)人員開發(fā)出了對應的軟件服務后碴犬,提供給終端用戶使用,雖然會有銷售售賣該服務梆暮。這種方式服协,好比是拿著一個錘子找釘子,而不是給釘子快速制作一把合適的錘子再去售賣啦粹。

能不能這樣:將整個軟件組裝出來的服務偿荷,包裝成個性化的產品一樣去售賣,提供量身定做的服務唠椭?那么整個運營模式就變成:平臺提供了一種快速構建智能服務的過程跳纳,服務售賣者利用這個平臺,自己動手構建出服務贪嫂,拿出去售賣棒旗,類似一個提供“智能業(yè)務服務的PaaS”。

(圖5 引入AI中臺的軟件平臺業(yè)務模式)

如果嘗試給AI中臺下個定義:

AI中臺是一個用來構建大規(guī)模智能服務的基礎設施撩荣,對企業(yè)需要的算法模型提供了分步構建和全生命周期管理的服務,讓企業(yè)可以將自己的業(yè)務不斷下沉為一個個算法模型饶深,以達到復用餐曹、組合創(chuàng)新、規(guī)牡欣澹化構建智能服務的目的台猴。

借助一個平臺,將軟件的服務個性化的創(chuàng)造俱两,這將是未來的發(fā)展趨勢饱狂。

04

從數據中臺演進到AI中臺

從AI中臺落地實施的方式來看,AI中臺可以是數據中臺的進一步延伸宪彩,從數據中臺一步一步演進過去休讳。

01

首先,從基礎設施角度尿孔,可以將數據中臺智能化

所謂的智能化俊柔,是指將在數據中臺進行的一系列的數據服務構建操作進行智能化實現筹麸,讓數據的接入、存儲雏婶、分析展現物赶、訓練、到構建管道(pipeline)都更加自動化留晚。例如酵紫,對于通用的CI/CD來說,測試不過則會構建失敗错维,那對于AI中臺下奖地,就要考慮一個推薦模型構建失敗的條件是什么?答案可能是“本次模型的準確率低于上一次構建的準確率”的時候需五,CI應該被構建失敗鹉动。在實踐中,這可能是CI構建過程的維度之一宏邮,還會有很多其他指標和維度泽示。我們就需要在現有的數據平臺的CI中,實現并自動化這些指標和維度蜜氨,使之更加智能化械筛。

02

其次,對于中臺使用者來說飒炎,將煙囪式模型構建過程改造為可復用的模型構建過程

目前基于數據中臺的一個智能服務模型開發(fā)來說埋哟,流程如下:

(圖6 煙囪式模型構建過程)

這基本類似于一個橫向的煙囪架構,導致目前對一個基于算法模型產生的服務進行拆分的時候郎汪,都不是特別地順暢赤赊。如果大部分業(yè)務場景依舊以流程為主還好,如果新業(yè)務需要引入多的智能服務煞赢,那么一系列的問題就會暴露出來:

1. 借助于現有數據平臺手工進行數據操作抛计。

2. 煙囪架構開發(fā),對人員能力要求高照筑。

3. 環(huán)節(jié)無法有效拆分吹截,響應周期慢。

4. 智能場景規(guī)哪#化波俄,管理復雜。

5. 訓練蛾默,部署懦铺,發(fā)布依賴于手工部署缺乏有效的流水線。

6. 和數據平臺孤立支鸡,缺乏統(tǒng)一的數據服務接口阀趴。

7. 基礎設施隔離昏翰,無法動態(tài)進行資源的分配和管理。

AI中臺需要具備構建智能服務的能力刘急,就要求我們對服務構建的過程進行如下拆分:

(圖7 可復用的模型構建過程)

首先需要從基礎設施層面進行集成棚菊。常規(guī)的數據中臺依賴于大量的CPU和內存,相反叔汁,機器學習模型對GPU的依賴反而更高统求,但是又不能脫離數據中臺,因為它依舊需要利用數據中臺的存儲和計算能力來處理大量的數據据块。所以如何通過一個接口码邻、一個調度器、一個管道pipeline來集成整個工作流另假,就成了需要考量的事情了像屋。

AI中臺至少應該分為以下幾個層級:

1. 基礎設施:對CPU做虛擬化的技術已經相對成熟,但是智能服務依賴的更多的是GPU边篮,那么GPU如何做虛擬化己莺,算法模型訓練和數據是否需要共同使用相同的機器,還是集群相互隔離戈轿,都是需要在一開始設計好的凌受。

2. 資源管理:一切都是資源,無論是網絡思杯、內存胜蛉,還是數據、服務色乾,都是資源誊册。對于模型構建者,關注的只是算法本身暖璧,如果該構建者需要數據解虱,那這樣的數據就是一個資源而已,無論資源是以環(huán)境變量的方式提供漆撞、還是以服務的方式提供,構建者本身并不需要關心于宙。此時浮驳,必須一個資源管理系統(tǒng),對數據服務進行統(tǒng)一管理捞魁。

3. 中臺和模型:中臺有數據的計算和存儲能力外至会,還應該具備算模型的能力,這里的模型指的是一些業(yè)界通用的谱俭、或者企業(yè)級通用算法模型奉件。它可能是一個算法宵蛀、可能是一個別人已訓練好的模型,可以使用遷移學習的方式去使用县貌。對于中臺來說术陶,它都是一個數據集的體現,不應該和一個表煤痕,一個文件有特別的區(qū)分梧宫。

4. 流水線:流水是構建規(guī)模化智能服務非常重要的一個環(huán)節(jié)摆碉,工作如其名塘匣,讓我們構建智能服務的時候,可以像流水線工作一樣巷帝,達到這樣的效果忌卤,則需要對整個任務進行非常詳細的分解。

5. 智能應用層:智能應用層直接面向終端楞泼,怎么利用元數據等功能驰徊,組合各自不同模型提供的服務,構建出組合效應的創(chuàng)新服務现拒。

(圖8 AI中臺的架構層次)

在數據中臺的基礎上辣垒,擴展對GPU級別資源的管理和整合能力,調度層提供統(tǒng)一的任務印蔬、服務勋桶、智能CI/CD等服務,來實現AI中臺侥猬。這樣以來例驹,就可以達到:

1. 和數據平臺結合,利用數據平臺的能力作為數據支撐退唠,最大化的發(fā)揮數據平臺的價值

2. 拆分服務構建環(huán)節(jié)鹃锈,智能服務開發(fā)流程化,快速響應業(yè)務需求

3. 利用元數據管理方式瞧预,提供統(tǒng)一的標準格式屎债,場景可以多人協(xié)同配合開發(fā)

4. 基礎設施共享化,模型的訓練和發(fā)布與數據平臺有效綁定垢油,服務的構建自動化

5. 統(tǒng)一的元數據管理系統(tǒng)盆驹,模型的全生命周期可管理

6. 通用AI能力平臺化,降低人員要求滩愁,提升協(xié)作效率

也即躯喇,利用算、模型硝枉、框架廉丽,動態(tài)倦微、快速地組裝服務,創(chuàng)造出新的個性化體驗和新的業(yè)務新的業(yè)務模式正压,解決“好用”的問題欣福。

05

結語

數據中臺提供的是存儲和計算的能力,基于不同的業(yè)務場景蔑匣,構建出了用來支撐不同業(yè)務的數據服務劣欢,依托于強大的計算力,可以快速縮短獲得結果的周期裁良。而AI中臺則是將算法模型融入進來構建為服務凿将,讓構建算法模型服務,更加快速高效价脾,以更加面向業(yè)務牧抵。但無論是數據中臺還是AI中臺,都是一層基礎設施侨把,做好基礎設施只是第一步犀变,如何讓它的價值最大化,還要依托于AI中臺不斷結合業(yè)務來持續(xù)優(yōu)化秋柄,做到“持續(xù)智能”获枝。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市骇笔,隨后出現的幾起案子省店,更是在濱河造成了極大的恐慌,老刑警劉巖笨触,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懦傍,死亡現場離奇詭異,居然都是意外死亡芦劣,警方通過查閱死者的電腦和手機粗俱,發(fā)現死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來虚吟,“玉大人寸认,你說我怎么就攤上這事〈浚” “怎么了偏塞?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長模庐。 經常有香客問我,道長油宜,這世上最難降的妖魔是什么掂碱? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任怜姿,我火速辦了婚禮,結果婚禮上疼燥,老公的妹妹穿的比我還像新娘沧卢。我一直安慰自己,他們只是感情好醉者,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布但狭。 她就那樣靜靜地躺著,像睡著了一般撬即。 火紅的嫁衣襯著肌膚如雪立磁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天剥槐,我揣著相機與錄音唱歧,去河邊找鬼。 笑死粒竖,一個胖子當著我的面吹牛颅崩,可吹牛的內容都是我干的。 我是一名探鬼主播蕊苗,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼沿后,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了朽砰?” 一聲冷哼從身側響起尖滚,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锅移,沒想到半個月后熔掺,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡非剃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年置逻,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片备绽。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡券坞,死狀恐怖,靈堂內的尸體忽然破棺而出肺素,到底是詐尸還是另有隱情恨锚,我是刑警寧澤,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布倍靡,位于F島的核電站猴伶,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜他挎,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一筝尾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧办桨,春花似錦筹淫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至殊霞,卻和暖如春摧阅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脓鹃。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工逸尖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瘸右。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓娇跟,卻偏偏與公主長得像,于是被迫代替她去往敵國和親太颤。 傳聞我的和親對象是個殘疾皇子苞俘,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內容