不管是要弄清楚數(shù)據(jù)中臺(tái)還是數(shù)據(jù)平臺(tái)暖途,都逃不開這幾個(gè)問(wèn)題卑惜。
為什么是大數(shù)據(jù)?
數(shù)據(jù)資產(chǎn)指哪些內(nèi)容驻售?
做大數(shù)據(jù)的是不是一定要寫代碼露久?
數(shù)據(jù)如何體現(xiàn)業(yè)務(wù)價(jià)值?
什么是所謂的數(shù)據(jù)安全欺栗?
...
這幾年最火的莫過(guò)于“中臺(tái)”毫痕,各公司紛紛打造自己的業(yè)務(wù)中臺(tái)和數(shù)據(jù)中臺(tái),顧名思義迟几,業(yè)務(wù)中臺(tái)消请,是為了解決業(yè)務(wù)共性問(wèn)題,而對(duì)服務(wù)進(jìn)行的統(tǒng)一抽象类腮。公共服務(wù)融合臊泰,產(chǎn)生標(biāo)準(zhǔn)化解決方案提供上層應(yīng)用使用。那么蚜枢,數(shù)據(jù)中臺(tái)是什么缸逃,和原有的數(shù)據(jù)平臺(tái)之間是什么關(guān)系。
本文重點(diǎn)描述一下數(shù)據(jù)在使用管理側(cè)的變化厂抽,同時(shí)站在筆者的角度需频,來(lái)解釋為什么很多公司有的大數(shù)據(jù)平臺(tái),缺依舊要打造數(shù)據(jù)中臺(tái)筷凤。
數(shù)據(jù)資產(chǎn)
數(shù)據(jù)資產(chǎn)指大數(shù)據(jù)中的價(jià)值部分昭殉。隨著信息化程度越來(lái)越高,數(shù)據(jù)生產(chǎn)的方式也越來(lái)越多藐守。
這些數(shù)據(jù)里挪丢,有的數(shù)據(jù)是當(dāng)前存在價(jià)值,例如監(jiān)控類日志吗伤;有的數(shù)據(jù)是在一定周期內(nèi)存在價(jià)值吃靠,例如平臺(tái)根據(jù)用戶過(guò)去半年行為來(lái)判斷用戶是否流失;有的數(shù)據(jù)則是永久價(jià)值足淆,例如用戶基本身份信息巢块;有的則是一些無(wú)價(jià)值數(shù)據(jù),比如一些與預(yù)期數(shù)據(jù)格式或內(nèi)容不符的臟數(shù)據(jù)巧号。
數(shù)據(jù)經(jīng)過(guò)生產(chǎn)族奢,采集,清洗丹鸿,轉(zhuǎn)化越走,加工,這一系列的操作,最后入倉(cāng)完成持久化的數(shù)據(jù)信息廊敌,就是系統(tǒng)所需的數(shù)據(jù)資產(chǎn)铜跑。
從維度上劃分,包含用戶畫像骡澈,用戶行為數(shù)據(jù)(瀏覽锅纺,購(gòu)買,收藏等)肋殴,內(nèi)容資產(chǎn)(信息流囤锉、商品SKU等),模型資產(chǎn)等护锤。
數(shù)據(jù)的體現(xiàn)上官地,又表現(xiàn)為實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)。實(shí)時(shí)數(shù)據(jù)烙懦,實(shí)時(shí)獲取實(shí)時(shí)處理驱入,秒級(jí)反饋。例如雙十一大屏氯析。離線數(shù)據(jù)沧侥,數(shù)據(jù)定期采集,匯總魄鸦,以某一固定周期進(jìn)行加工計(jì)算。例如用戶半年消費(fèi)金額癣朗。
一個(gè)企業(yè)未來(lái)的價(jià)值拾因,一方面在于主營(yíng)業(yè)務(wù)的發(fā)展,另一方面表現(xiàn)在所掌握的全網(wǎng)數(shù)據(jù)資產(chǎn)旷余。擁有數(shù)據(jù)資產(chǎn)越多的企業(yè)绢记,可以很好的完成應(yīng)用導(dǎo)流,精準(zhǔn)人群覆蓋正卧,趨勢(shì)預(yù)測(cè)蠢熄,使商業(yè)更加透明化。
數(shù)據(jù)存儲(chǔ)
任何一本計(jì)算機(jī)普及教材上炉旷,都會(huì)標(biāo)注签孔,數(shù)據(jù)在計(jì)算機(jī)上,會(huì)存儲(chǔ)在內(nèi)存或磁盤中窘行,內(nèi)存快但小饥追,磁盤大但慢。罐盔。但绕。
所以呢,當(dāng)一臺(tái)機(jī)器磁盤空間不夠時(shí),用兩臺(tái)捏顺,三臺(tái)六孵,一百臺(tái),構(gòu)成集群分片存儲(chǔ)幅骄,保障數(shù)據(jù)容量劫窒,同時(shí)多備份保障不丟失。當(dāng)一臺(tái)機(jī)器不夠計(jì)算時(shí)昌执,MapReduce烛亦,RDD,在多分片上進(jìn)行數(shù)據(jù)處理懂拾,之后完成數(shù)據(jù)結(jié)果匯總煤禽。分治思想,幾乎貫穿了所有的大數(shù)據(jù)應(yīng)用岖赋。
多數(shù)大中型企業(yè)檬果,都會(huì)有自己的數(shù)據(jù)管理平臺(tái),通常以hdfs為存儲(chǔ)介質(zhì)唐断,yarn為調(diào)度选脊,hive、spark為計(jì)算引擎脸甘,kylin恳啥,presto為OLAP引擎。這些組件混合丹诀,也就構(gòu)成了通常意義上的大數(shù)據(jù)平臺(tái)钝的。
整個(gè)ETL的過(guò)程,就是數(shù)據(jù)從采集清洗到入倉(cāng)的過(guò)程铆遭,把不同階段的數(shù)據(jù)硝桩,分層存儲(chǔ),就形成了傳統(tǒng)意義上的數(shù)據(jù)倉(cāng)庫(kù)枚荣。
所有的數(shù)據(jù)應(yīng)用碗脊,都會(huì)構(gòu)建在以數(shù)據(jù)倉(cāng)庫(kù)為元數(shù)據(jù)的平臺(tái)之上。
數(shù)據(jù)計(jì)算
數(shù)據(jù)計(jì)算,就是從一堆雜亂的數(shù)據(jù)中,抽取出所需的部分蕴潦。
例如
獲取一個(gè)人最近半年對(duì)母嬰用品上的瀏覽量、收藏量痕支,下單量和交易金額。通過(guò)這樣的結(jié)果數(shù)據(jù)蛮原,對(duì)此用戶進(jìn)行母嬰評(píng)級(jí)卧须。
這種問(wèn)題在任何一家電商企業(yè)都是很常見(jiàn)的需求。但實(shí)現(xiàn)起來(lái),卻有一定的復(fù)雜度花嘶。
首先笋籽,用戶瀏覽數(shù)據(jù),通過(guò)點(diǎn)擊流上報(bào)椭员,以用戶訪問(wèn)頁(yè)面的行為為觸發(fā)车海,進(jìn)行內(nèi)容主動(dòng)上報(bào)。
收藏量隘击,從用戶的收藏列表中獲取侍芝,同時(shí)需要對(duì)商品類別做區(qū)分,商品類別在商品模塊里埋同。
下單量和下單金額州叠,可以從用戶的訂單里進(jìn)行統(tǒng)計(jì),但同時(shí)要扣除部分用戶退單數(shù)據(jù)凶赁。
這只是一個(gè)基礎(chǔ)的計(jì)算問(wèn)題咧栗,但是依舊要使用到很多維度的基礎(chǔ)數(shù)據(jù)進(jìn)行融合,那么更為復(fù)雜的計(jì)算虱肄,不但要涉及到不同的數(shù)據(jù)塊致板,不同的時(shí)間周期,不同的數(shù)學(xué)模型咏窿,還有不同的數(shù)據(jù)規(guī)格及存儲(chǔ)結(jié)構(gòu)斟或。
數(shù)據(jù)賦能
數(shù)據(jù)計(jì)算、加工的目的集嵌,當(dāng)然是為業(yè)務(wù)服務(wù)缕粹。有人需要訂單信息,才會(huì)有相應(yīng)的訂單加工需求纸淮。
業(yè)務(wù)人員多半都不懂這些數(shù)據(jù)存儲(chǔ)的方式和差別,又不能要求每一個(gè)管理集群亚享,做數(shù)據(jù)存儲(chǔ)加工的同學(xué)熟悉全部的業(yè)務(wù)邏輯咽块。因此,為平衡這類問(wèn)題欺税,多半會(huì)由研發(fā)同學(xué)發(fā)起侈沪,開發(fā)一套可視化的數(shù)據(jù)平臺(tái),業(yè)務(wù)人員只需要鼠標(biāo)點(diǎn)點(diǎn)晚凿,就能完成底層數(shù)據(jù)的混合亭罪,加工,展示歼秽。這樣的基礎(chǔ)平臺(tái)应役,提供了數(shù)據(jù)采集,存儲(chǔ),計(jì)算箩祥,展示院崇,并有可視化的ide提供出來(lái)∨圩妫可以由非研發(fā)的業(yè)務(wù)人員自由組合操作底瓣,從而達(dá)到自己的業(yè)務(wù)要求。這也就是通常意義上的數(shù)據(jù)平臺(tái)蕉陋。
那么捐凭,有了這個(gè)基礎(chǔ)設(shè)施,每個(gè)人都可以再上邊加工自己的業(yè)務(wù)凳鬓,我要一份用戶A的訂單數(shù)據(jù)茁肠,通過(guò)各種融合,得出了結(jié)果村视。別人也需要這份數(shù)據(jù)官套,他也需要在做一遍嗎?當(dāng)然不用蚁孔,拿現(xiàn)成的就行奶赔。這樣一來(lái),有一百個(gè)人有相似業(yè)務(wù)要求杠氢,我們就節(jié)省了99次的計(jì)算站刑,這樣的基于數(shù)據(jù)平臺(tái),又完成了業(yè)務(wù)層內(nèi)容抽象的平臺(tái)鼻百,被越來(lái)越多的公司定義為數(shù)據(jù)中臺(tái)绞旅。
總之,數(shù)據(jù)平臺(tái)就是集成了常用大數(shù)據(jù)組件温艇,覆蓋了大數(shù)據(jù)處理的各個(gè)環(huán)節(jié)因悲,提供出的一套基礎(chǔ)平臺(tái)∩装可提供技術(shù)人員和非技術(shù)人員自由進(jìn)行業(yè)務(wù)開發(fā)運(yùn)算晃琳。數(shù)據(jù)中臺(tái)就是依托數(shù)據(jù)平臺(tái),再平臺(tái)之上以業(yè)務(wù)沉淀為背景琐鲁,構(gòu)建一套完整的基于業(yè)務(wù)場(chǎng)景的數(shù)據(jù)計(jì)算服務(wù)卫旱,并將各服務(wù)有效提供給應(yīng)用使用,同時(shí)對(duì)各應(yīng)用的數(shù)據(jù)資產(chǎn)進(jìn)行有效管理的平臺(tái)围段。
任何一種技術(shù)顾翼,都是為業(yè)務(wù)服務(wù),大數(shù)據(jù)也不例外奈泪。數(shù)據(jù)本身不具備行業(yè)價(jià)值适贸,一定是在特定的行業(yè)背景下灸芳,才能發(fā)揮足夠的作用。因此取逾,行業(yè)里越來(lái)越多企業(yè)提出耗绿,數(shù)據(jù)服務(wù)業(yè)務(wù)化。
數(shù)據(jù)中臺(tái)將各種數(shù)據(jù)應(yīng)用的共性需求進(jìn)行抽象砾隅,形成數(shù)據(jù)能力误阻,避免重復(fù)場(chǎng)景出現(xiàn)浪費(fèi)過(guò)多的人力成本。數(shù)據(jù)中臺(tái)管理的內(nèi)容包含應(yīng)用晴埂、用戶究反、資產(chǎn)及能力(大部分以API方式提供)。
隨著業(yè)務(wù)的逐漸開展儒洛,所需的業(yè)務(wù)指標(biāo)也越來(lái)越多精耐,不但有統(tǒng)計(jì)型指標(biāo),還有很多預(yù)測(cè)型指標(biāo)琅锻。通過(guò)以往數(shù)據(jù)表現(xiàn)卦停,對(duì)未知數(shù)據(jù)進(jìn)行結(jié)果預(yù)判,這就是一個(gè)機(jī)器學(xué)習(xí)過(guò)程恼蓬。因此惊完,在數(shù)據(jù)平臺(tái)之外,通常都會(huì)有一個(gè)機(jī)器學(xué)習(xí)平臺(tái)处硬,從數(shù)倉(cāng)里獲取歷史數(shù)據(jù)小槐,經(jīng)過(guò)一系列模型加工,生成對(duì)未知數(shù)據(jù)預(yù)測(cè)的模型表達(dá)式荷辕。這部分內(nèi)容凿跳,同樣是數(shù)據(jù)資產(chǎn)的重要組成。提供出來(lái)的模型計(jì)算服務(wù)疮方,也會(huì)通過(guò)數(shù)據(jù)中臺(tái)封裝對(duì)外賦能控嗜。
數(shù)據(jù)安全
很多企業(yè)都在做著數(shù)據(jù)發(fā)財(cái)夢(mèng),隨之而來(lái)的骡显,是數(shù)據(jù)的盜用疆栏,濫用。很多數(shù)據(jù)綁定了用戶的隱私信息蟆盐,身份信息,購(gòu)物信息遭殉,瀏覽信息石挂,位置信息,偏好信息等险污。在法律法規(guī)上痹愚,這些數(shù)據(jù)由用戶通過(guò)平臺(tái)生產(chǎn)富岳,理應(yīng)所屬用戶。平臺(tái)通過(guò)對(duì)這類數(shù)據(jù)挖掘分析拯腮,更好的服務(wù)用戶窖式,但如果將數(shù)據(jù)外泄、轉(zhuǎn)賣动壤,就觸碰了紅線萝喘。
既然數(shù)據(jù)需在合法合規(guī)的方式下使用,那么如今行業(yè)進(jìn)行數(shù)據(jù)賦能最大的障礙就是多種所屬數(shù)據(jù)融合琼懊。任何一家企業(yè)都不會(huì)貿(mào)然把自己的數(shù)據(jù)給到其它企業(yè)阁簸。但又希望能進(jìn)行數(shù)據(jù)融合賦能,因此就衍生出了很多技術(shù)方向的解決方案哼丈,例如聯(lián)邦學(xué)習(xí)启妹,智能合約等。
寫在最后
隨著B端業(yè)務(wù)的逐漸崛起醉旦,更多的企業(yè)把目光投向了行業(yè)解決方案饶米。一方面通過(guò)業(yè)務(wù)積累完成業(yè)務(wù)沉淀,另一方面就是想數(shù)據(jù)賦予更多的業(yè)務(wù)屬性车胡,實(shí)現(xiàn)行業(yè)價(jià)值最大化檬输。不管是數(shù)據(jù)平臺(tái),還是數(shù)據(jù)中臺(tái)吨拍,都會(huì)在未來(lái)的業(yè)務(wù)場(chǎng)景中褪猛,占據(jù)越來(lái)越重要的位置。