什么是數(shù)據(jù)中臺(tái)
在詢問“什么是數(shù)據(jù)中臺(tái)”之前席舍,先來回答一下“要不要做”铜犬,畢竟建“數(shù)據(jù)中臺(tái)”對于企業(yè)來說是戰(zhàn)略級需求宛乃。所以饮亏,下面我們先來一起更加透徹地理解“數(shù)據(jù)中臺(tái)”這個(gè)概念暖哨,只有徹底理解了事物的本質(zhì)疤坝,才能輕松做出“適不適合”的判斷倒彰,畢竟先要知根知底握侧,才能“對癥下藥”责嚷。
到底什么是數(shù)據(jù)中臺(tái) 鸳兽?按照網(wǎng)絡(luò)上的定義有以下幾種:
數(shù)據(jù)中臺(tái)是數(shù)據(jù)服務(wù)(Data API)工廠;
數(shù)據(jù)中臺(tái)是一個(gè)能夠滿足業(yè)務(wù)創(chuàng)新的一個(gè)中間層罕拂;
數(shù)據(jù)中臺(tái)是指通過數(shù)據(jù)技術(shù)揍异,對海量數(shù)據(jù)進(jìn)行采集、計(jì)算爆班、存儲(chǔ)衷掷、加工,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑
以上定義描述都不是太恰當(dāng)柿菩,也不是很容易被人理解戚嗅。
下面讓我們來換一個(gè)角度回答以下三個(gè)問題,從而重新定義什么是數(shù)據(jù)中臺(tái):
1枢舶、它能做什么懦胞;
2、它需要什么凉泄;
3躏尉、它怎么做。
在現(xiàn)在的大數(shù)據(jù)時(shí)代后众,越來越多的企業(yè)開始重視并著手探索著數(shù)據(jù)的價(jià)值胀糜,希望通過數(shù)據(jù)運(yùn)營的方式賦能業(yè)務(wù),讓數(shù)據(jù)成為企業(yè)業(yè)務(wù)增長的新能源蒂誉。但是在真正落地去做數(shù)據(jù)運(yùn)營教藻、數(shù)據(jù)決策的過程當(dāng)中,企業(yè)普遍都會(huì)遇到“獨(dú) - 數(shù)據(jù)煙囪式林立”拗盒、 “斷 - 數(shù)據(jù)理解怖竭、認(rèn)知以及分析斷層”锥债、“缺 - 缺數(shù)據(jù)陡蝇、缺標(biāo)準(zhǔn)痊臭、缺治理”、“難 - 知數(shù)據(jù)難登夫、懂?dāng)?shù)據(jù)難广匙、要數(shù)據(jù)難”四大難題。
【數(shù)據(jù)中臺(tái)四大難題】
1恼策、獨(dú) - 數(shù)據(jù)煙囪林立:每個(gè)部門都有建立了自己煙囪式的IT系統(tǒng)或者建立煙囪式獨(dú)立的數(shù)據(jù)分析平臺(tái)和數(shù)據(jù)倉庫鸦致,這樣就會(huì)導(dǎo)致數(shù)據(jù)共享非常的難,即有數(shù)據(jù)的重復(fù)涣楷、數(shù)據(jù)平臺(tái)的重復(fù)開發(fā)分唾,同時(shí)也帶來數(shù)據(jù)重復(fù)的存儲(chǔ),造成企業(yè)資源和成本的浪費(fèi)狮斗;
2绽乔、斷 - 數(shù)據(jù)理解、認(rèn)知以及分析斷層:數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者對于數(shù)據(jù)的理解和數(shù)據(jù)價(jià)值在認(rèn)知上沒有得到統(tǒng)一碳褒,造成理解和認(rèn)知上的斷層折砸;
3、缺 - 缺數(shù)據(jù)沙峻、缺標(biāo)準(zhǔn)睦授、缺治理:企業(yè)各個(gè)業(yè)務(wù)線沒有統(tǒng)一的數(shù)據(jù)治理的標(biāo)準(zhǔn)、沒有存儲(chǔ)好數(shù)據(jù)摔寨,甚至沒有數(shù)據(jù)去枷,根本就不知道從哪里獲取數(shù)據(jù);
4祷肯、難 - 知數(shù)據(jù)難沉填、懂?dāng)?shù)據(jù)難、要數(shù)據(jù)難:企業(yè)業(yè)務(wù)部門與部門之間的數(shù)據(jù)沒有統(tǒng)一規(guī)范佑笋,要理解彼此的數(shù)據(jù)難翼闹,做互連互通就更加難。
而數(shù)據(jù)中臺(tái)的產(chǎn)生就是為了解決以上四大題蒋纬。
首先猎荠,通過整合匯集企業(yè)原有煙囪式IT系統(tǒng)的多個(gè)業(yè)務(wù)線和散落在多個(gè)平臺(tái)的數(shù)據(jù),讓所有的數(shù)據(jù)都融合到大數(shù)據(jù)平臺(tái)蜀备,建立統(tǒng)一的數(shù)據(jù)采集能力关摇,同時(shí)整合大數(shù)據(jù)處理、計(jì)算碾阁、存儲(chǔ)以及數(shù)據(jù)服務(wù)能力输虱,通過這樣的方式,來降低大數(shù)據(jù)的開發(fā)成本和使用成本脂凶;
其次宪睹,集合各個(gè)領(lǐng)域的數(shù)據(jù)愁茁,運(yùn)用新的模式、新的創(chuàng)新方法亭病,讓數(shù)據(jù)產(chǎn)生更大價(jià)值鹅很;
最后,實(shí)現(xiàn)"大中臺(tái)罪帖、小前臺(tái)"的愿景促煮,做到前臺(tái)變成一個(gè)真正敏捷的作戰(zhàn)單元。
第一個(gè)問題整袁,數(shù)據(jù)中臺(tái)能做什么呢菠齿。它能解決企業(yè)數(shù)據(jù)統(tǒng)一采集、數(shù)據(jù)統(tǒng)一存儲(chǔ)坐昙、數(shù)據(jù)相互聯(lián)通以及數(shù)據(jù)統(tǒng)一使用的能力泞当,讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化民珍。
第二個(gè)問題襟士,它需要什么。需要干凈嚷量、透明陋桂、智慧的數(shù)據(jù);需要一套標(biāo)準(zhǔn)的數(shù)據(jù)體系蝶溶;需要一套完整的技術(shù)支撐能力嗜历。
第三個(gè)問題,它怎么做抖所。首先先要以業(yè)務(wù)數(shù)據(jù)化為前提梨州,數(shù)據(jù)標(biāo)準(zhǔn)入湖為基礎(chǔ),建立數(shù)據(jù)資產(chǎn)統(tǒng)一管理中心田轧,然后才能發(fā)展成高效承載數(shù)據(jù)中臺(tái)建設(shè)的數(shù)據(jù)運(yùn)營平臺(tái)能力中心暴匠。
總結(jié)一下,數(shù)據(jù)中臺(tái)是全域級傻粘、可復(fù)用的數(shù)據(jù)資產(chǎn)中心與數(shù)據(jù)能力中心每窖,可以提供干凈、透明弦悉、智慧的數(shù)據(jù)資產(chǎn)與高效窒典、易用的數(shù)據(jù)能力,使得業(yè)務(wù)能夠數(shù)字化運(yùn)營稽莉。
解釋如下:
全域級:數(shù)據(jù)中臺(tái)需要從最頂層的行業(yè)領(lǐng)域到企業(yè)的垂直領(lǐng)域的數(shù)據(jù)瀑志,同時(shí)需要覆蓋多個(gè)領(lǐng)域的數(shù)據(jù),只有覆蓋了多個(gè)領(lǐng)域的數(shù)據(jù)匯集,才能更好的進(jìn)行數(shù)據(jù)統(tǒng)計(jì)/分析/挖掘劈猪,發(fā)揮出數(shù)據(jù)的價(jià)值缩膝;
可復(fù)用:數(shù)據(jù)的能力、數(shù)據(jù)平臺(tái)的能力岸霹、產(chǎn)品能力都要具備可復(fù)用性,同時(shí)也可以快速敏捷為多個(gè)前臺(tái)業(yè)務(wù)部門提供技術(shù)支持
數(shù)據(jù)資產(chǎn)中心:不是像之前的數(shù)據(jù)倉庫一樣匯集在一起就是數(shù)據(jù)資產(chǎn)中心将饺。還要保證數(shù)據(jù)是干凈的贡避、透明的、智慧的予弧。
要保證數(shù)據(jù)是干凈的刮吧、質(zhì)量是高的、可信的掖蛤,并且是沒有臟數(shù)據(jù)的杀捻;
在有安全、隱私蚓庭、授權(quán)致讥、加密等數(shù)據(jù)權(quán)限機(jī)制下,可以安全的共享給其他業(yè)務(wù)線的數(shù)據(jù)器赞;
需要的不是死數(shù)據(jù)垢袱,要活數(shù)據(jù),要是能和業(yè)務(wù)部門業(yè)務(wù)場景相互結(jié)合的數(shù)? 據(jù)港柜,要具備能夠?yàn)闃I(yè)務(wù)沉淀请契,給出業(yè)務(wù)關(guān)聯(lián)的算法、數(shù)據(jù)模型
數(shù)據(jù)能力中心:具有為業(yè)務(wù)做數(shù)據(jù)運(yùn)營平臺(tái)的能力
數(shù)據(jù)中臺(tái)建設(shè)的價(jià)值和意義
建設(shè)數(shù)據(jù)中臺(tái)的價(jià)值
采夏醉、存爽锥、通、用是目前對數(shù)據(jù)中臺(tái)價(jià)值最好的解釋畔柔,數(shù)據(jù)中臺(tái)需要具備“采 - 數(shù)據(jù)統(tǒng)一采集”氯夷、“存 - 數(shù)據(jù)統(tǒng)一存儲(chǔ)”、“通 - 數(shù)據(jù)相互聯(lián)通”靶擦、“用 - 數(shù)據(jù)統(tǒng)一使用的能力”四大能力肠槽,才能最終讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化奢啥。
【數(shù)據(jù)中臺(tái)四大價(jià)值】
1秸仙、采 - 數(shù)據(jù)統(tǒng)一采集:采用統(tǒng)一的數(shù)據(jù)報(bào)送方式采集企業(yè)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),促進(jìn)數(shù)據(jù)與業(yè)務(wù)流程整合桩盲。主要需要采集的數(shù)據(jù)有企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù)寂纪、應(yīng)用系統(tǒng)產(chǎn)生的數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)、爬蟲數(shù)據(jù)捞蛋、日志數(shù)據(jù)孝冒、第三方數(shù)據(jù)等;
2拟杉、存 - 數(shù)據(jù)統(tǒng)一存儲(chǔ):通過三層/四層建模的方式對數(shù)據(jù)進(jìn)行更科學(xué)的存儲(chǔ)庄涡,使得平臺(tái)能夠快速支持?jǐn)?shù)據(jù)快照、數(shù)據(jù)復(fù)制搬设、遠(yuǎn)程數(shù)據(jù)同步等方式場景應(yīng)用穴店。在企業(yè)建設(shè)數(shù)據(jù)中臺(tái)構(gòu)建數(shù)據(jù)存儲(chǔ)能力的同時(shí),需要遵循可靠拿穴、可擴(kuò)展泣洞、易管理、易維護(hù)四要素默色;
3球凰、通 - 數(shù)據(jù)互聯(lián)互通: 第一步是打通用戶行為數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的互通,比如通過數(shù)據(jù)埋點(diǎn)采集獲取到的數(shù)據(jù)腿宰,有時(shí)間呕诉、地理位置、硬件設(shè)備和用戶的購買行為吃度、瀏覽記錄义钉、訪問時(shí)長、停留時(shí)長等规肴;第二步是要打通企業(yè)內(nèi)部各個(gè)業(yè)務(wù)線的數(shù)據(jù)捶闸,比如企業(yè)要做產(chǎn)業(yè)鏈的上下游,就需要打通用戶數(shù)據(jù)拖刃、內(nèi)容數(shù)據(jù)删壮、銷售數(shù)據(jù),結(jié)合“人”兑牡、“物”央碟、“場景”三個(gè)維度,形成更加立體均函、精準(zhǔn)亿虽、科學(xué)的畫像;
4苞也、用 - 數(shù)據(jù)統(tǒng)一使用:提供統(tǒng)一的數(shù)據(jù)服務(wù)能力洛勉,讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化如迟。比如有用戶畫像系統(tǒng)收毫、廣告營銷系統(tǒng)攻走、推薦引擎、搜索引擎等
因此此再,構(gòu)建數(shù)據(jù)中臺(tái)對于企業(yè)來說昔搂,本質(zhì)上是在構(gòu)建數(shù)據(jù)共享能力的中心,幫助業(yè)務(wù)解決數(shù)據(jù)存儲(chǔ)输拇、計(jì)算摘符、使用的問題。同時(shí)也解決了企業(yè)煙囪式IT系統(tǒng)信息化建設(shè)遺留下來的各個(gè)系統(tǒng)之間的互通問題策吠,并在此基礎(chǔ)上構(gòu)建屬于企業(yè)新的數(shù)據(jù)智能場景的應(yīng)用創(chuàng)新逛裤。
建設(shè)數(shù)據(jù)中臺(tái)的意義
【數(shù)據(jù)中臺(tái)六大意義】
從以下六個(gè)方面和大家一起去探討,企業(yè)數(shù)據(jù)中臺(tái)建設(shè)的意義:
第一奴曙、匯聚數(shù)據(jù)、打通數(shù)據(jù)鏈路草讶,承上啟下
數(shù)據(jù)中臺(tái)最終的目標(biāo)是讓“一切業(yè)務(wù)數(shù)據(jù)化洽糟,一切數(shù)據(jù)業(yè)務(wù)化”,先將所有的數(shù)據(jù)匯聚到數(shù)據(jù)中臺(tái)來堕战,打通各個(gè)業(yè)務(wù)線的數(shù)據(jù)流轉(zhuǎn)坤溃、數(shù)據(jù)鏈路,了解企業(yè)數(shù)據(jù)現(xiàn)狀嘱丢,知道有什么數(shù)據(jù)薪介,缺什么數(shù)據(jù)。這樣以后無論是做可視化BI報(bào)表分析越驻、用戶畫像汁政、推薦/搜索/廣告等數(shù)據(jù)應(yīng)用都統(tǒng)一從數(shù)據(jù)中臺(tái)獲取數(shù)據(jù),如果沒有數(shù)據(jù)缀旁,數(shù)據(jù)中臺(tái)就要負(fù)責(zé)去尋找到數(shù)據(jù)應(yīng)用相關(guān)的數(shù)據(jù)记劈,為數(shù)據(jù)應(yīng)用賦能,做業(yè)務(wù)和技術(shù)上的能力支撐并巍,只有通過這樣的方式去梳理盤點(diǎn)企業(yè)的數(shù)據(jù)目木,才能通過分析/挖掘找到更多與數(shù)據(jù)相關(guān)的應(yīng)用場景。
第二懊渡、統(tǒng)一規(guī)范刽射、構(gòu)建數(shù)據(jù)資產(chǎn),驅(qū)動(dòng)業(yè)務(wù)
通過數(shù)據(jù)中臺(tái)的建設(shè)剃执,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)治理流程的統(tǒng)一化誓禁、在線化、標(biāo)準(zhǔn)化肾档、智能化现横,使得建設(shè)團(tuán)隊(duì)的人員的培養(yǎng)和知識(shí)面上的傳承能夠在線的完成。同時(shí),企業(yè)數(shù)據(jù)中臺(tái)構(gòu)建高效戒祠、可復(fù)用的數(shù)據(jù)能力中心骇两,使得業(yè)務(wù)能夠通過數(shù)字化運(yùn)營的方式,賦能業(yè)務(wù)姜盈、驅(qū)動(dòng)業(yè)務(wù)低千。
第三、數(shù)據(jù)重用馏颂、減少企業(yè)成本示血,提高效率
匯聚數(shù)據(jù),打通數(shù)據(jù)鏈路后救拉,在為數(shù)據(jù)應(yīng)用提供數(shù)據(jù)服務(wù)的時(shí)候难审,減少數(shù)據(jù)的重復(fù)開發(fā)、減少數(shù)據(jù)平臺(tái)的重復(fù)開發(fā)亿絮,減少數(shù)據(jù)重復(fù)的存儲(chǔ)告喊,從而減少企業(yè)成本。同時(shí)派昧,建立統(tǒng)一的數(shù)據(jù)存儲(chǔ)黔姜、數(shù)據(jù)使用模型中心、能力中心蒂萎,將相關(guān)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)做匯聚秆吵,解決了數(shù)據(jù)互聯(lián)互通的訴求,實(shí)現(xiàn)數(shù)據(jù)價(jià)值上的一加一大于二五慈。
第四纳寂、數(shù)據(jù)模型、通過業(yè)務(wù)滋養(yǎng)泻拦,驅(qū)動(dòng)創(chuàng)新
目前烈疚,在企業(yè)內(nèi),很多公司無論是報(bào)表需求或取數(shù)需求等聪轿,基本上都還是停留在煙囪式的IT系統(tǒng)爷肝,這樣會(huì)導(dǎo)致數(shù)據(jù)知識(shí)、數(shù)據(jù)價(jià)值得不到沉淀和持續(xù)發(fā)展陆错,數(shù)據(jù)模型不能成為真正意義上的可重用性灯抛,沒有辦法快速的支撐數(shù)據(jù)應(yīng)用的響應(yīng)與創(chuàng)新。
究其原因是企業(yè)團(tuán)隊(duì)成員對于數(shù)據(jù)模型的認(rèn)知出現(xiàn)斷層音瓷,覺得數(shù)據(jù)模型“穩(wěn)定”多好啊对嚼,但是其實(shí)這種一味的穩(wěn)定不變,長期下去绳慎,在某種程度上就是在故步自封纵竖,這樣的做法必然會(huì)導(dǎo)致其他的漠烧、新的類似數(shù)據(jù)模型產(chǎn)生。目前的套路和做法都是把多個(gè)小表通過數(shù)據(jù)建模的方式變成一張“萬能”的大寬表靡砌,這樣在前期查詢速度快已脓,好維護(hù),但是這里面會(huì)出現(xiàn)一個(gè)問題通殃,就是當(dāng)隨著新的業(yè)務(wù)不斷增加度液,寬表越來越大,大到后續(xù)無法維護(hù)怎么辦呢画舌?比如用戶畫像的標(biāo)簽堕担、業(yè)務(wù)報(bào)表分析的盲從,都會(huì)導(dǎo)致數(shù)據(jù)運(yùn)用上的堆砌以致于后續(xù)連數(shù)據(jù)一致性曲聂、數(shù)據(jù)的唯一性都保證不了霹购,最終造成企業(yè)管理成本的增加,人力投入的增大朋腋。
所以齐疙,在構(gòu)建數(shù)據(jù)模型的時(shí)候,還要考慮到數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)模型的延展性和拓展性乍丈,不能一味的追求“穩(wěn)定”剂碴,應(yīng)當(dāng)多與業(yè)務(wù)相互結(jié)合把将,通過業(yè)務(wù)的不斷滋養(yǎng)轻专,從而才能驅(qū)動(dòng)數(shù)據(jù)模型進(jìn)行持續(xù)的服務(wù)創(chuàng)新,從最初的單一的字段到逐漸演變成企業(yè)最為寶貴的模型資產(chǎn)察蹲。
第五请垛、縱觀大局、創(chuàng)新式挖掘洽议,推動(dòng)全局
一個(gè)企業(yè)要建數(shù)據(jù)中臺(tái)宗收,一定會(huì)是企業(yè)戰(zhàn)略級的需求,所以在匯集數(shù)據(jù)亚兄,打通數(shù)據(jù)后混稽,還要建立統(tǒng)一的數(shù)據(jù)清洗的流程,得到干凈审胚、透明匈勋、智慧的數(shù)據(jù)。先試著通過一些小場景先把數(shù)據(jù)運(yùn)用起來膳叨,看效果的好壞洽洁,然后才能去做其他數(shù)據(jù)應(yīng)用探索,最終推動(dòng)全局業(yè)務(wù)的數(shù)據(jù)應(yīng)用菲嘴,使得數(shù)據(jù)應(yīng)用產(chǎn)生真正的業(yè)務(wù)價(jià)值饿自。
第六汰翠、結(jié)合業(yè)務(wù)、探索新的場景昭雌,實(shí)現(xiàn)創(chuàng)新
目前企業(yè)都在全力謀求轉(zhuǎn)型复唤,通過數(shù)據(jù)賦能業(yè)務(wù),然而城豁,企業(yè)的轉(zhuǎn)型和賦能的關(guān)鍵在于企業(yè)是否具備快速的創(chuàng)新能力苟穆,除了數(shù)據(jù)、算法唱星、計(jì)算力這些核心的驅(qū)動(dòng)力雳旅,是遠(yuǎn)遠(yuǎn)不夠的。數(shù)據(jù)中臺(tái)的能力往往最終決定在于速度上间聊,只有速度提升上去了攒盈,才能快速小成本的方式去試錯(cuò),去迭代數(shù)據(jù)運(yùn)用哎榴,實(shí)現(xiàn)業(yè)務(wù)的創(chuàng)新和提升數(shù)據(jù)"變現(xiàn)"的能力型豁。
總結(jié),數(shù)據(jù)中臺(tái)的建立一定不是一蹴而就的尚蝌,是一個(gè)相對漫長的過程迎变,每個(gè)企業(yè)都應(yīng)該根據(jù)企業(yè)自身的實(shí)際情況,把握好短期利益和長期利益的博弈和撕殺飘言,打造屬于自己企業(yè)獨(dú)有的中臺(tái)能力衣形。
在這個(gè)過程中,需要遵循一些原則:
1姿鸿、在認(rèn)知上谆吴,建立使用數(shù)據(jù)人員正確的數(shù)據(jù)價(jià)值觀,對數(shù)據(jù)要懷有敬畏之心苛预,合理的存儲(chǔ)句狼,保證收集回來數(shù)據(jù)的安全性和隱私性、互通性热某;
2腻菇、在流程上,需要打通企業(yè)的組織架構(gòu)之間的壁壘昔馋,一定要站在企業(yè)戰(zhàn)略層面的高度來驅(qū)動(dòng)筹吐,并且有組織架構(gòu)的保障,而不能像傳統(tǒng)煙囪式IT信息化建設(shè)一樣找廠商買一個(gè)套件或者單純起一個(gè)外包項(xiàng)目的方式以及應(yīng)用機(jī)制需要順勢而變绒极,調(diào)整成符合數(shù)據(jù)中臺(tái)建設(shè)規(guī)劃的方式骏令;
3、在工作上垄提,需要改變原來的工作模式榔袋,所以的數(shù)據(jù)工作人員都要深入的研究業(yè)務(wù)周拐、數(shù)據(jù)和模型,從端到端的去實(shí)踐凰兑,打造出數(shù)據(jù)中臺(tái)妥粟,才是最大的價(jià)值創(chuàng)造,才能使得持續(xù)創(chuàng)新成為可能吏够;
4勾给、在實(shí)踐上,通過長期對數(shù)據(jù)的收集锅知、整理分析/挖掘播急、數(shù)據(jù)資產(chǎn)的管理下,還需要逐步建立起數(shù)據(jù)中臺(tái)對于業(yè)務(wù)的話語權(quán)售睹,不僅只是做接受需求的一方桩警,更要通過數(shù)據(jù)的能力,提出合理的建議昌妹,為業(yè)務(wù)帶來新的增長點(diǎn)捶枢。只有這樣,才能發(fā)揮數(shù)據(jù)真正的價(jià)值飞崖,讓數(shù)據(jù)中臺(tái)成為企業(yè)最為寶貴的資產(chǎn)烂叔。
數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)對比
在大數(shù)據(jù)時(shí)代固歪,凡是AI類項(xiàng)目的落地蒜鸡,都需要具備數(shù)據(jù)、算法昼牛、場景术瓮、計(jì)算力四個(gè)基本元素康聂,缺一不可贰健。處理大數(shù)據(jù)已經(jīng)不能僅僅依靠計(jì)算力就能夠解決問題,計(jì)算力只是核心的基礎(chǔ)恬汁,還需要結(jié)合不同的業(yè)務(wù)場景與算法相互結(jié)合伶椿,沉淀出一個(gè)完整的智能化平臺(tái)。數(shù)據(jù)中臺(tái)就是以云計(jì)算為數(shù)據(jù)智能提供的基礎(chǔ)計(jì)算力為前提氓侧,與大數(shù)據(jù)平臺(tái)提供的數(shù)據(jù)資產(chǎn)能力與技術(shù)能力相互結(jié)合脊另,形成數(shù)據(jù)處理的能力框架賦能業(yè)務(wù),為企業(yè)做到數(shù)字化约巷、智能化運(yùn)營偎痛。
目前,外界與業(yè)內(nèi)很多人對于數(shù)據(jù)中臺(tái)的理解存在誤區(qū)独郎,一直只是在強(qiáng)調(diào)技術(shù)的作用踩麦,強(qiáng)調(diào)技術(shù)對于業(yè)務(wù)的推動(dòng)作用枚赡,但在商業(yè)領(lǐng)域落地的層面上,更多時(shí)候技術(shù)的發(fā)展和演進(jìn)都是需要跟著業(yè)務(wù)走谓谦,技術(shù)的發(fā)展和進(jìn)步需要基于業(yè)務(wù)方的需求與數(shù)據(jù)場景應(yīng)用化的探索來反向推動(dòng)贫橙。這個(gè)也就是為什么最近知乎、脈脈都在瘋傳阿里在拆“大中臺(tái)”反粥?個(gè)人猜想卢肃,原因是沒有真正理解中臺(tái)的本質(zhì),其實(shí)阿里在最初建設(shè)數(shù)據(jù)中臺(tái)的目的主要是為了提升效率和解決業(yè)務(wù)匹配度問題才顿,最終達(dá)到降本增效莫湘,所以說“拆”是假的,在“拆”的同時(shí)一定在“合”郑气,“拆”的一個(gè)方面是企業(yè)戰(zhàn)略布局層面上的規(guī)劃逊脯,架構(gòu)升級竣贪,如果眼界不夠高演怎,格局不夠大甘桑,看到的一定只是表面;另一方面不是由于組織架構(gòu)龐大而做“拆”的動(dòng)作,而是只有這樣才能在效率和業(yè)務(wù)匹配度上窄做,做到最大利益化的解耦。
數(shù)據(jù)中臺(tái)出現(xiàn)的意義在于降本增效掏颊,是用來賦能企業(yè)沉淀業(yè)務(wù)能力乌叶,提升業(yè)務(wù)效率陈肛,最終完成數(shù)字化轉(zhuǎn)型句旱。
因?yàn)椋瑪?shù)據(jù)中臺(tái)本身絕對是不可復(fù)制的啃匿,從BCG矩陣的維度結(jié)合各家市場資源豹爹、市場環(huán)境光稼、市場地位以及業(yè)務(wù)方向來看艾君,幾乎所有企業(yè)的戰(zhàn)略目標(biāo)都是不一樣的冰垄。如果扒秸,有人說能把中臺(tái)賣給你冀瓦、對于中臺(tái)的解讀只講技術(shù)伴奥,不講業(yè)務(wù)翼闽,只講產(chǎn)品拾徙,不講業(yè)務(wù)感局,不以結(jié)合企業(yè)業(yè)務(wù)目標(biāo)來解決效率和匹配度為目的的都有耍流氓嫌疑崖瞭。數(shù)據(jù)中臺(tái)的使命和愿景是讓數(shù)據(jù)成為如水和電一般的資源唧领,隨需獲取,敏捷自助驯杜,與業(yè)務(wù)更多連接受啥,使用更低成本,通過更高效率的方式讓數(shù)據(jù)極大發(fā)揮價(jià)值鸽心,推動(dòng)業(yè)務(wù)創(chuàng)新與變革滚局。
為了進(jìn)一步統(tǒng)一大家的認(rèn)知,更加清晰的認(rèn)識(shí)數(shù)據(jù)中臺(tái)出現(xiàn)的意義,本篇按順序介紹如下:
數(shù)據(jù)中臺(tái)演進(jìn)的過程
數(shù)據(jù)倉庫丘喻、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的概念
數(shù)據(jù)倉庫严就、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的架構(gòu)
數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系
數(shù)據(jù)中臺(tái)演進(jìn)的過程
從數(shù)據(jù)處理的維度來聊一聊數(shù)據(jù)中臺(tái)經(jīng)歷的四個(gè)階段:數(shù)據(jù)庫階段谤草、數(shù)據(jù)倉庫階段、數(shù)據(jù)平臺(tái)階段莺奸、數(shù)據(jù)中臺(tái)階段丑孩。
1、數(shù)據(jù)庫階段:OLTP(事務(wù)處理)是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用灭贷,主要是基本的温学、日常的事務(wù)處理,記錄即時(shí)的增甚疟、刪仗岖、改、查览妖。比如銀行交易轧拄、電商交易等
2、數(shù)據(jù)倉庫階段:數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用主要是OLAP(聯(lián)機(jī)分析處理)讽膏,支持復(fù)雜的分析操作檩电,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。比如復(fù)雜的動(dòng)態(tài)報(bào)表分析俐末、用戶價(jià)值分析等
3料按、數(shù)據(jù)平臺(tái)階段:其實(shí),目前業(yè)界并沒有對大數(shù)據(jù)平臺(tái)做統(tǒng)一的定義卓箫,一般情況下载矿,只要使用了Hadoop/Spark/Storm/Flink等這些分布式的實(shí)時(shí)或者離線計(jì)算框架,建立計(jì)算集群烹卒,并在上面運(yùn)行各種計(jì)算任務(wù)恢准,具有數(shù)據(jù)互聯(lián)互通、支持多數(shù)據(jù)集實(shí)時(shí)同步甫题、支持?jǐn)?shù)據(jù)資源管理馁筐、實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合管控;提供完善的大數(shù)據(jù)分析基礎(chǔ)運(yùn)行環(huán)境坠非,提供統(tǒng)一二次開發(fā)接口等能力的敏沉,就算的上理解上的大數(shù)據(jù)平臺(tái)。主要是為了解決大數(shù)據(jù)存儲(chǔ)計(jì)算 + 數(shù)據(jù)應(yīng)用管理 + 任務(wù)監(jiān)控 + 數(shù)據(jù)資產(chǎn)管理 + 開發(fā)管理 + 可視化報(bào)表需求等
4炎码、數(shù)據(jù)中臺(tái)階段:指具有全域級盟迟、可復(fù)用的數(shù)據(jù)資產(chǎn)中心與數(shù)據(jù)能力中心,對海量數(shù)據(jù)進(jìn)行采集潦闲、計(jì)算攒菠、存儲(chǔ)、加工歉闰,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑辖众,提供干凈、透明和敬、智慧的數(shù)據(jù)資產(chǎn)與高效凹炸、易用的數(shù)據(jù)能力來,能夠?qū)覱LTP(事務(wù)處理)和OLAP(報(bào)表分析)的需求昼弟,從業(yè)務(wù)架構(gòu)設(shè)計(jì)到模型設(shè)計(jì)啤它,從數(shù)據(jù)研發(fā)到數(shù)據(jù)服務(wù),做到數(shù)據(jù)可管理舱痘、可追溯变骡、可規(guī)避重復(fù)建設(shè),強(qiáng)調(diào)的是數(shù)據(jù)業(yè)務(wù)化的能力
【數(shù)據(jù)中臺(tái)經(jīng)歷的四個(gè)階段】
拿電商行業(yè)來舉個(gè)例子芭逝,更好的讓大家理解數(shù)據(jù)中臺(tái)演進(jìn)的四個(gè)階段
1塌碌、數(shù)據(jù)庫階段
電商創(chuàng)業(yè)早期啟動(dòng)非常容易,門檻相對來說較低铝耻,試錯(cuò)成本較少誊爹。三五個(gè)小伙伴組個(gè)小團(tuán)隊(duì)蹬刷,做一個(gè)可以下單的前端頁面瓢捉,云上搭幾臺(tái)服務(wù)器再加上一個(gè)MySQL數(shù)據(jù)庫频丘,形成一個(gè)簡單的OLTP系統(tǒng),就可以給用戶去使用泡态,它的主要作用用于保證數(shù)據(jù)持久化存儲(chǔ)和簡單商品交易查詢搂漠。
現(xiàn)在估計(jì)很多小型電商與小程序創(chuàng)業(yè)者的初期都是這么干的,甚至找個(gè)外包團(tuán)隊(duì)做完就開始對于市場試錯(cuò)某弦。原因很簡單桐汤,從ROI來看,項(xiàng)目前期業(yè)務(wù)數(shù)據(jù)量不大靶壮,簡單的GB級別怔毛,每天的訂單和流量數(shù)都比較少,后端數(shù)據(jù)庫只要做簡單的單條數(shù)據(jù)的查詢和展示就能夠滿足了需求腾降,根本就沒有什么高并發(fā)拣度,批量處理等高深技術(shù),就連做在初期做數(shù)據(jù)統(tǒng)計(jì)/分析用Excel就足于滿足需求
當(dāng)用戶螃壤、商品和流量上升的時(shí)候抗果,可以采取兩種過渡方案。方案一是對于查詢速度慢奸晴、性能不足冤馏,升級單機(jī)配置,通過緩存優(yōu)化 + 數(shù)據(jù)庫優(yōu)化(SQL語句優(yōu)化寄啼、SQL索引優(yōu)化逮光、分庫分表、SQL腳本優(yōu)化)+ 內(nèi)存優(yōu)化 + 線程池優(yōu)化 + 使用NIO通信機(jī)制 + 阻塞隊(duì)列(程序優(yōu)化)墩划,虛擬機(jī)(docker)+ SSD + 合適的IO模型等方式對單機(jī)配置做最大性能上的優(yōu)化睦霎;方案二是改變原有的模式,加服務(wù)器和多個(gè)業(yè)務(wù)數(shù)據(jù)庫走诞,對數(shù)據(jù)庫表進(jìn)行分庫分表加單索引副女、雙索引以支撐業(yè)務(wù)交易的穩(wěn)定和高并發(fā),通過這種方式來支撐業(yè)務(wù)數(shù)字和指標(biāo)蚣旱,同樣可以快速的從業(yè)務(wù)數(shù)據(jù)庫里查詢出來碑幅。
最終,隨著客戶塞绿、訂單和外部流量的逐步上升沟涨,數(shù)據(jù)量從GB發(fā)展成TB級別,數(shù)據(jù)庫通過普通查詢存在較大的壓力异吻,只能做升級改造裹赴,于是就有了數(shù)據(jù)倉庫的誕生喜庞。
2、數(shù)據(jù)倉庫階段
隨著業(yè)務(wù)指數(shù)級的增長棋返,數(shù)據(jù)量增長的同時(shí)公司的組織架構(gòu)慢慢變得龐大延都、復(fù)雜,面臨的問題也越來越多睛竣,越來越深入晰房。公司上層關(guān)心的問題,從最初簡單的想知道“昨天射沟、今天的GMV”殊者、“上周的PV、UV是多少”验夯、“某品類商品的環(huán)比猖吴、同比的增長比例是多少”,慢慢演化到希望通過數(shù)據(jù)進(jìn)行精細(xì)化運(yùn)營和用戶的價(jià)值模型分析挥转。希望通過數(shù)據(jù)統(tǒng)計(jì)/分析/挖掘海蔽,分析出用戶在某種特定的使用場景中,比如“18~25歲女性用戶在過去三個(gè)月對服裝類商品的購買行為與節(jié)假日促銷活動(dòng)之間的關(guān)系”扁位。
當(dāng)公司運(yùn)營和高層准潭,提出此類非常具體的case,希望通過數(shù)據(jù)統(tǒng)計(jì)/分析/挖掘?qū)具\(yùn)營決策起到關(guān)鍵性作用的問題域仇,其實(shí)是很難從業(yè)務(wù)數(shù)據(jù)庫從直接調(diào)取出來刑然。
原因是由于數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的暇务。數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù)泼掠,為捕獲數(shù)據(jù)而設(shè)計(jì),在設(shè)計(jì)上數(shù)據(jù)庫是盡量避免冗余垦细,一般采用符合范式的規(guī)則來設(shè)計(jì)择镇。比如,業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)是為了完成商品交易而設(shè)計(jì)的括改,不是為了查詢和分析的便利設(shè)計(jì)的腻豌。數(shù)據(jù)倉庫存儲(chǔ)的一般是歷史數(shù)據(jù),為分析數(shù)據(jù)而設(shè)計(jì)嘱能,在設(shè)計(jì)上是有意引入冗余吝梅,采用反范式的方式來設(shè)計(jì)。數(shù)據(jù)庫和數(shù)據(jù)倉庫兩個(gè)基本的元素都有維表和事實(shí)表惹骂。(維表是看問題的角度苏携,比如時(shí)間,部門对粪、人右冻,維表放的就是這些東西的定義装蓬,事實(shí)表里放著要查詢的數(shù)據(jù),同時(shí)有維表的ID)纱扭。
因此牍帚,數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫跪但,而是為了更好的做數(shù)據(jù)分析和報(bào)表需求分析履羞,主要處理OLAP(聯(lián)機(jī)分析處理)需求峦萎。
但是屡久,隨著客戶、訂單和外部流量的逐步上升爱榔,數(shù)據(jù)量從TB發(fā)展成PB級別被环,原來的技術(shù)架構(gòu)越來越不能支持海量數(shù)據(jù)處理,這時(shí)候又有了數(shù)據(jù)平臺(tái)的誕生详幽。
3筛欢、數(shù)據(jù)平臺(tái)階段
第一、企業(yè)業(yè)務(wù)系統(tǒng)過多唇聘,彼此數(shù)據(jù)沒有打通版姑。涉及分析數(shù)據(jù)的過程當(dāng)中,需要先從各個(gè)系統(tǒng)尋找到相應(yīng)的數(shù)據(jù)迟郎,然后提取數(shù)據(jù)進(jìn)行整合打通剥险,才能做數(shù)據(jù)分析。在這個(gè)過程中人為進(jìn)行整合出錯(cuò)率高宪肖,分析效果不及時(shí)表制,導(dǎo)致整體的效率低下,數(shù)據(jù)遷移控乾、數(shù)據(jù)同步的滯后與錯(cuò)誤么介;
第二、業(yè)務(wù)系統(tǒng)壓力大蜕衡,架構(gòu)相對笨重壤短,做數(shù)據(jù)分析計(jì)算消耗資源很大。需要通過將數(shù)據(jù)抽取出來慨仿,經(jīng)過獨(dú)立服務(wù)器來處理數(shù)據(jù)查詢久脯、分析任務(wù),來釋放業(yè)務(wù)系統(tǒng)的壓力镶骗;
第三桶现、性能問題,公司業(yè)務(wù)越來越復(fù)雜鼎姊,數(shù)據(jù)量越來越大骡和。歷史數(shù)據(jù)的積累嚴(yán)重相赁,數(shù)據(jù)沒有得到使用。原始數(shù)據(jù)系統(tǒng)不能承受更大數(shù)據(jù)量的處理時(shí)慰于,數(shù)據(jù)處理效率嚴(yán)重下降钮科。
于是,通過整合Hadoop/Spark/Storm/Flink等分布式的離線與實(shí)時(shí)計(jì)算框架婆赠,建立計(jì)算集群绵脯,并在上面運(yùn)行各種計(jì)算任務(wù),搭建大數(shù)據(jù)平臺(tái)休里,使得平臺(tái)具有數(shù)據(jù)互聯(lián)互通蛆挫、支持多數(shù)據(jù)集實(shí)時(shí)同步、支持?jǐn)?shù)據(jù)資源管理妙黍,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合管控能力悴侵;可以提供完善的大數(shù)據(jù)分析基礎(chǔ)運(yùn)行環(huán)境,提供統(tǒng)一二次開發(fā)接口等能力的拭嫁,用這些能力來解決大數(shù)據(jù)存儲(chǔ)與計(jì)算問題可免,提升數(shù)據(jù)分析效率以及用戶畫像系統(tǒng)/推薦/搜索/廣告系統(tǒng)的運(yùn)用落地。
4做粤、數(shù)據(jù)中臺(tái)階段
數(shù)據(jù)量的指數(shù)級增長浇借,從PB發(fā)展成EB級別,為了更好的賦能業(yè)務(wù)怕品,企業(yè)啟動(dòng)中臺(tái)戰(zhàn)略妇垢,打通各個(gè)業(yè)務(wù)線的數(shù)據(jù),整合匯集數(shù)據(jù)堵泽,在底層通過技術(shù)手段解決數(shù)據(jù)統(tǒng)一存儲(chǔ)和統(tǒng)一計(jì)算問題修己,在數(shù)據(jù)服務(wù)層通過數(shù)據(jù)服務(wù)化的Data API的方式,打通數(shù)據(jù)平臺(tái)和前臺(tái)的業(yè)務(wù)層對接迎罗,結(jié)合算法睬愤,把前臺(tái)業(yè)務(wù)的分析需求和交易需求直接對接到中臺(tái)來,通過數(shù)據(jù)中臺(tái)處理和邏輯運(yùn)算纹安,然后在反向賦能業(yè)務(wù)尤辱,真正做到意義上的『一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化』厢岂。
數(shù)據(jù)倉庫光督、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的概念
數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合塔粒。它是單個(gè)數(shù)據(jù)存儲(chǔ)结借,出于分析性報(bào)告和決策支持目的而創(chuàng)建∽洳纾可以為需要業(yè)務(wù)智能的企業(yè)船老,提供指導(dǎo)業(yè)務(wù)流程改進(jìn)咖熟、監(jiān)視時(shí)間、成本柳畔、質(zhì)量以及控制馍管。是一個(gè)相對具體的功能概念,是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合薪韩,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表
數(shù)據(jù)平臺(tái)是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺(tái)确沸,變成一個(gè)集數(shù)據(jù)接入、數(shù)據(jù)處理俘陷、數(shù)據(jù)存儲(chǔ)罗捎、查詢檢索、分析挖掘等岭洲、應(yīng)用接口等為一體的平臺(tái)宛逗,為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集
數(shù)據(jù)中臺(tái)是全域級坎匿、可復(fù)用的數(shù)據(jù)資產(chǎn)中心與數(shù)據(jù)能力中心盾剩,可以提供干凈、透明替蔬、智慧的數(shù)據(jù)資產(chǎn)與高效告私、易用的數(shù)據(jù)能力,使得業(yè)務(wù)能夠數(shù)字化運(yùn)營承桥,為業(yè)務(wù)提供服務(wù)的方式主要是提供數(shù)據(jù)服務(wù)能力
數(shù)據(jù)倉庫的優(yōu)勢是具有元數(shù)據(jù)驻粟,通過表的方式很好的規(guī)整了數(shù)據(jù)。數(shù)據(jù)需要加工凶异,數(shù)倉是通過分層的模式蜀撑,每往上走一層,數(shù)據(jù)信息損耗會(huì)逐漸增加
數(shù)據(jù)平臺(tái)優(yōu)勢是可以提供高級分析功能和數(shù)據(jù)資源管理中心剩彬,主要有數(shù)據(jù)互聯(lián)互通酷麦,支持多數(shù)據(jù)集實(shí)時(shí)同步;支持?jǐn)?shù)據(jù)資源管理喉恋,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合管控沃饶;提供完善的大數(shù)據(jù)分析基礎(chǔ)運(yùn)行環(huán)境,提供統(tǒng)一二次開發(fā)接口等
數(shù)據(jù)中臺(tái)具有一個(gè)全局的元數(shù)據(jù)管理系統(tǒng)轻黑,管理的方式同樣是以表為主糊肤,粒度到字段級別。數(shù)據(jù)中臺(tái)這個(gè)元信息包含了各個(gè)子存儲(chǔ)的元信息氓鄙,以數(shù)據(jù)中臺(tái)需要的形態(tài)進(jìn)行組織馆揉,變成數(shù)據(jù)資產(chǎn)管理中心,通過數(shù)據(jù)地圖來來進(jìn)行承載抖拦,就像互聯(lián)管道一樣做數(shù)據(jù)分發(fā)中轉(zhuǎn)管理升酣,可以很好的找到我們要的數(shù)據(jù)以及對數(shù)據(jù)進(jìn)行關(guān)聯(lián)和處理勤讽、分析,進(jìn)一步加速企業(yè)從數(shù)字化轉(zhuǎn)型為業(yè)務(wù)價(jià)值的過程
數(shù)據(jù)倉庫拗踢、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的架構(gòu)
數(shù)據(jù)倉庫架構(gòu)
1脚牍、采集層
從各種數(shù)據(jù)源中采集數(shù)據(jù)和存儲(chǔ)到數(shù)據(jù)到存儲(chǔ)在基于Hadoop分布式文件系統(tǒng)HDFS上,期間做ETL操作巢墅。其中數(shù)據(jù)采集一般采用Flume收集日志诸狭,采用Sqoop將RDBMS以及NoSQL中的數(shù)據(jù)同步到HDFS上
數(shù)據(jù)源主要有:日志數(shù)據(jù)(服務(wù)器日志 + 系統(tǒng)日志等)+ 業(yè)務(wù)數(shù)據(jù)庫(Mysql、Oracle等)+ 埋點(diǎn)數(shù)據(jù)(服務(wù)端埋點(diǎn) + 移動(dòng)端埋點(diǎn)數(shù)據(jù)等)+ 其他數(shù)據(jù)(Excel手工錄入的數(shù)據(jù)君纫、合作伙伴提供的接口數(shù)據(jù)驯遇、第三方爬蟲數(shù)據(jù)、合法購買的第三方數(shù)據(jù)等)
2蓄髓、存儲(chǔ)與分析層
主要有離線計(jì)算 + 實(shí)時(shí)計(jì)算
存儲(chǔ)系統(tǒng):基于Hadoop分布式文件系統(tǒng)對采集層的數(shù)據(jù)進(jìn)行存儲(chǔ)
消息系統(tǒng):加入Kafka防止數(shù)據(jù)丟失
離線計(jì)算:是對實(shí)時(shí)性要求不高的部分叉庐,通常將計(jì)算結(jié)果保存在Hive中
實(shí)時(shí)計(jì)算:使用Spark Streaming、Storm消費(fèi)Kafka中收集的日志數(shù)據(jù)会喝,然后通過實(shí)時(shí)計(jì)算陡叠,將結(jié)果保存在Redis中
機(jī)器學(xué)習(xí):用Spark MLlib提供的機(jī)器學(xué)習(xí)算法
3、共享層
通過離線和實(shí)時(shí)計(jì)算的數(shù)據(jù)分析與計(jì)算后的結(jié)果存儲(chǔ)在數(shù)據(jù)共享層肢执,做數(shù)據(jù)共享層枉阵,主要做數(shù)據(jù)分發(fā)和調(diào)度中心。因?yàn)橥ㄟ^Hive预茄、MR兴溜、Spark、SparkSQL分析和計(jì)算的結(jié)果耻陕,是存儲(chǔ)在HDFS上拙徽,業(yè)務(wù)和應(yīng)用不可能直接從HDFS上獲取數(shù)據(jù)。其中使用Kylin作為OLAP引擎做多維度分析
4诗宣、數(shù)據(jù)應(yīng)用
報(bào)表展示 + 數(shù)據(jù)分析 + 即席查詢 + 數(shù)據(jù)挖掘
5膘怕、任務(wù)調(diào)度與監(jiān)控
數(shù)據(jù)平臺(tái)架構(gòu)
1、采集層
基于Hadoop分布式文件系統(tǒng)對采集層的數(shù)據(jù)進(jìn)行存儲(chǔ)梧田。
結(jié)構(gòu)化數(shù)據(jù):通過兩種途徑抽取并存放到HDFS分布式文件系統(tǒng)中淳蔼,能夠序列化的數(shù)據(jù),直接存放到HDFS中;不能夠序列化的數(shù)據(jù),通過數(shù)據(jù)整理后統(tǒng)一存放在分布式數(shù)據(jù)庫環(huán)境中, 再經(jīng)過序列化后和整理后還不能序列化的數(shù)據(jù)一樣直接存放到HDFS中;
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù):各種日志數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中;點(diǎn)擊流和數(shù)據(jù)接口中的數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中裁眯;非結(jié)構(gòu)化的數(shù)據(jù)直接存放到HDFS中
2鹉梨、數(shù)據(jù)層
一方面,把相關(guān)業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)和有一定格式關(guān)系的半結(jié)構(gòu)化的數(shù)據(jù)存放在Hadoop Hive數(shù)據(jù)倉庫中穿稳,基于業(yè)務(wù)需求存皂,按照特定的業(yè)務(wù)主題域進(jìn)行數(shù)據(jù)集市的構(gòu)建;另一方面把相關(guān)業(yè)務(wù)中半結(jié)構(gòu)化的數(shù)據(jù)直接存放在HDFS分布
3、計(jì)算層
離線計(jì)算 + 實(shí)時(shí)計(jì)算
4旦袋、應(yīng)用層
可視化數(shù)據(jù)分析報(bào)表 + 搜索/推薦/廣告具體的場景應(yīng)用
5骤菠、任務(wù)調(diào)度與監(jiān)控
阿里數(shù)據(jù)中臺(tái)架構(gòu)
1、為了保證快速疤孕、高效商乎、高質(zhì)量數(shù)據(jù)接入,建立統(tǒng)一數(shù)據(jù)質(zhì)量管理平臺(tái) + 數(shù)據(jù)能力中心
2祭阀、通過數(shù)據(jù)采集和接入為切入角度鹉戚,按照業(yè)態(tài)接入內(nèi)部數(shù)據(jù)(比如淘寶、天貓专控、盒馬等)+ 外部數(shù)據(jù)(爬蟲數(shù)據(jù)抹凳、第三方合作數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等)
3伦腐、把數(shù)據(jù)抽取到計(jì)算平臺(tái)赢底,通過以“業(yè)務(wù)板塊 + 業(yè)務(wù)過程 + 分析維度”為架構(gòu)去構(gòu)建“數(shù)據(jù)共享中心”,構(gòu)建OneData體系
4柏蘑、在數(shù)據(jù)共享中心的上層幸冻,以業(yè)務(wù)/自然對象 + 萃取標(biāo)簽“為架構(gòu)構(gòu)建“數(shù)據(jù)唯一中心”,構(gòu)建OneID體系辩越,打通消費(fèi)者數(shù)據(jù)體系嘁扼、企業(yè)數(shù)據(jù)體系、內(nèi)容數(shù)據(jù)體系等
5黔攒、經(jīng)過深度加工后,得到干凈强缘、透明督惰、智慧的數(shù)據(jù)賦能產(chǎn)品與業(yè)務(wù)線;通過統(tǒng)一的數(shù)據(jù)服務(wù)中間件“OneService”提供統(tǒng)一數(shù)據(jù)服務(wù)旅掂,讓『一切業(yè)務(wù)數(shù)據(jù)化赏胚,一切數(shù)據(jù)業(yè)務(wù)化』
數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系
數(shù)據(jù)倉庫商虐、數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系:
1觉阅、在概念層面上
數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的技術(shù)能力都是基于數(shù)據(jù)倉庫發(fā)展而來沒,在數(shù)據(jù)建設(shè)理論上一脈相承秘车,他們處理的對象都是海量數(shù)據(jù)典勇,服務(wù)目的、商業(yè)價(jià)值也同意類似叮趴。其實(shí)中平臺(tái)和中臺(tái)割笙,兩者在能力上都有對外都提供Open API服務(wù)。
一方面眯亦,中臺(tái)是業(yè)務(wù)應(yīng)用伤溉,不具體代表著某種技術(shù)般码,它不是最終用戶能直接使用的,必須結(jié)合企業(yè)的各個(gè)數(shù)據(jù)業(yè)務(wù)場景乱顾;另一方面板祝,平臺(tái)是不帶有業(yè)務(wù)特征性質(zhì)的,主要匯集其他人的能力走净,整合成平臺(tái)的能力扔字,相對來說是靜態(tài)的,而中臺(tái)是動(dòng)態(tài)變化的本身温技,需要通過數(shù)據(jù)驅(qū)動(dòng)的方式來滋養(yǎng)業(yè)務(wù)革为,不斷訓(xùn)練調(diào)整業(yè)務(wù)模型和業(yè)務(wù)算法提供的能力,提供給其他系統(tǒng)和平臺(tái)集成的能力舵鳞。
2震檩、在數(shù)據(jù)層面上
數(shù)據(jù)倉庫的數(shù)據(jù)來源主要來源于RDBMS,其中存儲(chǔ)的數(shù)據(jù)格式以結(jié)構(gòu)化數(shù)據(jù)為主蜓堕,這些數(shù)據(jù)并非企業(yè)全量數(shù)據(jù)抛虏,而是根據(jù)企業(yè)業(yè)務(wù)需求做針對性整合、抽取套才。數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)的數(shù)據(jù)來源的期望都是全域級的數(shù)據(jù)迂猴,主要有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)背伴、非結(jié)構(gòu)化數(shù)據(jù)等
3沸毁、在目標(biāo)層面上
數(shù)據(jù)倉庫基于單機(jī)的,一旦數(shù)據(jù)量變大傻寂,會(huì)受單機(jī)容量息尺、計(jì)算以及性能等方面的限制。主要用來做報(bào)表分析疾掰,目的性相對來說單一搂誉,只是針對相關(guān)分析報(bào)表用到基礎(chǔ)數(shù)據(jù),進(jìn)行抽取静檬、整合炭懊、數(shù)據(jù)清洗和分析。比如拂檩,新增一張報(bào)表侮腹,就要從底層到上層再做一次,流程上相對來說繁瑣广恢;
數(shù)據(jù)平臺(tái)建立是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題以及計(jì)算和性能等問題凯旋。匯集整合打通數(shù)據(jù),數(shù)據(jù)清洗后,當(dāng)業(yè)務(wù)提出需求的時(shí)候至非,把業(yè)務(wù)方需要的若干個(gè)小數(shù)據(jù)集單獨(dú)提取出來钠署,以數(shù)據(jù)集的形式提供給業(yè)務(wù)方去使用;
數(shù)據(jù)中臺(tái)通常會(huì)對來自多方面的基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗后荒椭,然后按照主題域的概念建立多個(gè)以事物為主的主題域谐鼎;和數(shù)據(jù)平臺(tái)在底層建設(shè)上都是基于分布式計(jì)算平臺(tái)和存儲(chǔ)平臺(tái),理論上可以通過無限擴(kuò)充平臺(tái)的計(jì)算和存儲(chǔ)能力趣惠。目標(biāo)是都是為了融合整個(gè)企業(yè)的全域級數(shù)據(jù)狸棍,打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不統(tǒng)一的問題味悄。
4草戈、在應(yīng)用層面上
建立在數(shù)據(jù)中臺(tái)上的數(shù)據(jù)應(yīng)用場景,不僅僅只是面向于數(shù)據(jù)報(bào)表開發(fā)分析與展示處理侍瑟,更多是將數(shù)據(jù)變成服務(wù)化的方式唐片,然后提供給業(yè)務(wù)系統(tǒng),比如面向用戶的畫像系統(tǒng)涨颜,搜索/推薦/廣告營銷系統(tǒng)等费韭。