標(biāo)簽(空格分隔): 數(shù)據(jù)倉庫
一、什么是數(shù)據(jù)中臺(tái)
數(shù)據(jù)中臺(tái)的概念最是阿里提出來的是為了實(shí)現(xiàn)數(shù)據(jù)的分層和水平解耦碉怔,提供數(shù)據(jù)服務(wù)能力〗白伲看了那么多中臺(tái)的概念芹啥,對中臺(tái)也有些自己的理解。筆者認(rèn)為中臺(tái)主要是為了提供全域的數(shù)據(jù)服務(wù)墓怀。主要包括以下4部分:數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理虱朵、數(shù)據(jù)模型、數(shù)據(jù)服務(wù)碴犬。打通數(shù)據(jù)建模對全域數(shù)據(jù)進(jìn)行沉淀形成數(shù)據(jù)資產(chǎn)梆暮,從而提供統(tǒng)一的數(shù)據(jù)服務(wù)功能。
二偿荷、如何建立數(shù)據(jù)中臺(tái)
建設(shè)數(shù)據(jù)中臺(tái)主要就是從數(shù)據(jù)模型、數(shù)據(jù)資產(chǎn)遭顶、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)四部分出發(fā)棒旗。
首先需要做整體規(guī)劃,哪些數(shù)據(jù)需要納入到數(shù)據(jù)中臺(tái)中饶深,根據(jù)數(shù)據(jù)接入的情況逛拱,進(jìn)行技術(shù)選型,評(píng)估集群的配置朽合,規(guī)劃至少3年的計(jì)算和存儲(chǔ)資源。
1曹步、數(shù)據(jù)模型
數(shù)據(jù)模型,就是我們熟悉的數(shù)據(jù)倉庫中的模型尿孔,按照數(shù)據(jù)倉庫規(guī)范分層開發(fā)模型筹麸,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化,多采用維度建模物赶。還有一些挖掘模型,如果用的多了侵续,也可以沉淀到數(shù)據(jù)中臺(tái)中憨闰。我們可以看出數(shù)據(jù)中臺(tái)中的模型具有通用性状蜗。
數(shù)據(jù)建模一般分為2個(gè)步驟:
確認(rèn)事實(shí)表鹉动,分析業(yè)務(wù)的生命周期,明確業(yè)務(wù)的關(guān)鍵步驟缸血。在進(jìn)行指標(biāo)定義的時(shí)候是否覆蓋了本主題語中的全部指標(biāo),判斷哪些指標(biāo)可以通過加減乘除計(jì)算得到等捎泻。
確定維度,粒度是模型設(shè)計(jì)的關(guān)鍵郎汪,太細(xì)的粒度不利于上層數(shù)據(jù)分析匯總闯狱,太粗的粒度又不能滿足前段多維度個(gè)性化查詢需求『骞拢基于此,模型設(shè)計(jì)時(shí)候一般考慮分層瘦陈,層級(jí)越往后,粒度越粗媒抠。冗余維度也是需要考慮的咏花,設(shè)計(jì)冗余的維度可以避免統(tǒng)計(jì)中過多的關(guān)聯(lián)導(dǎo)致復(fù)雜的計(jì)算邏輯阀趴,影響性能昏翰。
2刘急、數(shù)據(jù)資產(chǎn)
在數(shù)據(jù)倉庫中我們已經(jīng)建立了一些模型,但是只有打通數(shù)據(jù)孤島后才可以稱為資產(chǎn)统求。需要規(guī)范指標(biāo)庫据块,這些指標(biāo)可以組合處理滿足外部人員個(gè)性化的指標(biāo)需求。資產(chǎn)管理的基礎(chǔ)是做好元數(shù)據(jù)管理另假,元數(shù)據(jù)包括采集的接口信息,模型信息己莺、指標(biāo)定義奏甫,作業(yè)的血緣關(guān)系凌受、數(shù)據(jù)存儲(chǔ)以及訪問情況等。
3款筑、數(shù)據(jù)治理
很多數(shù)據(jù)倉庫人員曾淪為“表哥”腾么,天天忙著提取數(shù)據(jù)核對指標(biāo),時(shí)間長了解虱,業(yè)務(wù)人員容易對你的數(shù)據(jù)不信任。數(shù)據(jù)治理主要是為了保障數(shù)據(jù)資產(chǎn)的完整性于宙、準(zhǔn)確性悍汛、一致性捞魁、及時(shí)性离咐。根據(jù)指定的規(guī)范開發(fā)模型、校驗(yàn)?zāi)P屠ブ⒐芾砟P褪跆眨瑸闃I(yè)務(wù)提供統(tǒng)一的、準(zhǔn)確的指標(biāo)保駕護(hù)航梧宫。
4、數(shù)據(jù)服務(wù)
數(shù)據(jù)中臺(tái)最重要的就是要對外提供統(tǒng)一的服務(wù)能力脓豪。數(shù)據(jù)服務(wù)需要包含以下幾個(gè)能力:
數(shù)據(jù)接口標(biāo)準(zhǔn)化:提供統(tǒng)一的數(shù)據(jù)服務(wù)在線查詢視圖馆铁,讓開發(fā)者能夠快速、簡單的訪問數(shù)據(jù)服務(wù);
數(shù)據(jù)開發(fā)可視化:提供服務(wù)接口的可視化配置历谍,開發(fā)者只需要配置SQL就可以生產(chǎn)API,減低接口開發(fā)技術(shù)要求印蔬,便于維護(hù)和接口管理脱衙。對于業(yè)務(wù)分析人員可以讓他們輕松的進(jìn)行算法分析,包括模型管理捐韩、可視化編排流程,算法模型發(fā)布等功能瞧预。
三仅政、數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫有什么不同
很多人對數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫兩個(gè)概念可能不是很清楚,其實(shí)最主要的是思維理念不同圆丹,數(shù)據(jù)倉庫是“管理數(shù)據(jù)”,數(shù)據(jù)中臺(tái)是“經(jīng)營數(shù)據(jù)”辫封,數(shù)據(jù)中臺(tái)是為了提供服務(wù)而生(也有說是為了前臺(tái)而生)。
參考資料:《數(shù)據(jù)中臺(tái)-阿里巴巴的數(shù)據(jù)整合檀咙、價(jià)值發(fā)掘璃诀、社會(huì)賦能之道》