數(shù)據(jù)中臺是指通過數(shù)據(jù)技術(shù)媒鼓,對海量數(shù)據(jù)進行采集、計算错妖、存儲绿鸣、加工,同時統(tǒng)一標(biāo)準(zhǔn)和口徑暂氯。
數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后潮模,會形成標(biāo)準(zhǔn)數(shù)據(jù),再進行存儲痴施,形成大數(shù)據(jù)資產(chǎn)層擎厢,進而為客戶提供高效服務(wù)究流。這些服務(wù)跟企業(yè)的業(yè)務(wù)有較強的關(guān)聯(lián)性,是這個企業(yè)獨有的且能復(fù)用的动遭,它是企業(yè)業(yè)務(wù)和數(shù)據(jù)的沉淀芬探,其不僅能降低重復(fù)建設(shè)、減少煙囪式協(xié)作的成本厘惦,也是差異化競爭優(yōu)勢所在偷仿。數(shù)據(jù)中臺組成圖如下:
1.元數(shù)據(jù)管理
可以根據(jù)不同的業(yè)務(wù)域,組織管理數(shù)據(jù)模型宵蕉;支持?jǐn)?shù)據(jù) 模型的增刪改查酝静;支持模型的復(fù)制,修改和再定義羡玛,滿足業(yè)務(wù)快速變化 的需求别智。
2.?dāng)?shù)據(jù)集成
(1)數(shù)據(jù)源管理
1)異構(gòu)數(shù)據(jù)源整合:兼容多種數(shù)據(jù)源,可接入企業(yè)內(nèi)部各類業(yè)務(wù)系統(tǒng) API缝左、 各種經(jīng)典關(guān)系行數(shù)據(jù)庫(Oracle亿遂, SQL Server, MySQL渺杉, DB2 等)蛇数, 各種 NoSQL 數(shù)據(jù)庫(MongoDB 等),各種數(shù)據(jù)文件(CSV是越, EXCEL)耳舅, 還有其他公共數(shù)據(jù)服務(wù)等來源,兼容各種數(shù)據(jù)源類型倚评,輕松集成整合所 有相關(guān)業(yè)務(wù)數(shù)據(jù)浦徊;
2)數(shù)據(jù)源管理包括數(shù)據(jù)源增加、修改天梧、刪除以及連接測試等盔性。
(2)數(shù)據(jù)同步
將業(yè)務(wù)端數(shù)據(jù)定時同步至中臺數(shù)據(jù)倉庫中,后續(xù)根據(jù)業(yè)務(wù)要求呢岗,可進行整合治理冕香。具體功能如下:
1) 數(shù)據(jù)源保存后,通過配置源數(shù)據(jù)源和目標(biāo)數(shù)據(jù)源后豫,實現(xiàn)數(shù)據(jù)同步任務(wù)創(chuàng)建悉尾。進一步設(shè)置任務(wù)同步機制,開啟任務(wù)同步挫酿。
2) 提供任務(wù)詳情查看构眯、修改、刪除操作早龟。
3.?dāng)?shù)據(jù)治理
數(shù)據(jù)治理主要包括數(shù)據(jù)清洗轉(zhuǎn)換惫霸、關(guān)聯(lián)整合猫缭、質(zhì)量管理等。通過數(shù)據(jù)關(guān)聯(lián)整合和數(shù)據(jù)組織管理它褪,形成數(shù)據(jù)資產(chǎn)饵骨。
數(shù)據(jù)中臺提供數(shù)據(jù)處理算子,通過算子堆疊和任務(wù)調(diào)度茫打,完成數(shù)據(jù)從一個數(shù)據(jù)集到另一個數(shù)據(jù)集的轉(zhuǎn)換過程居触。
通過數(shù)據(jù)的先期導(dǎo)入存儲,后續(xù)根據(jù)業(yè)務(wù)要求老赤,靈活加工轮洋,將 傳統(tǒng) ETL 過程轉(zhuǎn)化成了 ELT 過程,保證了數(shù)據(jù)業(yè)務(wù)的靈活性抬旺,快速的滿足業(yè)務(wù) 需求弊予。 數(shù)據(jù) Transform 的過程中,提供了很多數(shù)據(jù)轉(zhuǎn)換子操作开财,可以靈活的根據(jù)業(yè)務(wù)需要進行組合汉柒,從而形成一個完整的數(shù)據(jù)處理流程。
4.任務(wù)管理
基于中臺任務(wù)管理责鳍,實現(xiàn)數(shù)據(jù)ETL處理和數(shù)據(jù)倉庫建設(shè)碾褂。任務(wù)管理提供可視化的配置界面,能夠通過托拉拽方式历葛,完成數(shù)據(jù)治理任務(wù)配置正塌。
作為數(shù)據(jù)處理的核心體系之一,批量式數(shù)據(jù)處理是企業(yè)中最常見的業(yè)務(wù)場 景恤溶。針對這種數(shù)據(jù)處理方式乓诽,提供了統(tǒng)一的任務(wù)調(diào)度管理功能,在該模塊中咒程,可以看到數(shù)據(jù)中臺內(nèi)部所有批量數(shù)據(jù)處理的任務(wù)鸠天,包括這些 任務(wù)的狀態(tài),執(zhí)行歷史等信息帐姻。用戶也可以對這些任務(wù)進行操作粮宛,包括修改, 執(zhí)行卖宠,暫停或者取消等忧饭。
5.?dāng)?shù)據(jù)服務(wù)管理
數(shù)據(jù)中臺中扛伍,通過 API 方式對外提供數(shù)據(jù)服務(wù),提供配置化的 API 能力词裤,可以通過簡單的配置將數(shù)據(jù)集轉(zhuǎn)換為數(shù)據(jù)API服務(wù)刺洒,供前端應(yīng)用使用鳖宾,同時 API 還能具備權(quán)限控制和數(shù)據(jù)緩存能力,提升系統(tǒng)響應(yīng)能力逆航;
利用數(shù)據(jù)服務(wù)發(fā)布功能鼎文,操作人員可以通過界面配置,直接使用 Restful API 的方式暴露數(shù)據(jù)因俐,提供數(shù)據(jù)服務(wù)拇惋。無須進行任何代碼的編寫,數(shù)據(jù)服務(wù) API 采用標(biāo)準(zhǔn)的 Restful 形式抹剩,數(shù)據(jù)使用標(biāo)準(zhǔn)的 JSON / XML 撑帖,方便業(yè)務(wù)系統(tǒng)進行對接。同時可以增加數(shù)據(jù)權(quán)限校驗澳眷,也可以通過緩存胡嘿,增加 API 的數(shù)據(jù)服務(wù)性能,更好的提供數(shù)據(jù)服務(wù)钳踊。
可以將中臺數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)發(fā)布為 RESTFULL API衷敌,并提供添加、刪除拓瞪、檢查缴罗、更改和使用數(shù)據(jù)API服務(wù)等功能。
- 系統(tǒng)管理
數(shù)據(jù)中臺可通過用戶權(quán)限管理吴藻、日志管理瞒爬、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)標(biāo)簽管理沟堡、人工智能算法管理等功能侧但,提升數(shù)據(jù)中臺能力。 - 產(chǎn)品
(1)搭建數(shù)據(jù)中臺需要圍繞“規(guī)劃航罗、治理禀横、整合、共享”四步粥血,將企業(yè)海量柏锄、多維的數(shù)據(jù)資產(chǎn)盤點、整合复亏、分析趾娃、確保整個公司數(shù)據(jù)一致性和可復(fù)用性,為前臺提供數(shù)據(jù)資產(chǎn)缔御、數(shù)據(jù)定制創(chuàng)新抬闷、數(shù)據(jù)監(jiān)測與數(shù)據(jù)分析等服務(wù),最終實現(xiàn)數(shù)據(jù)資產(chǎn)的價值最大化。DataHunter數(shù)據(jù)中臺 Data Formula產(chǎn)品數(shù)據(jù)架構(gòu)圖
image.png
(2)開源LarkMidTable
LarkMidTable 是一站式開源的數(shù)據(jù)中臺笤成,實現(xiàn)元數(shù)據(jù)管理评架,數(shù)據(jù)倉庫開發(fā),數(shù)據(jù)質(zhì)量管理炕泳,數(shù)據(jù)的可視化纵诞,實現(xiàn)高效賦能數(shù)據(jù)前臺并提供數(shù)據(jù)服務(wù)的產(chǎn)品。開源產(chǎn)品尚在開發(fā)中培遵,架構(gòu)圖如下:
image.png
[數(shù)據(jù)中臺與之前的數(shù)據(jù)倉庫有什么區(qū)別浙芙?(https://www.zhihu.com/question/282421879/answer/427034400)
LarkMidTable Github
LarkMidTable README_CH
lansane Lark
數(shù)據(jù)中臺 總結(jié)
數(shù)據(jù)中臺(一)什么是數(shù)據(jù)中臺
開源大數(shù)據(jù)中臺引擎Zeus
[Data Formula 產(chǎn)品白皮書]