Datavines
是一站式開源數(shù)據(jù)可觀測(cè)性平臺(tái)机久,提供元數(shù)據(jù)管理空扎、數(shù)據(jù)概覽報(bào)告藏鹊、數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)分布查詢转锈、數(shù)據(jù)趨勢(shì)洞察等核心能力,致力于幫助用戶全面地了解和掌管數(shù)據(jù)楚殿,讓您做到心中有數(shù)撮慨,目前作為 Datavane
開源組織的重點(diǎn)推薦項(xiàng)目,正式開源脆粥,歡迎大家使用砌溺。
核心特性
數(shù)據(jù)目錄
定時(shí)獲取數(shù)據(jù)源元數(shù)據(jù),構(gòu)造數(shù)據(jù)目錄
定時(shí)監(jiān)聽元數(shù)據(jù)變更情況
支持元數(shù)據(jù)的標(biāo)簽管理
數(shù)據(jù)質(zhì)量監(jiān)控
內(nèi)置 27 個(gè)數(shù)據(jù)質(zhì)量檢查規(guī)則变隔,開箱即用
-
支持 4 種數(shù)據(jù)質(zhì)量檢查規(guī)則類型
單表單列檢查類型
單表自定義
SQL
檢查類型跨表準(zhǔn)確性檢查類型
兩表值比對(duì)檢查類型
支持配置定時(shí)任務(wù)進(jìn)行定時(shí)檢查
支持配置
SLA
用于檢查結(jié)果告警
數(shù)據(jù)概覽
支持定時(shí)執(zhí)行數(shù)據(jù)探測(cè)规伐,輸出數(shù)據(jù)概覽報(bào)告
支持自動(dòng)識(shí)別列的類型自動(dòng)匹配合適的數(shù)據(jù)概況指標(biāo)
支持表行數(shù)趨勢(shì)監(jiān)控
支持列的數(shù)據(jù)分布情況查看
插件化設(shè)計(jì)
平臺(tái)以插件化設(shè)計(jì)為核心,以下模塊都支持用戶自定義插件
進(jìn)行擴(kuò)展
-
數(shù)據(jù)源:已支持
MySQL
匣缘、Impala
猖闪、Starocks
鲜棠、Doris
、Presto
培慌、Trino
豁陆、ClickHouse
、PostgreSQL
- 檢查規(guī)則:內(nèi)置空值檢查吵护、非空檢查盒音、枚舉檢查等27個(gè)檢查規(guī)則
-
作業(yè)執(zhí)行引擎:已支持
Spark
和Local
兩種執(zhí)行引擎。Spark
引擎目前僅支持Spark2.4
版本馅而,Local
引擎則是基于JDBC
開發(fā)的本地執(zhí)行引擎祥诽,無需依賴其他執(zhí)行引擎。 - 告警通道:已支持郵件
-
錯(cuò)誤數(shù)據(jù)存儲(chǔ):已支持
MySQL
和 本地文件(僅支持Local
執(zhí)行引擎) -
注冊(cè)中心:已支持
MySQL
瓮恭、PostgreSQL
和ZooKeeper
多種運(yùn)行模式
提供Web頁面配置檢查作業(yè)原押、運(yùn)行作業(yè)、查看作業(yè)執(zhí)行日志偎血、查看錯(cuò)誤數(shù)據(jù)和檢查結(jié)果
支持在線生成作業(yè)運(yùn)行腳本诸衔,通過
datavines-submit.sh
來提交作業(yè),可與調(diào)度系統(tǒng)配合使用
容易部署&高可用
平臺(tái)依賴少颇玷,容易部署
最小僅依賴
MySQL
既可啟動(dòng)項(xiàng)目笨农,完成數(shù)據(jù)質(zhì)量作業(yè)的檢查支持水平擴(kuò)容,自動(dòng)容錯(cuò)
無中心化設(shè)計(jì)帖渠,
Server
節(jié)點(diǎn)支持水平擴(kuò)展提高性能作業(yè)自動(dòng)容錯(cuò)谒亦,保證作業(yè)不丟失和不重復(fù)執(zhí)行
項(xiàng)目架構(gòu)
CatalogManager
CatalogManager
是負(fù)責(zé)管理元數(shù)據(jù)的組件,主要負(fù)責(zé)元數(shù)據(jù)的存儲(chǔ)空郊、查詢以及元數(shù)據(jù)獲取任務(wù)的調(diào)度和容錯(cuò)處理等份招。
DataQualityCenter
DataQualityCenter
是負(fù)責(zé)數(shù)據(jù)質(zhì)量管理的組件,主要負(fù)責(zé)數(shù)據(jù)質(zhì)量規(guī)則的管理狞甚、數(shù)據(jù)質(zhì)量作業(yè)的調(diào)度锁摔、執(zhí)行和自動(dòng)容錯(cuò)處理等。
快速上手
數(shù)據(jù)概覽
進(jìn)行數(shù)據(jù)概覽只需下面3步:
- 創(chuàng)建數(shù)據(jù)源(或者選擇創(chuàng)建好的數(shù)據(jù)源)
- 點(diǎn)擊相應(yīng)的表
- 點(diǎn)擊右上角 運(yùn)行概覽 并選擇想要探查的列
數(shù)據(jù)質(zhì)量檢查
進(jìn)行數(shù)據(jù)質(zhì)量檢查只需下面4步:
- 點(diǎn)擊想要進(jìn)行檢查的列哼审,點(diǎn)擊 添加作業(yè)
- 選擇 檢查規(guī)則 并填入?yún)?shù)
- 選擇 檢查公式 谐腰,比如 實(shí)際值/期望值 x100% ,填入比較符和閾值
- 點(diǎn)擊保存并運(yùn)行即可
加入我們
Datavines 的目標(biāo)是成為更好的數(shù)據(jù)可觀測(cè)性領(lǐng)域的開源項(xiàng)目涩盾,為更多的用戶去解決元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理中遇到的問題十气。在此我們真誠(chéng)歡迎更多的貢獻(xiàn)者參與到社區(qū)建設(shè)中來,和我們一起成長(zhǎng)春霍,攜手共建更好的社區(qū)砸西。
- 項(xiàng)目地址: https://github.com/datavane/datavines
- 問題和建議: https://github.com/datavane/datavines/issues
- 貢獻(xiàn)代碼: https://github.com/datavane/datavines/pulls
關(guān)于Datavane
Datavane
是一個(gè)專注于大數(shù)據(jù)領(lǐng)域的開源組織(社區(qū)),由一群大數(shù)據(jù)領(lǐng)域優(yōu)秀的開源項(xiàng)目作者共同創(chuàng)建,旨在幫助開源項(xiàng)目作者更好的建設(shè)項(xiàng)目芹枷、為大眾提供高質(zhì)量的開源軟件衅疙,宗旨是:只為做一個(gè)好軟件。目前已經(jīng)聚集了一批優(yōu)質(zhì)的開源項(xiàng)目杖狼,涉及到數(shù)據(jù)集成炼蛤、大數(shù)據(jù)組件管理、數(shù)據(jù)質(zhì)量等蝶涩。
在 Datavane
社區(qū)中理朋,所有的項(xiàng)目都是開源開放的,代碼質(zhì)量和架構(gòu)設(shè)計(jì)優(yōu)質(zhì)的潛力項(xiàng)目绿聘。社區(qū)保持開放中立嗽上、協(xié)作創(chuàng)造、堅(jiān)持精品熄攘,鼓勵(lì)所有的開發(fā)者兽愤、用戶和貢獻(xiàn)者積極參與我們的社區(qū)、共同合作挪圾,創(chuàng)新創(chuàng)造浅萧,建設(shè)一個(gè)更加強(qiáng)大的開源社區(qū)。
Github: https://github.com/datavane