前言
dataworks是一款 集數(shù)據采集\數(shù)據存儲\數(shù)據計算\報表可視化\數(shù)據治理為一體的綜合化\全鏈路的大數(shù)據開發(fā)治理平臺
- 適用場景 比如說,我公司每日生成大數(shù)據量的業(yè)務數(shù)據,日志數(shù)據 需要構建數(shù)倉平臺,數(shù)據中臺,對公司的這些數(shù)據進行分析,為公司的營銷,生產提供數(shù)據支持.
市面大致有三種數(shù)倉和數(shù)據中臺處理方案
- 基于apache 開源的大數(shù)據框架 hadoop hive spark flink等,
- 基于CDH的大數(shù)據相關框架,優(yōu)點 集成性高,操作簡單,方便運維,缺點 貴
- 袋鼠云, 奇點云 dataworks等
對比之下 dataworks 不需要懂那么多原理,會操作使用即可,后期服務器部署及后續(xù)運維,可基于阿里云服務器完成
dataworks 官方文檔
大數(shù)據開發(fā)治理平臺 DataWorks (aliyun.com)
阿里云產品相關
阿里云產品 | 簡介 | 類比 |
---|---|---|
DataHub | 數(shù)據總線 | 類型 flume/datax+kafka 提供實時日志數(shù)據采集,并且可以緩存數(shù)據 |
阿里云OSS(Object Storage Service) | MaxCompute會將表數(shù)據存儲在阿里云OSS中 | HDFS |
E-MapReduce | 阿里開源大數(shù)據計算引擎 | MR,Spark |
MaxCompute | 分布式數(shù)據處理引擎 | 阿里自研,很好用 |
Dataworks | 基于MaxCompute的開發(fā)管理平臺 | 可視化的開發(fā)管理調度平臺 |
RDS | 關系型數(shù)據庫 | mysql,一般公司都用自己的數(shù)據庫,可以通過采集工具將數(shù)據采集到dataworks中 |
QuickBi | 可視化工具,效果酷炫 | Tableau沦童,Echarts吉嚣,powerbi最域,帆軟BI |
項目技術選型
數(shù)據采集: datax
數(shù)據存儲:MaxCompute,DataWorks
數(shù)據計算:MaxCompute铝阐,DataWorks
可視化 : QuickBi