項(xiàng)目效果
項(xiàng)目架構(gòu)
技術(shù)選型
數(shù)據(jù)生成:業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)
????Oracle:工單數(shù)據(jù)疆拘、物料數(shù)據(jù)寝并、服務(wù)商數(shù)據(jù)箫措、報(bào)銷數(shù)據(jù)等
數(shù)據(jù)采集
????Sqoop:離線數(shù)據(jù)庫采集
數(shù)據(jù)存儲
????Hive【HDFS】:離線數(shù)據(jù)倉庫【表】
數(shù)據(jù)計(jì)算
????SparkCore:類MR開發(fā)方式【寫代碼調(diào)用方法函數(shù)來處理:面向?qū)ο?+ 面向函數(shù)】
????????對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行代碼處理
????????場景:ETL
????SparkSQL:類HiveSQL開發(fā)方式【面向表】
????????對數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù)做處理分析
????????場景:統(tǒng)計(jì)分析
????????開發(fā)方式
????????????DSL:使用函數(shù)【DSL函數(shù) + RDD函數(shù)】
????????????SQL:使用SQL語句對表的進(jìn)行處理
? ? ? ? ?功能:離線計(jì)算 + 實(shí)時(shí)計(jì)算
? ?注意:SparkSQL可以解決所有場景的分布式計(jì)算,離線計(jì)算的選型不僅僅是SparkSQL
? ? ? ? ? ? ? SparkSQL/Impala/Presto
????使用方式
????????Python/Jar:spark-submit
????????????ETL
????????ThriftServer:SparkSQL用于接收SQL請求的服務(wù)端衬潦,類似于Hive的
????????Hiveserver2
????????????PyHive :Python連接SparkSQL的服務(wù)端斤蔓,提交SQL語句
????????????DBC:Java連接SparkSQL的服務(wù)端,提交SQL語句
????????????spark-sql -f :運(yùn)行SQL文件镀岛,類似于hive -f
????????????beeline:交互式命令行弦牡,一般用于測試
數(shù)據(jù)應(yīng)用
????MySQL:結(jié)果存儲
????Grafana:數(shù)據(jù)可視化工具
監(jiān)控工具
????Prometheus:服務(wù)器性能指標(biāo)監(jiān)控工具
調(diào)度工具
????AirFlow:任務(wù)流調(diào)度工具
項(xiàng)目資料
鏈接:https://pan.baidu.com/s/1ZO8wVn4IXAebGqH5gyRR6w
提取碼:jsgg
--來自百度網(wǎng)盤超級會員V5的分享