StreamingPro目前已經(jīng)涵蓋流式/批處理,以及交互查詢?nèi)齻€(gè)領(lǐng)域剩岳,實(shí)現(xiàn)配置和SQL化
前言
今天介紹利用 StreamingPro 構(gòu)建流式(Spark Streaming)計(jì)算程序
準(zhǔn)備工作
- 下載StreamingPro
我們假設(shè)您將文件放在了/tmp目錄下秃流。
填寫配置文件
- 下面配置下載后無需任何改動(dòng)即可跑起來
假設(shè)你下載后重新命名為test.json,并且放在了/tmp目錄下。
ps: 這個(gè)例子里纹烹,我們模擬了一個(gè)流式數(shù)據(jù)源(一般而言是Kafka)扮惦,然后將該數(shù)據(jù)源映射成一張表test土思。 另外我們知道啄刹,在一般流式計(jì)算中,我們經(jīng)常需要一些映射數(shù)據(jù)焚辅,比如ip->地理位置 的映射關(guān)系映屋。所以我們定義了一張testJoinTable表,然后該表可以直接可以被流式數(shù)據(jù)中使用(使用Join)同蜻。最后打印出結(jié)果棚点。
啟動(dòng)StreamingPro
Local模式:
cd $SPARK_HOME
./bin/spark-submit --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar \
-streaming.name test \
-streaming.job.file.path file:///tmp/test.json
訪問
http://127.0.0.1:4040
可進(jìn)入Spark UI
集群模式:
cd $SPARK_HOME
./bin/spark-submit --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar \
-streaming.name test \
-streaming.job.file.path hdfs://cluster/tmp/test.json
這里需要注意的是,配置文件如果放到HDFS上湾蔓,則需要帶上hdfs前綴瘫析。這是一個(gè)標(biāo)準(zhǔn)的Spark 流式處理程序