StreamingPro目前已經(jīng)涵蓋流式/批處理免都,以及交互查詢(xún)?nèi)齻€(gè)領(lǐng)域,實(shí)現(xiàn)配置和SQL化
前言
今天介紹利用 StreamingPro 完成批處理的流程铜跑。
準(zhǔn)備工作
- 下載StreamingPro
我們假設(shè)您將文件放在了/tmp目錄下埋哟。
填寫(xiě)配置文件
- 實(shí)例一,我要把數(shù)據(jù)從ES導(dǎo)出到HDFS,并且形成csv格式。
在批處理模式下震嫉,所有的數(shù)據(jù)源和輸出都各自有一個(gè)固定的模塊(使用了Spark的Datasource API),然后對(duì)模塊做配置即可,無(wú)需使用不同的模塊牡属。
在這個(gè)示例里票堵,你需要配置上ES集群作為輸入,配置hdfs作為輸出逮栅,從而完成運(yùn)行悴势。
啟動(dòng)StreamingPro
Local模式:
cd $SPARK_HOME
./bin/spark-submit --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar \
-streaming.name test \
-streaming.platform spark \
-streaming.job.file.path file:///tmp/test.json
訪問(wèn)
http://127.0.0.1:4040
可進(jìn)入Spark UI
集群模式:
cd $SPARK_HOME
./bin/spark-submit --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar \
-streaming.name test \
-streaming.platform spark \
-streaming.job.file.path hdfs://cluster/tmp/test.json
這里需要注意的是,配置文件并蓄放到HDFS上措伐,并且需要協(xié)商hdfs前綴特纤。這是一個(gè)標(biāo)準(zhǔn)的Spark 批處理程序