1恬总、Maven父子項目的使用
在簡述maven 中會有詳細描述
2鸣峭、spark程序的編寫
1)新建一個maven項目宏所,并將該項目配置成scala
2)編寫spark項目
(1)創(chuàng)建sparkconf配置
(2)創(chuàng)建sparkContext連接spark集群
(3)讀取你的數(shù)據(jù)文件
(4)編寫你的應用邏輯
(5)將結果輸出
(6)關閉你的spark連接。
3摊溶、IDEA中Spark程序的運行
1)本地local模式運行【Debug】
master需要設置成為local或者local[*] * 表示多線程
2)IDEA打包集群運行
提交jar包的參數(shù)
(1) --class 指定你的jar包中的主類
(2)--master 指定集群的地址
(3)--deploy-mode 可選爬骤,默認是client模式, 注意client模式和cluster模式的區(qū)別
(4)--conf 指定配置屬性
(5) 指定你的jar包地址
(6)指定你的jar包的參數(shù)
3)外部集群運行【Debug】
.setJars(List("C:\\spark\\target\\wordcount-jar-with-dependencies.jar"))
.setIfMissing("spark.driver.host", "192.168.2.1")
4莫换、提交的組件總結
1)Standalone模式
(1)Master:整個集群的管理器霞玄,負責分配資源,單獨的JVM進程
(2)Worker:負責管理Executor拉岁,單獨的JVM進程
(3)Driver:負責提交Jar包的客戶端溃列,
(4)client模式:Driver運行在提交端
(5)cluster模式:Driver運行在某一個Executor中。
(6)Executor:具體執(zhí)行任務的容器膛薛,單獨的JVM進行听隐。
2)Yarn模式
(1)ResourceManager
(2)NodeManager
(3)我不用啟動Spark集群