最近安裝spark1.3.0并與Hadoop2.5.0集成,在Spark的歷史資源管理中心沒有找到對應(yīng)的版本,而且在網(wǎng)上也沒有找到對應(yīng)版本的編譯教程市袖,于是只能根據(jù)Spark官網(wǎng)提供的教程自己來手動編譯對應(yīng)的版本,廢話不多說,開始正文颗品。
一. 版本選擇:
spark-1.3.0.tgz ? ? ? ? ? ? ? ? ? ? ?http://archive.apache.org/dist/spark/spark-1.3.0/spark-1.3.0.tgz
scala-2.10.4 ? ? ? ? ? ? ? ? ? ? ? ? ? ?http://www.scala-lang.org/download/
apache-maven-3.3.3? ? ? ? ? ? ? http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/
二. 安裝:
①.安裝maven
1.減壓maven;
2.編輯 ~/.bashrc文件沃缘,將maven環(huán)境變量添加進(jìn)去躯枢;
3.修改settings.xml文件的mirrors,修改成阿里云的中央倉庫槐臀,不然下載jar文件會很悲催的:
<mirror>
? ? ? <id>nexus-aliyun</id>
? ? ? <mirrorOf>*</mirrorOf>
? ? ? <name>Nexus aliyun</name>
? ? ? <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
4. 使用如下命令驗(yàn)證maven是否安裝成功锄蹂,如果成功會顯示maven的版本等信息
mvn -version
②.安裝Scala,減壓scala水慨,在~/.bashrc 配置scala的環(huán)境變量得糜,使用如下命令測試是否安裝成功:
scala -version
③. 編譯spark-1.3.0-hadoop-2.5.0的包:
1.減壓spark;
2. 修改make文件晰洒,修改內(nèi)容見如下截圖:
3.執(zhí)行如下命令開始編譯朝抖,這個編譯過程大概持續(xù)1小時20分鐘左右,靜靜等候即可欢顷,編譯成功會產(chǎn)生如下圖所示日志:
./make-distribution.sh --name custom-spark --skip-java-test --tgz -Pyarn -Dhadoop.version=2.5.0? -Dscala-2.10.4 -Phive -Phive-thriftserver
三.Spark的幾種安裝模式
1.local模式
這種方式很簡單槽棍,直接減壓我們上面編譯好的spark包,然后通過運(yùn)行bin/spark-shell命令即可
2.standalone模式
這種模式是spark自帶的分布式的模式抬驴,不想說太多廢話炼七,下面直接開始配置
a.修改slaves.template文件:
mv slaves.template ?salves
添加的內(nèi)容如下,其實(shí)這里就是配置work的工作節(jié)點(diǎn),內(nèi)容如下截圖所示:
b.修改spark-env.sh.template文件:
mv spark-env.sh.template ? spark-env.sh
添加的內(nèi)容如下截圖所示:
c.修改spark-defaults.conf文件:
mv spark-defaults.conf.template spark-defaults.conf
添加內(nèi)容如下截圖所示:
好布持,到這里spark的standalone模式配置完成豌拙,啟動集群做測試,可以在http://master:8080就可以看到任務(wù)運(yùn)行的情況