環(huán)境準備
服務器集群
我用的CentOS-6.6版本的4個虛擬機文搂,主機名為hadoop01炕桨、hadoop02丧凤、hadoop03捌锭、hadoop04俘陷,另外我會使用hadoop用戶搭建集群(生產環(huán)境中root用戶不是可以任意使用的)spark安裝包
下載地址:https://mirrors.aliyun.com/apache/spark/
我用的spark-2.2.0-bin-hadoop2.7.tgz
要根據(jù)自己機器中的hadoop版本選擇對應的spark版本
1. 集群規(guī)劃
1、安裝Scala
下載路徑:http://www.scala-lang.org/download/
拷貝文件到對應主機
(1)cp or SSH Secure File Transfer Client
(2)解壓縮 tar -zvxf scala-2.12.2.tgz
(3)mv *** /opt/scala
(4)配置環(huán)境變量 /etc/profile
export SCALA_HOME=/home/hadoop3/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin
(5)source /etc/profile
(6)驗證 scala -version
2. 詳細步驟
(1) 把安裝包上傳到hadoop01服務器并解壓
[hadoop@hadoop01 soft]$ tar zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /home/hadoop/apps/
# 解壓后如果感覺安裝目錄的名稱太長可以修改一下
[hadoop@hadoop01 soft]$ cd /home/hadoop/apps/
[hadoop@hadoop01 apps]$ mv spark-2.2.0-bin-hadoop2.7 spark-2.2.0
(2) 修改spark-env.sh配置文件
# 把SPARK_HOME/conf/下的spark-env.sh.template文件復制為spark-env.sh
[hadoop@hadoop01 apps]$ cd spark-2.2.0/conf
[hadoop@hadoop01 conf]$ mv spark-env.sh.template spark-env.sh
# 修改spark-env.sh配置文件观谦,添加如下內容
[hadoop@hadoop01 conf]$ vim spark-env.sh
# 配置JAVA_HOME拉盾,一般來說,不配置也可以豁状,但是可能會出現(xiàn)問題捉偏,還是配上吧
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# 一般來說,spark任務有很大可能性需要去HDFS上讀取文件泻红,所以配置上
# 如果說你的spark就讀取本地文件夭禽,也不需要yarn管理,不用配
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.4/etc/hadoop
# 設置Master的主機名
export SPARK_MASTER_HOST=hadoop01
# 提交Application的端口谊路,默認就是這個讹躯,萬一要改呢,改這里
export SPARK_MASTER_PORT=7077
# 每一個Worker最多可以使用的cpu core的個數(shù)缠劝,我虛擬機就一個...
# 真實服務器如果有32個潮梯,你可以設置為32個
export SPARK_WORKER_CORES=1
# 每一個Worker最多可以使用的內存,我的虛擬機就2g
# 真實服務器如果有128G惨恭,你可以設置為100G
export SPARK_WORKER_MEMORY=1g
(3) 修改slaves配置文件酷麦,添加Worker的主機列表
[hadoop@hadoop01 conf]$ mv slaves.template slaves
[hadoop@hadoop01 conf]$ vim slaves
# 里面的內容原來為localhost
hadoop01
hadoop02
hadoop03
hadoop04
(4) 把SPARK_HOME/sbin下的start-all.sh和stop-all.sh這兩個文件重命名
比如分別把這兩個文件重命名為start-spark-all.sh和stop-spark-all.sh
原因:
如果集群中也配置HADOOP_HOME,那么在HADOOP_HOME/sbin目錄下也有start-all.sh和stop-all.sh這兩個文件喉恋,當你執(zhí)行這兩個文件沃饶,系統(tǒng)不知道是操作hadoop集群還是spark集群母廷。修改后就不會沖突了,當然糊肤,不修改的話琴昆,你需要進入它們的sbin目錄下執(zhí)行這些文件,這肯定就不會發(fā)生沖突了馆揉。我們配置SPARK_HOME主要也是為了執(zhí)行其他spark命令方便业舍。
[hadoop@hadoop01 conf]$ cd ../sbin
[hadoop@hadoop01 sbin]$ mv start-all.sh start-spark-all.sh
[hadoop@hadoop01 sbin]$ mv stop-all.sh stop-spark-all.sh
(5) 把spark安裝包分發(fā)給其他節(jié)點
[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop02:`pwd`
[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop03:`pwd`
[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop04:`pwd`
(6) 在集群所有節(jié)點中配置SPARK_HOME環(huán)境變量
[hadoop@hadoop01 conf]$ vim ~/.bash_profile
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
[hadoop@hadoop01 conf]$ source ~/.bash_profile
# 其他節(jié)點也都配置...
(7) 在spark master節(jié)點啟動spark集群
# 注意,如果你沒有執(zhí)行第4步升酣,一定要進入SPARK_HOME/sbin目錄下執(zhí)行這個命令
# 或者你在Master節(jié)點分別執(zhí)行start-master.sh和start-slaves.sh
[hadoop@hadoop01 conf]$ start-spark-all.sh
注意:
- 如果你配置了HADOOP_CONF_DIR舷暮,在啟動spark集群之前,先啟動hadoop集群
(8) 驗證
spark完全分布式集群搭建成功噩茄!