Spark完全分布式集群搭建

環(huán)境準備

服務器集群
我用的CentOS-6.6版本的4個虛擬機文搂，主機名為hadoop01炕桨、hadoop02丧凤、hadoop03捌锭、hadoop04俘陷，另外我會使用hadoop用戶搭建集群(生產環(huán)境中root用戶不是可以任意使用的)
spark安裝包
下載地址：https://mirrors.aliyun.com/apache/spark/
我用的spark-2.2.0-bin-hadoop2.7.tgz
要根據(jù)自己機器中的hadoop版本選擇對應的spark版本

1. 集群規(guī)劃

image.png

1、安裝Scala

下載路徑：http://www.scala-lang.org/download/

拷貝文件到對應主機

（1）cp or SSH Secure File Transfer Client

（2）解壓縮 tar -zvxf scala-2.12.2.tgz

（3）mv *** /opt/scala

（4）配置環(huán)境變量 /etc/profile

export SCALA_HOME=/home/hadoop3/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin

（5）source /etc/profile

（6）驗證 scala -version

2. 詳細步驟

(1) 把安裝包上傳到hadoop01服務器并解壓

[hadoop@hadoop01 soft]$ tar zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /home/hadoop/apps/

# 解壓后如果感覺安裝目錄的名稱太長可以修改一下
[hadoop@hadoop01 soft]$ cd /home/hadoop/apps/
[hadoop@hadoop01 apps]$ mv spark-2.2.0-bin-hadoop2.7 spark-2.2.0

(2) 修改spark-env.sh配置文件

# 把SPARK_HOME/conf/下的spark-env.sh.template文件復制為spark-env.sh
[hadoop@hadoop01 apps]$ cd spark-2.2.0/conf
[hadoop@hadoop01 conf]$ mv spark-env.sh.template spark-env.sh

# 修改spark-env.sh配置文件观谦，添加如下內容
[hadoop@hadoop01 conf]$ vim spark-env.sh 

# 配置JAVA_HOME拉盾，一般來說，不配置也可以豁状，但是可能會出現(xiàn)問題捉偏，還是配上吧
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# 一般來說，spark任務有很大可能性需要去HDFS上讀取文件泻红，所以配置上
# 如果說你的spark就讀取本地文件夭禽，也不需要yarn管理，不用配
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.4/etc/hadoop

# 設置Master的主機名
export SPARK_MASTER_HOST=hadoop01
# 提交Application的端口谊路，默認就是這個讹躯，萬一要改呢，改這里
export SPARK_MASTER_PORT=7077
# 每一個Worker最多可以使用的cpu core的個數(shù)缠劝，我虛擬機就一個...
# 真實服務器如果有32個潮梯，你可以設置為32個
export SPARK_WORKER_CORES=1
# 每一個Worker最多可以使用的內存，我的虛擬機就2g
# 真實服務器如果有128G惨恭，你可以設置為100G
export SPARK_WORKER_MEMORY=1g

(3) 修改slaves配置文件酷麦，添加Worker的主機列表

[hadoop@hadoop01 conf]$ mv slaves.template slaves
[hadoop@hadoop01 conf]$ vim slaves

# 里面的內容原來為localhost
hadoop01
hadoop02
hadoop03
hadoop04

(4) 把SPARK_HOME/sbin下的start-all.sh和stop-all.sh這兩個文件重命名

比如分別把這兩個文件重命名為start-spark-all.sh和stop-spark-all.sh
原因：
如果集群中也配置HADOOP_HOME，那么在HADOOP_HOME/sbin目錄下也有start-all.sh和stop-all.sh這兩個文件喉恋，當你執(zhí)行這兩個文件沃饶，系統(tǒng)不知道是操作hadoop集群還是spark集群母廷。修改后就不會沖突了，當然糊肤，不修改的話琴昆，你需要進入它們的sbin目錄下執(zhí)行這些文件，這肯定就不會發(fā)生沖突了馆揉。我們配置SPARK_HOME主要也是為了執(zhí)行其他spark命令方便业舍。

[hadoop@hadoop01 conf]$ cd ../sbin
[hadoop@hadoop01 sbin]$ mv start-all.sh start-spark-all.sh
[hadoop@hadoop01 sbin]$ mv stop-all.sh stop-spark-all.sh

(5) 把spark安裝包分發(fā)給其他節(jié)點

[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop02:`pwd`
[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop03:`pwd`
[hadoop@hadoop01 apps]$ scp -r spark-2.2.0 hadoop04:`pwd`

(6) 在集群所有節(jié)點中配置SPARK_HOME環(huán)境變量

[hadoop@hadoop01 conf]$ vim ~/.bash_profile

export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

[hadoop@hadoop01 conf]$ source ~/.bash_profile

# 其他節(jié)點也都配置...

(7) 在spark master節(jié)點啟動spark集群

# 注意，如果你沒有執(zhí)行第4步升酣，一定要進入SPARK_HOME/sbin目錄下執(zhí)行這個命令
# 或者你在Master節(jié)點分別執(zhí)行start-master.sh和start-slaves.sh

[hadoop@hadoop01 conf]$ start-spark-all.sh

注意：

如果你配置了HADOOP_CONF_DIR舷暮，在啟動spark集群之前，先啟動hadoop集群

(8) 驗證