一.前期準(zhǔn)備
1.1 Win7官網(wǎng)下載spark包
本文使用版本spark-1.6.2-bin-hadoop2.6.tgz
1.2 配置jdk
jdk1.7:linux jdk安裝和配置
scala2.10.6:linux scala安裝和配置
hadoop-2.6.5:hadoop分布式集群搭建
1.3 centos7集群服務(wù)器
主機(jī)名 ? ?系統(tǒng) ? ? ? ? ?IP地址
master ? ?centos7 ? ?192.168.32.128
slave01 ? centos7 ? ?192.168.32.131
slave02 ? centos7 ? ? 192.168.32.132
二.spark完全分布式集群搭建
以下操作只針對master主機(jī)服務(wù)器呢撞,其他主機(jī)服務(wù)器類似布卡。
2.1 上傳spark包至 /opt/software目錄
2.2 解壓和拷貝spark至 /usr/local/spark
cd /opt/software
tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz
cp -r spark-1.6.2-bin-hadoop2.6 /usr/local/spark
spark解壓和拷貝完成
三.spark完全分布式集群配置
3.1 系統(tǒng)文件profile配置
配置系統(tǒng)環(huán)境變量
vi /etc/profile
退出保存链瓦,重啟配置
source /etc/profile
3.2 文件配置
定位:cd /usr/local/spark/conf
默認(rèn):
log4j.properties.template,spark-env.sh.template,slaves.template,spark-defaults.conf.template
復(fù)制:
log4j.properties,spark-env.sh,slaves,spark-defaults.conf
3.3 修改spark-env.sh文件
vi spark-env.sh
export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1G
export SPARK_EXECUTOR_MEMORY=1G
export SPARK_DRIVER_MEMORY=1G
export SPARK_WORKER_CORES=6
3.4 修改spark-defaults.conf文件
vi spark-defaults.conf
spark.eventLog.enabled? ? ? ? ? true
spark.eventLog.dir? ? ? ? ? ? ? hdfs://master:9000/historyserverforSpark
spark.executor.extraJavaOptions? -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
spark.yarn.historyServer.address? master:18080
spark.history.fs.logDirectory? ? ? hdfs://master:9000/historyserverforSpark
3.5 修改slaves文件
vi slaves
master
slave01
slave02
3.6 hadoop新建historyserverforSpark目錄
#新建historyserverforSpark目錄
hadoop fs -mkdir /historyserverforSpark
#查看目錄
hadoop fs -ls /
3.7?slave01和slave02服務(wù)器修改
3.7.1 spark文件復(fù)制
復(fù)制master中spark文件到slave01和slave02服務(wù)器的/usr/local目錄
scp -r /usr/local/sparkroot@slave01:/usr/local/spark
scp -r /usr/local/sparkroot@slave012:/usr/local/spark
3.7.2 ?系統(tǒng)環(huán)境profile配置
類似3.1 分別在salve01和slave02配置系統(tǒng)環(huán)境
四.spark集群測試
4.1 測試命令
#啟動
start-all.sh start
#停止
stop-all.sh start
4.2 集群測試
在master服務(wù)器運(yùn)行啟動命令
進(jìn)入/usr/local/spark目錄
4.2.1 啟動各個節(jié)點(diǎn)
sbin/start-all.sh start
4.2.2 啟動start-history-server
sbin/start-history-server.sh
4.2.3 查看節(jié)點(diǎn)狀態(tài)
jps查看節(jié)點(diǎn)進(jìn)程
4.2.4 web端驗證是否啟動成功
通過web端的18080端口查看是否啟動成功
http://192.168.32.128:18080
4.2.5 通過spark-submit命令運(yùn)行jar包
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.32.128:7077 lib/spark-examples-1.6.2-hadoop2.6.0.jar 10
至此勃蜘,spark完成分布式集群搭建完畢卿操。