分布式平臺搭建
- acmore
- 2018.6.17
1. 搭建Hadoop
以下操作皆基于Ubuntu 16.04 32位環(huán)境 & Hadoop 2.7.3版本
1.1 單節(jié)點環(huán)境
- 首先安裝相關的準備環(huán)境
$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server
-
配置JAVA_HOME
- 一般來說Ubuntu平臺上通過default-jdk安裝的java位置在
/usr/lib/jvm/default-jdk
目錄 - 在
/etc/profile
中添加下邊兩行內(nèi)容并保存退出
export JAVA_HOME=/usr/lib/jvm/default-java export PATH=$PATH:$JAVA_HOME/bin
- 一般來說Ubuntu平臺上通過default-jdk安裝的java位置在
- 添加用戶和用戶組
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser
-
配置ssh
- 切換到hduser橄务,并執(zhí)行以下操作
$ ssh-keygen -t rsa -P "" $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 之后嘗試使用下邊的命令連接本機存崖,這個操作也會將本機加入到known hosts里
$ ssh localhost
-
安裝Hadoop
- 下載hadoop-2.7.3.tar.gz惕味,以下假定工作目錄為
/home/hduser
$ tar -zxvf hadoop-2.7.3.tar.gz $ mv hadoop-2.7.3/ hadoop/ $ sudo chown -R hduser:hadoop hadoop
- 下載hadoop-2.7.3.tar.gz惕味,以下假定工作目錄為
-
編輯bash配置
- 打開.bashrc晴音,加入以下內(nèi)容(也可以修改
/etc/profile
,但是使用.bashrc更加靈活)
export JAVA_HOME=/usr/lib/jvm/default-java export HADOOP_HOME=/home/hduser/hadoop export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
- 打開.bashrc晴音,加入以下內(nèi)容(也可以修改
-
配置Hadoop(不同版本的hadoop的配置方案會有不同,配置之前記得要確定版本)
- 修改
~/hadoop/etc/hadoop/hadoop-env.sh
,在文件中添加下邊的內(nèi)容
export JAVA_HOME=/usr/lib/jvm/default-java
- 修改
~/hadoop/etc/hadoop/yarn-env.sh
,在文件中添加下邊的內(nèi)容
export JAVA_HOME=/usr/lib/jvm/default-java
- 修改
~/hadoop/etc/hadoop/core-site.xml
- 執(zhí)行以下命令
$ sudo mkdir -p /home/hduser/tmp $ sudo chown hduser:hadoop /home/hduser/tmp $ sudo chmod 750 /home/hduser/tmp
- 在core-site.xml添加以下內(nèi)容(各個屬性的內(nèi)容可以按照實際情況修改)
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hduser/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>hadoop.proxyuser.hduser.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hduser.groups</name> <value>*</value> </property> </configuration>
- 修改
~/hadoop/etc/hadoop/hdfs-site.xml
朴皆,添加以下內(nèi)容(各個屬性的內(nèi)容可以按照實際情況修改)- 執(zhí)行以下命令
$ sudo mkdir -p /home/hduser/dfs/name $ sudo chown hduser:hadoop /home/hduser/dfs/name $ sudo chmod 750 /home/hduser/dfs/name $ sudo mkdir -p /home/hduser/dfs/data $ sudo chown hduser:hadoop /home/hduser/dfs/data $ sudo chmod 750 /home/hduser/dfs/data
- 在hdfs-site.xml中添加以下內(nèi)容
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hduser/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hduser/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
- 修改
~/hadoop/etc/hadoop/mapred-site.xml
,添加以下內(nèi)容(各個屬性的內(nèi)容可以按照實際情況修改)
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property> </configuration>
- 修改
~/hadoop/etc/hadoop/yarn-site.xml
(各個屬性的內(nèi)容可以按照實際情況修改)
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value> master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value> master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value> master:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value> master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value> master:8088</value> </property> </configuration>
- 修改
-
格式化Namenode
- 進入
~/hadoop/bin
目錄下泛粹,執(zhí)行以下操作
$ ./hdfs namenode –format
- 進入
-
啟動hadoop
- 在
~/hadoop/sbin
執(zhí)行以下命令
$ ./start-dfs.sh $ ./start-yarn.sh
- 之后通過
jps
命令可以看到以下結果遂铡,說明啟動成功
13058 Jps 13026 NodeManager 12916 ResourceManager 12169 DataNode
- 在
1.2 集群環(huán)境
此處默認master和slave已經(jīng)按照單機節(jié)點配置完成
-
設置網(wǎng)絡
- 我的例子是一臺master一臺slave,分別確定兩者的ip晶姊,然后在兩臺機器的
/etc/hosts
中寫入以下內(nèi)容
192.168.0.1 master 192.168.0.2 slave
- 我的例子是一臺master一臺slave,分別確定兩者的ip晶姊,然后在兩臺機器的
-
配置ssh免密登錄
- 在master上執(zhí)行以下命令
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
- 在slave上執(zhí)行以下命令
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
- 之后兩方互相登錄測試一下是否可以免密登錄
-
配置
~/hadoop/etc/hadoop/slaves
- 在master機器的slaves文件中添加以下內(nèi)容
master slave
-
格式化Namenode
- 進入master的
~/hadoop/bin
目錄下扒接,執(zhí)行以下操作
$ ./hdfs namenode –format
- 進入master的
-
啟動hadoop
- 在master的
~/hadoop/sbin
執(zhí)行以下命令
$ ./start-dfs.sh $ ./start-yarn.sh
- 之后通過
jps
命令可以看到以下結果,說明啟動成功- master中
4048 Jps 3899 ResourceManager 4013 NodeManager 3726 SecondaryNameNode 3423 NameNode 3535 DataNode
- slave中
2754 DataNode 3012 Jps 2903 NodeManager
- 在master的
2. 搭建Spark
2.1 Spark平臺
-
下載Spark
- 在這里下載和hadoop版本對應的spark,假定工作目錄為
/home/hduser
- 進行如下操作解壓壓縮包(每個節(jié)點都要進行)
$ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
- 在這里下載和hadoop版本對應的spark,假定工作目錄為
-
配置
~/.bashrc
文件- 在.bashrc文件中添加以下內(nèi)容(每個節(jié)點都要添加)
export SPARK_HOME=/home/hduser/spark export PATH=$PATH:$SPARK_HOME/bin
-
配置
~/spark/conf/slaves
文件- 在兩個節(jié)點的salves文件中添加以下內(nèi)容
master slave
-
啟動Spark
- 在master的
~/spark/sbin
中執(zhí)行以下命令
./start-all.sh
- 在master中執(zhí)行
jps
钾怔,發(fā)現(xiàn)以下結果說明spark運行成功
5257 Worker 5177 Master 3726 SecondaryNameNode 5326 Jps 3432 NameNode 3535 DataNode
- 在slave中執(zhí)行
jsp
碱呼,發(fā)現(xiàn)一下結果說明spark運行成功
2754 DataNode 3717 Worker 3771 Jps
- 在master的
2.2. 配置Scala
-
下載Scala
- 在這里相應版本的scala壓縮包,假定工作目錄為
/home/hduser
- 進行如下操作解壓壓縮包(只需要在master進行)
$ tar -zxvf scala-2.12.6.tgz
- 在這里相應版本的scala壓縮包,假定工作目錄為
-
配置
~/.bashrc
文件- 在.bashrc文件中添加以下內(nèi)容(只需要在master在master上執(zhí)行以下命令)
export SCALA_HOME=/home/hduser/scala export PATH=$PATH:$SCALA_HOME/bin
2.3 配置Eclipse
-
安裝Eclipse
- 在master上執(zhí)行以下命令
$ sudo apt install eclipse-platform
安裝Eclipse插件