前言
因為比賽的限制是使用Hadoop2.7.2欧啤,估在此文章下面的也是使用Hadoop2.7.2,具體下載地址為Hadoop2.7.2
開始的準(zhǔn)備
目前在我的實驗室上有三臺Linux主機(jī)脯爪,因為需要參加一個關(guān)于spark數(shù)據(jù)分析的比賽,所以眼見那幾臺服務(wù)器沒有人用就漾,我們團(tuán)隊就拿來配置成集群呐能。具體打算配置如下的集群
主機(jī)名 | IP地址(內(nèi)網(wǎng)) |
---|---|
SparkMaster | 10.21.32.106 |
SparkWorker1 | 10.21.32.109 |
SparkWorker2 | 10.21.32.112 |
首先進(jìn)行的是ssh免密碼登錄的操作
具體操作在上一篇學(xué)習(xí)日記當(dāng)中已經(jīng)寫到了,在此不再詳細(xì)說抑堡。
配置Java環(huán)境
因為我那三臺電腦也是配置好了JDK了摆出,所以在此也不詳細(xì)說。
配置好Java的機(jī)子可以使用
java -version
來查看Java的版本
下載Hadoop2.7.2
因為我最后的文件是放在/usr/local
下面的首妖,所以我也直接打開/usr/local
文件夾下偎漫。直接
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
安裝Hadoop以及配置Hadoop環(huán)境
解壓
tar -zxvf hadoop-2.7.2.tar.gz
刪除
rm -rf hadoop-2.7.2.tar.gz
解壓刪除之后打開hadoop-2.7.2文件夾,在etc/hadoop/hadoop-env.sh
中配置JDK
的信息
先查看本機(jī)的jdk目錄地址在哪里
echo $JAVA_HOME
vi etc/hadoop/hadoop-env.sh
將
export JAVA_HOME=${JAVA_HOME}
改為
export JAVA_HOME=/usr/java/jdk1.8.0_131
為了方便我們以后開機(jī)之后可以立刻使用到Hadoop的bin目錄下的相關(guān)命令悯搔,可以把hadoop
文件夾下的bin
和sbin
目錄配置到/etc/profile
文件中骑丸。
vi /etc/profile
添加
export PATH=$PATH:/usr/local/hadoop-2.7.2/bin:/usr/local/hadoop-2.7.7/sbin
按一下esc
,按著shift
+兩次z
鍵保存
使用
source /etc/profile
使得命令配置信息生效,是否生效可以通過
hadoop version
查看
配置Hadoop分布式集群
前言
考慮是為了建立
spark
集群,所以主機(jī)命名為SparkMaster
SparkWorker1
SparkWorker2
修改主機(jī)名
vi /etc/hostname
修改里面的名字為SprakMaster
,按一下esc
,按著shift
+兩次z
鍵保存妒貌。
設(shè)置hosts文件使得主機(jī)名和IP地址對應(yīng)關(guān)系
vi /etc/hosts
配置主機(jī)名和IP地址的對應(yīng)關(guān)系通危。
Ps:其他兩臺slave的主機(jī)也修改對應(yīng)的SparkWorker1 SparkWorker2,如果修改完主機(jī)名字之后戶籍的名字沒有生效灌曙,那么重啟系統(tǒng)便可以菊碟。三臺機(jī)子的hostname與hosts均要修改
在==三臺==機(jī)子的總的hadoop-2.7.2文件夾下建立如下四個文件夾
- 目錄/tmp,用來存儲臨時生成的文件
- 目錄/hdfs在刺,用來存儲集群數(shù)據(jù)
- 目錄hdfs/data逆害,用來存儲真正的數(shù)據(jù)
- 目錄hdfs/name,用來存儲文件系統(tǒng)元數(shù)據(jù)
mkdir tmp hdfs hdfs/data hdfs/name
配置hadoop文件
在此先修改SparkMaster的配置文件蚣驼,然后修改完畢后通過
rsync
命令復(fù)制到其他節(jié)點電腦上魄幕。
修改core-site.xml
vi etc/hadoop/core-site.xml
具體修改如下:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://SparkMaster:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop-2.7.2/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
</configuration>
變量fs.defaultFS保存了NameNode的位置,HDFS和MapReduce組件都需要它颖杏。這就是它出現(xiàn)在core-site.xml文件中而不是hdfs-site.xml文件中的原因纯陨。
修改marpred-site.xml
具體修改如下
首先我們需要的是將marpred-site.xml復(fù)制一份:
cp etc/hadoop/marpred-site.xml.template etc/hadoop/marpred-site.xml
vi etc/hadoop/marpred-site.xml.template
此處修改的是
marpred-site.xml
,不是marpred-site.xml.template
留储。
具體修改如下
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>SparkMaster:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>SparkMaster:19888</value>
</property>
</configuration>
修改hdfs-site.xml
vi etc/hadoop/hdfs-site.xml
具體修改如下
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop-2.7.2/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop-2.7.2/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>SparkMaster:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
PS:變量dfs.replication指定了每個HDFS數(shù)據(jù)塊的復(fù)制次數(shù)翼抠,即HDFS存儲文件的副本個數(shù).我的實驗環(huán)境只有一臺Master和兩臺Worker(DataNode),所以修改為2获讳。
配置yarn-site.xml
vi etc/hadoop/yarn-site.xml
具體配置如下:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>SparkMaster:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>SparkMaster:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>SparkMaster:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>SparkMaster:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>SparkMaster:8088</value>
</property>
</configuration>
修改slaves的內(nèi)容
將localhost
修改成為SparkWorker1
阴颖、SparkWorker2
將SparkMaster
節(jié)點的`hadoop-2.7.2/etc/下面的文件通過以下方式放去其他節(jié)點
rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
完成之后可以查看SparkWorker1
、SparkWorker2
下面的文件是否變了
啟動hadoop分布式集群
在SparkMaster
節(jié)點格式化集群的文件系統(tǒng)
輸入
hadoop namenode -format
啟動Hadoop集群
start-all.sh
查看各個節(jié)點的進(jìn)程信息
使用
jps
查看各節(jié)點的進(jìn)程信息
可以看到
此時分布式的hadoop集群已經(jīng)搭好了
在瀏覽器輸入
SparkMaster_IP:50070
SparkMaster_IP:8088
看到以下界面代表Hadoop集群已經(jīng)開啟了
結(jié)言
到此Hadoop的分布式集群就搭好了丐膝。這個Spark運(yùn)行的基礎(chǔ)量愧。
參見:CentOS 6.7安裝Hadoop 2.7.2
++王家林/王雁軍/王家虎的《Spark 核心源碼分析與開發(fā)實戰(zhàn)》++
文章出自kwongtai'blog,轉(zhuǎn)載請標(biāo)明出處侠畔!