1. 設(shè)置免密登錄
(1) 新建普通用戶hadoop:useradd hadoop
(2) 在主節(jié)點(diǎn)master上生成密鑰對(duì)合敦,執(zhí)行命令ssh-keygen -t rsa
便會(huì)在home文件夾下生成 .ssh 文件以及id_rsa和id_rsa.pub文件 注意:.ssh文件夾的權(quán)限為700弓摘,否則會(huì)影響其他機(jī)器的免密登錄
(3) 執(zhí)行命令:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 authorized_keys #修改文件的權(quán)限為600
(4) 將authorized_keys文件拷貝到下一個(gè)主機(jī)上后重復(fù)上述操作谚鄙。
scp ~/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys
若拷貝出錯(cuò)乎芳,則在.ssh文件 可手動(dòng)建立逊移,但是注意修改其權(quán)限為700:chmod 700 .ssh
焦影。诲祸。。
以此類推掀序,最終在最后一個(gè)節(jié)點(diǎn)上的authorized_keys上包括了所有主機(jī)的公鑰帆焕,再將它拷貝到其他節(jié)點(diǎn)上,完成免密登錄的設(shè)置不恭。
2.設(shè)置hosts文件
本人搭建的Hadoop環(huán)境包括有一個(gè)主節(jié)點(diǎn)和三個(gè)從節(jié)點(diǎn)叶雹,配置為:一個(gè)NameNode,一個(gè)SecondaryNameNode以及兩個(gè)DataNode换吧。
/etc/hosts添加配置如下
10.0.209.122 master122 hadoop-NameNode-122
10.0.209.123 slave123 hadoop-SecondaryNameNode-123
10.0.209.124 slave124 hadoop-DataNode-124
10.0.209.125 slave125 hadoop-DataNode-125
在一個(gè)主機(jī)上配置完成后折晦,將該文件拷貝到其他節(jié)點(diǎn)之上。
3.安裝Hadoop
首先沾瓦,在master節(jié)點(diǎn)上满着,使用root用戶在/usr/local/文件夾下新建hadoop文件夾谦炒,并修改該文件夾對(duì)普通用戶有讀寫權(quán)限
mkdir /usr/local/hadoop
chmod 777 /usr/local/hadoop
使用普通用戶hadoop登錄:su hadoop
下載jdk1.8安裝包以及hadoop的安裝包,并加壓文件到/usr/local/hadoop下
wget wget http://apache.claz.org/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz
tar -xzvf hadoop-2.8.1.tar.gz -C /usr/local/hadoop
加壓后/usr/local/hadoop/文件夾下包含jdk1.8以及hadoop2.8.1风喇,
切換到root用戶宁改,編輯/etc/profile文件
JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.1
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME
export PATH
export HADOOP_HOME
export CLASSPATH
保存后執(zhí)行source /etc/profile
使其立即生效。
然后執(zhí)行java -version和hadoop version驗(yàn)證魂莫,配置安裝成功还蹲。
4.配置Hadoop集群
(1). 配置core-site.xml
修改Hadoop核心配置文件/usr/local/hadoop/etc/hadoop/core-site.xml
,通過fs.default.name
指定NameNode的IP地址和端口號(hào)耙考,通過hadoop.tmp.dir
指定hadoop數(shù)據(jù)存儲(chǔ)的臨時(shí)文件夾谜喊。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.8.1/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master122:9000</value>
</property>
</configuration>
特別注意:如沒有配置hadoop.tmp.dir參數(shù),此時(shí)系統(tǒng)默認(rèn)的臨時(shí)目錄為:/tmp/hadoo-hadoop琳骡。而這個(gè)目錄在每次重啟后都會(huì)被刪除锅论,必須重新執(zhí)行format才行,否則會(huì)出錯(cuò)楣号。
(2).配置hdfs-site.xml
修改HDFS核心配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml
最易,通過dfs.replication
指定HDFS的備份因子為3,通過dfs.name.dir
指定namenode節(jié)點(diǎn)的文件存儲(chǔ)目錄炫狱,通過dfs.data.dir
指定datanode節(jié)點(diǎn)的文件存儲(chǔ)目錄藻懒。
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name> #配置SecondaryNameNode
<value>slave123:50090</value>
</property>
</configuration>
(3).配置mapred-site.xml
拷貝mapred-site.xml.template為mapred-site.xml,再進(jìn)行修改视译。
cp /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml
vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://hadoop-master:9001</value>
</property>
</configuration>
(4).配置yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
(5).配置masters文件
增加/usr/local/hadoop/etc/hadoop/masters
文件嬉荆,該文件指定namenode節(jié)點(diǎn)所在的服務(wù)器機(jī)器。添加namenode節(jié)點(diǎn)的主機(jī)名master122酷含;不建議使用IP地址鄙早,因?yàn)镮P地址可能會(huì)變化,但是主機(jī)名一般不會(huì)變化椅亚。另外限番,為將SecondaryNameNode與NameNode分開,可將SecondaryNameNode節(jié)點(diǎn)的主機(jī)也加入到masters文件之中呀舔。
master122
slave123
(6).配置slaves節(jié)點(diǎn)(Master主機(jī)特有)
修改/usr/local/hadoop/etc/hadoop/slaves
文件弥虐,該文件指定哪些服務(wù)器節(jié)點(diǎn)是datanode節(jié)點(diǎn)。刪除locahost媚赖,添加所有datanode節(jié)點(diǎn)的主機(jī)名霜瘪,如下所示。
vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/slaves
slave123
slave124
slave125
(7).配置hadoop-env.sh文件
修改jdk的目錄惧磺,以及集群間免密互連的端口(由于本人修改了ssh的默認(rèn)端口颖对,而hadoop默認(rèn)是以22端口連接,所以需要進(jìn)行添加配置)
export JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102 #修改jdk路徑
export HADOOP_SSH_OPTS="-p 22000" #添加ssh自定義端口
(8).配置ssh客戶端配置
由于修改了ssh的默認(rèn)端口磨隘,使得在使用ssh以及scp時(shí)都要加上-p/-P 非常的繁瑣(主要是因?yàn)?strong>懶惜互,懶是人類進(jìn)步的階梯)布讹,所以修改ssh的客戶端配置,使其默認(rèn)配置端口為自定義端口训堆。
vi /etc/ssh/ssh_config
Port 22000 #將源端口22修改為自定義端口22000
5.同步配置到其他節(jié)點(diǎn)
第4步配置是在主節(jié)點(diǎn)master上進(jìn)行的配置,下面要將上述配置好的jdk以及hadoop軟件包拷貝到其他從節(jié)點(diǎn)上白嘁,首先在各個(gè)從節(jié)點(diǎn)建立文件夾/usr/local/hadoop坑鱼,并將其權(quán)限設(shè)置為777,然后用普通用戶hadoop執(zhí)行命令:
scp -r /usr/local/hadoop/* slave123:/usr/local/hadoop/ &
scp -r /usr/local/hadoop/* slave124:/usr/local/hadoop/ &
scp -r /usr/local/hadoop/* slave125:/usr/local/hadoop/ &
由于已經(jīng)配置ssh客戶端的連接端口絮缅,所以這里不需要特意指定鲁沥,加‘&’因?yàn)閔adoop/下包含jdk以及hadoop軟件包,文件很大耕魄,放入后臺(tái)執(zhí)行更方便画恰。
下面繼續(xù)將/etc/profile下的JAVA_HOME和HADOOP_HOME配置同步配置到其他節(jié)點(diǎn),至此集群的搭建配置完成吸奴。
6.啟動(dòng)集群
在主節(jié)點(diǎn)master上進(jìn)入到/usr/local/hadoop/hadoop-2.8.1/
執(zhí)行命令:
bin/hadoop namenode -format #格式化namenode允扇,第一次啟動(dòng)服務(wù)前執(zhí)行的操作,以后不需要執(zhí)行则奥。
然后啟動(dòng)hadoop:
sbin/start-all.sh
執(zhí)行jps命令查看運(yùn)行情況
通過簡(jiǎn)單的jps命令雖然可以查看HDFS文件管理系統(tǒng)考润、MapReduce服務(wù)是否啟動(dòng)成功,但是無法查看到Hadoop整個(gè)集群的運(yùn)行狀態(tài)读处。我們可以通過hadoop dfsadmin -report
進(jìn)行查看糊治。用該命令可以快速定位出哪些節(jié)點(diǎn)掛掉了,HDFS的容量以及使用了多少罚舱,以及每個(gè)節(jié)點(diǎn)的硬盤使用情況井辜。
停止hadoop命令:sbin/stop-all.sh
至此,hadoop集群搭建配置完畢管闷。
7.可能的錯(cuò)誤
The authenticity of host ‘0.0.0.0 (0.0.0.0)’ can’t be established.
解決方案:關(guān)閉SELINUX
-- 關(guān)閉SELINUX
# vim /etc/selinux/config
-- 注釋掉
#SELINUX=enforcing
#SELINUXTYPE=targeted
— 添加
SELINUX=disabled