上一篇:078-BigData-06hadoop架構(gòu)及環(huán)境搭建
一痒钝、hadoop偽分布式
SSH無(wú)密碼登錄
ssh-keygen -t rsa
回車確定,或者指定特定目錄也行鸯隅。
將公鑰拷貝到要免密登錄的目標(biāo)機(jī)器上:
ssh-copy-id 主機(jī)名1
ssh-copy-id 主機(jī)名2
ssh-copy-id 主機(jī)名3
完成后
- .ssh文件夾下的文件功能解釋
(1)~/.ssh/known_hosts :記錄ssh訪問(wèn)過(guò)計(jì)算機(jī)的公鑰(public key)
(2)id_rsa :生成的私鑰
(3)id_rsa.pub :生成的公鑰
(4)authorized_keys :存放授權(quán)過(guò)得無(wú)秘登錄服務(wù)器公鑰
二澜建、配置集群
1、偽分布式只有一臺(tái)機(jī)器蝌以,所以配置全在一臺(tái)機(jī)器上炕舵。
2、分布式準(zhǔn)備架構(gòu):
3跟畅、配置文件(超級(jí)重點(diǎn))
core-site.xml配置:
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://主機(jī)名1:9000</value>
</property>
<!-- 指定hadoop運(yùn)行時(shí)產(chǎn)生文件的存儲(chǔ)目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.X.X/data/tmp</value>
</property>
hdfs-site.xml配置:
<!--數(shù)據(jù)冗余數(shù)-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--secondary的地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>主機(jī)名1:50090</value>
</property>
<!--關(guān)閉權(quán)限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
yarn-site.xml配置:
<!-- reducer獲取數(shù)據(jù)的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>主機(jī)名1</value>
</property>
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留時(shí)間設(shè)置7天(秒) -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
mapred-site.xml配置:
<!-- 指定mr運(yùn)行在yarn上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!--歷史服務(wù)器的地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>主機(jī)名1:10020</value>
</property>
<!--歷史服務(wù)器頁(yè)面的地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>主機(jī)名1:19888</value>
</property>
hadoop-env.sh咽筋、yarn-env.sh、mapred-env.sh(分別在這些的文件中添加下面的路徑):
自己的路徑
export JAVA_HOME=/opt/soft/jdk1.8.0_144
slaves:
bigdata131徊件、bigdata132奸攻、bigdata133(自己設(shè)置的主機(jī)名)
- 格式化Namenode:
剛開(kāi)始用的時(shí)候需要格式化蒜危,以后都不需要了
hdfs namenode -format
對(duì)于第一次使用HDFS,在啟動(dòng)NameNode時(shí)睹耐,需要先執(zhí)行-format命令辐赞,然后才能正常啟動(dòng)NameNode節(jié)點(diǎn)的服務(wù)。
附:格式化做了哪些事情硝训?
在NameNode節(jié)點(diǎn)上响委,有兩個(gè)最重要的路徑,分別被用來(lái)存儲(chǔ)元數(shù)據(jù)信息和操作日志窖梁,而這兩個(gè)路徑來(lái)自于配置文件赘风,它們對(duì)應(yīng)的屬性分別是dfs.name.dir和dfs.name.edits.dir,同時(shí)纵刘,它們默認(rèn)的路徑均是/tmp/hadoop/dfs/name邀窃。格式化時(shí),NameNode會(huì)清空兩個(gè)目錄下的所有文件彰导,之后蛔翅,會(huì)在目錄dfs.name.dir下創(chuàng)建文件
hadoop.tmp.dir 這個(gè)配置,會(huì)讓dfs.name.dir和dfs.name.edits.dir會(huì)讓兩個(gè)目錄的文件生成在一個(gè)目錄里
- 啟動(dòng)集群得命令:
Namenode的主節(jié)點(diǎn):
sbin/start-dfs.sh
Yarn的主節(jié)點(diǎn):
sbin/stop-yarn.sh
注意:Namenode和ResourceManger如果不是同一臺(tái)機(jī)器位谋,不能在NameNode上啟動(dòng) yarn山析,應(yīng)該在ResouceManager所在的機(jī)器上啟動(dòng)yarn。
附: scp文件傳輸:
實(shí)現(xiàn)兩臺(tái)遠(yuǎn)程機(jī)器之間的文件傳輸(bigdata132主機(jī)文件拷貝到bigdata133主機(jī)上)
scp -r [文件] 用戶@主機(jī)名:絕對(duì)路徑
三掏父、測(cè)試
分布式搭好了之后
啟動(dòng)后笋轨。網(wǎng)站訪問(wèn)試試:
192.168.30.131:50070
然后:
192.168.30.132:8088
這2個(gè)關(guān)鍵端口要記住:50070和8088