一炮叶、hadoop的部署安裝
1、安裝JDK:下載jdk贷揽,解壓棠笑,配置環(huán)境變量
2、安裝hadoop:下載安裝包禽绪,解壓
利用tar -zxvf把hadoop的jar包放到指定的目錄下蓖救。
tar -zxvf /home/software/hadoop-2.4.1.tar.gz
-z:以gz結(jié)尾的文件就是用gzip壓縮的結(jié)果。與gzip相對(duì)的就是gunzip印屁,這個(gè)參數(shù)的作用就是用來(lái)調(diào)用gzip循捺。
-x:--extract,--get解壓文件
-v:顯示操作過(guò)程库车,這個(gè)參數(shù)很常用
-f:使用文檔名巨柒,注意樱拴,在f之后要立即接文檔名柠衍,不要再加其他參數(shù)
二、修改hadoop配置文件晶乔,為啟動(dòng)hadoop做準(zhǔn)備
1珍坊、先熟悉下hadoop整個(gè)的目錄結(jié)構(gòu)
1)bin:Hadoop最基本的管理腳本和使用腳本的目錄,這些腳本是sbin目錄下管理腳本的基礎(chǔ)實(shí)現(xiàn)正罢,用戶可以直接使用這些腳本管理和使用Hadoop阵漏。
2)sbin:Hadoop管理腳本所在的目錄,主要包含HDFS和YARN中各類服務(wù)的啟動(dòng)/關(guān)閉腳本翻具。
3)etc:Hadoop配置文件所在的目錄履怯,包括core-site.xml、hdfs-site.xml裆泳、mapred-site.xml等從Hadoop1.0繼承而來(lái)的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件叹洲。
4)本地平臺(tái)相關(guān)庫(kù)(include、lib工禾、libexec)运提,include:對(duì)外提供的編程庫(kù)頭文件(具體動(dòng)態(tài)庫(kù)和靜態(tài)庫(kù)在lib目錄中)蝗柔,這些頭文件均是用C++定義的,通常用于C++程序訪問(wèn)HDFS或者編寫(xiě)MapReduce程序民泵。lib:該目錄包含了Hadoop對(duì)外提供的編程動(dòng)態(tài)庫(kù)和靜態(tài)庫(kù)癣丧,與include目錄中的頭文件結(jié)合使用。libexec:各個(gè)服務(wù)對(duì)用的shell配置文件所在的目錄栈妆,可用于配置日志輸出胁编、啟動(dòng)參數(shù)(比如JVM參數(shù))等基本信息。
5)share:Hadoop各個(gè)模塊編譯后的jar包所在的目錄鳞尔。
2掏呼、hadoop重點(diǎn)目錄介紹及修改
1)etc/hadoop/hadoop-env.sh
配置etc/hadoop/hadoop-env.sh文件,修改為你的jdk的安裝位置铅檩。
2)etc/hadoop/core-site.xml
編輯文件etc/hadoop/core-site.xml文件憎夷,指定默認(rèn)文件系統(tǒng)和工作空間(現(xiàn)在該路徑下還沒(méi)有tmp文件夾,執(zhí)行完hdfs格式化后便可看到相關(guān)文件)昧旨。
3)etc/hadoop/hdfs-site.xml
編輯文件etc/hadoop/hdfs-site.xml文件拾给,設(shè)置文件副本數(shù),也就是文件分割成塊后兔沃,要復(fù)制塊個(gè)數(shù)(由于此處就本機(jī)一個(gè)節(jié)點(diǎn)蒋得,偽分布式,所以就配置為1乒疏,文件本身额衙,不需要副本)。
4)etc/hadoop/mapred-site.xml
編輯文件etc/hadoop/mapred-site.xml文件怕吴,此文件其實(shí)不存在窍侧,是把存在的mapred-site.xml.template修改為mapred-site.xml(mv mapred-site.xml.template mapred-site.xml),用于指定資源調(diào)度框架转绷。
5)etc/hadoop/yarn-site.xml
編輯文件etc/hadoop/yarn-site.xml文件伟件,yarn也是分布式管理的,所以配置一個(gè)主服務(wù)器议经,然后還要配置中間數(shù)據(jù)調(diào)度的機(jī)制斧账。
6)配置masters和slaves主從結(jié)點(diǎn)
配置/masters和/slaves來(lái)設(shè)置主從結(jié)點(diǎn),注意最好使用主機(jī)名煞肾,并且保證機(jī)器之間通過(guò)主機(jī)名可以互相訪問(wèn)咧织,每個(gè)主機(jī)名一行。
總結(jié):配置結(jié)束籍救,把配置好的hadoop文件夾拷貝到其他集群的機(jī)器中习绢,并且保證上面的配置對(duì)于其他機(jī)器而言正確,例如:如果其他機(jī)器的Java安裝路徑不一樣钧忽,要修改etc/hadoop/hadoop-env.sh毯炮。
三逼肯、啟動(dòng)hadoop
1)格式化hdfs
在bin/hadoop中執(zhí)行 ./hadoop namenode -format,或如下圖直接執(zhí)行桃煎。
2)啟動(dòng)hdfs
mapreduce不是服務(wù)篮幢,只是一個(gè)庫(kù),所以不需要啟動(dòng)为迈。hdfs和yarn是相互獨(dú)立的服務(wù)三椿,可以單獨(dú)啟動(dòng),也可以使用hadoop的腳本自動(dòng)化啟動(dòng)葫辐。
(1)方法一:分別啟動(dòng)
啟動(dòng)hdfs的腳本在sbin/hadoop-daemon.sh中搜锰,手動(dòng)啟動(dòng)方式如下:
啟動(dòng)yarn的腳本在sbin/yarn-daemon.sh中,手動(dòng)啟動(dòng)方式如下:
(2)方法二:自動(dòng)化啟動(dòng)
啟動(dòng)hdfs耿战,sbin/start-dfs.sh
啟動(dòng)yarn蛋叼,sbin/start-yarn.sh
(3)方法三:
同時(shí)啟動(dòng)hdfs和yarn,sbin/start-all.sh