安裝
-
操作系統(tǒng)
在centos6.4和mac os 10.10下都測(cè)試通過,以下以centos6.4環(huán)境為例踩晶。
-
安裝JDK
安裝版本hotspot jdk8 64bit贯溅,安裝路徑/home/rbg/tools/jdk8
-
安裝hadoop
hadoop目前最新的穩(wěn)定版是2.7.3句狼,下載鏈接http://hadoop.apache.org/releases.html,下載下來是個(gè)壓縮包hadoop-2.7.3.tar.gz学歧。
通過解壓命令 tar xzf hadoop-2.7.3.tar.gz 解壓到/home/rbg/tools/hadoop273
-
環(huán)境變量
進(jìn)入home路徑计济,找到并編輯文件.bash_profile茸苇,如果沒有則通過touch命令新建,加入
export JAVA_HOME=/home/rbg/tools/jdk8 export HADOOP_HOME=$HOME/tools/hadoop273 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin
通過source .bash_profile應(yīng)用新的環(huán)境變量
-
檢查是否安裝成功
運(yùn)行hadoop version
如果輸出Hadoop 2.7.3字樣沦寂,說明安裝成功学密。
注:如果出現(xiàn)/lib/ld-linux.so.2: bad ELF interpreter: No such file or directory 錯(cuò)誤提示,需要通過通過yum install安裝 glibc.i686
配置偽分布式
hadoop的運(yùn)行有三種模式:局部传藏、偽分布式腻暮、分布式彤守。
局部模式所有程序都運(yùn)行在一個(gè)jvm中,適合開發(fā)環(huán)境哭靖,用來運(yùn)行或調(diào)試MapReduce程序具垫。
偽分布模式多個(gè)守護(hù)進(jìn)程同時(shí)單獨(dú)運(yùn)行,但都運(yùn)行在一個(gè)機(jī)器试幽。
分布式模式守護(hù)進(jìn)程運(yùn)行于集群筝蚕。
對(duì)了解學(xué)習(xí)hadoop而言,偽分布式是合適的選擇铺坞,因?yàn)閔adoop本身的運(yùn)行上兩者沒有區(qū)別起宽。
進(jìn)入/home/rbg/tools/hadoop273/etc/hadoop,該路徑是hadoop默認(rèn)的配置文件路徑济榨。
配置hadoop
配置文件系統(tǒng)
設(shè)置hdfs文件系統(tǒng)的url坯沪,打開core.site.xml添加如下設(shè)置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000/</value>
</property>
</configuration>
配置hdfs
設(shè)置復(fù)制份數(shù),打開hdfs-site.xml腿短,添加如下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置mapreduce
mapreduce采用yarn框架屏箍,打開mapred-site.xml,添加如下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn
設(shè)置資源管理器地址和啟動(dòng)shuffle服務(wù)橘忱,打開yarn-site.xml赴魁,添加如下配置:
<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>localhost:8032</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置ssh
hadoop需要通過ssh在分布式或偽分布式下啟動(dòng)守護(hù)進(jìn)程,因此钝诚,在只有一個(gè)機(jī)器的偽分布式下要保證能ssh localhost而不用通過密碼進(jìn)行登錄颖御。
通過如下命令生成密鑰文件:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
將公鑰添加到authorized_keys:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
通過ssh localhost登錄,如果不需要輸入密碼說明配置成功凝颇。
注:如果ssh localhost提示輸入密碼潘拱,可檢查.ssh和authorized_keys的權(quán)限模式是否分別是0700和0600。否則通過chmod 0700 .ssh和chmod 0600 .ssh/authorized_keys修改拧略。
格式化文件系統(tǒng)
初次使用hdfs前需要格式化文件系統(tǒng):
hdfs namenode -format
注:如報(bào)unknownhost錯(cuò)誤芦岂,通過hostname命令查看本機(jī)名稱,查看/etc/hosts中是否存在名稱和ip間的映射垫蛆,該處映射為127.0.0.1禽最。
啟動(dòng)和關(guān)閉
啟動(dòng)hdfs、yarn袱饭、job歷史服務(wù):
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
通過jps可以查看到如下進(jìn)程:
NodeManager
JobHistoryServer
ResourceManager
DataNode
SecondaryNameNode
NameNode
關(guān)閉:
mr-jobhistory-daemon.sh stop historyserver
stop-yarn.sh
stop-dfs.sh