1)高可靠性:因為Hadoop假設(shè)計算元素和存儲會出現(xiàn)故障弦追,因為它維護多個工作數(shù)據(jù)副本毕骡,在出現(xiàn)故障時可以對失敗的節(jié)點重新分布處理驴娃。
2)高擴展性:在集群間分配任務數(shù)據(jù)奏候,可方便的擴展數(shù)以千計的節(jié)點。
3) 高效性:在MapReduce的思想下唇敞,Hadoop是并行工作的蔗草,以加快任務處理速度。
4)高容錯性:自動保存多份副本數(shù)據(jù)疆柔,并且能夠自動將失敗的任務重新分配咒精。
1)Hadoop HDFS:一個高可靠旷档、高吞吐量的分布式文件系統(tǒng)模叙。
2)Hadoop MapReduce:一個分布式的離線并行計算框架。
3)Hadoop YARN:作業(yè)調(diào)度與集群資源管理的框架鞋屈。
4)Hadoop Common:支持其他模塊的工具模塊范咨。
2.1 HDFS(Hadoop Distributed File System)架構(gòu)概述
1)NameNode(nn):存儲文件的元數(shù)據(jù)故觅,如文件名,文件目錄結(jié)構(gòu)渠啊,文件屬性(生成時間逻卖、副本數(shù)、文件權(quán)限)昭抒,以及每個文件的塊列表和塊所在的DataNode等评也。
2)DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和灭返。
3)Secondary NameNode(2nn):用來監(jiān)控HDFS狀態(tài)的輔助后臺程序盗迟,每隔一段時間獲取HDFS元數(shù)據(jù)的快照。
1)ResourceManager(rm):處理客戶端請求熙含、啟動/監(jiān)控ApplicationMaster罚缕、監(jiān)控NodeManager、資源分配與調(diào)度怎静;
2)NodeManager(nm):單個節(jié)點上的資源管理邮弹、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令蚓聘;
3)ApplicationMaster:數(shù)據(jù)切分腌乡、為應用程序申請資源,并分配給內(nèi)部任務夜牡、任務監(jiān)控與容錯与纽。
4)Container:對任務運行環(huán)境的抽象,封裝了CPU塘装、內(nèi)存等多維資源以及環(huán)境變量急迂、啟動命令等任務運行相關(guān)的信息。
MapReduce將計算過程分為兩個階段:Map和Reduce
1)Map階段并行處理輸入數(shù)據(jù)
2)Reduce階段對Map結(jié)果進行匯總
1 虛擬機網(wǎng)絡(luò)模式設(shè)置為NAT
最后僚碎,重新啟動系統(tǒng)。
1)使用命令 vim /etc/sysconfig/network-scripts/ifcfg-eth0
2)修改選項有五項:
IPADDR=192.168.110.61
GATEWAY=192.168.110.2
ONBOOT=yes
BOOTPROTO=static
DNS1=192.168.110.2
修改完成后保存退出(:wq )
3)執(zhí)行service network restart
4)如果報錯阴幌,reboot勺阐,重啟虛擬機
1)修改linux的hosts文件
(1)進入Linux系統(tǒng)查看本機的主機名。通過hostname命令查看
(2)如果感覺此主機名不合適裂七,我們可以進行修改皆看。通過編輯/etc/sysconfig/network文件
(3)修改后保存退出
(4)編輯
vim /etc/hosts
(5)并重啟設(shè)備,重啟后背零,查看主機名腰吟,已經(jīng)修改成功
1)查看防火墻開機啟動狀態(tài)
chkconfig iptables --list
2)關(guān)閉防火墻
chkconfig iptables off
1)卸載現(xiàn)有jdk
(1)查詢安裝jdk的版本:
java -version
(2)查詢是否安裝java軟件:
rpm -qa|grep java
(3)如果安裝的版本低于1.7,卸載該jdk:
rpm -e 軟件包
2)用filezilla工具將jdk導入到usr目錄下面的java文件夾下面
3)在linux系統(tǒng)下的usr目錄中查看軟件包是否導入成功(使用.gz包或者.rpm包,本處使用.rpm包)毛雇。
4).gz包使用命令 tar -zxf jdk***.gz 解壓到當前目錄; .rpm包使用命令 rpm -ivh jdk***.rpm 進行安裝.
5)配置jdk環(huán)境變量
(1) 先獲取jdk路徑:使用命令pwd
(2)打開/etc/profile文件:
vi /etc/profile
在profie文件末尾添加jdk路徑:
#set java environment
JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
JRE_HOME=/usr/java/jdk1.8.0_171-amd64/jre
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH
(3)保存后退出:
:wq
(4)讓修改后的文件生效:
6)重啟(如果java –version可以用就不用重啟):
7) 測試jdk安裝成功
1)通過用filezilla工具將Hadoop導入/usr/local/src/中,官方下載地址:http://mirrors.shu.edu.cn/apache/hadoop/common/
2)解壓安裝文件 tar -zxf hadoop-2.7.6.tar.gz
3)配置hadoop中的hadoop-env.sh
(1)Linux系統(tǒng)中獲取jdk的安裝路徑:
(2)進入 hadoop-2.7.6/etc/hadoop/中 灵疮,修改hadoop-env.sh文件中JAVA_HOME 路徑:
export JAVA_HOME=/opt/module/jdk1.7.0_79
4)將hadoop添加到環(huán)境變量
(1)獲取hadoop安裝路徑:
(2)打開/etc/profile文件:
在profie文件末尾添加hadoop路徑:
#HADOOP_HOME
export HADOOP_HOME=/usr/local/src/hadoop-2.7.6
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
(3)保存后退出:
:wq
(4)讓修改后的文件生效:
(5)使用hadoop查看是否安裝成功织阅,如果hadoop命令不能使用則重啟再查看。
需要大數(shù)據(jù)學基礎(chǔ)到項目實戰(zhàn)學習資料的可以加群:615997810震捣,群里有小伙伴整理好了學習資料荔棉,有大數(shù)據(jù),java蒿赢,java面試润樱,Python的學習資料哦,找群主免費領(lǐng)取哦羡棵。