Hadoop的優(yōu)勢(shì)(4高)
- 高可靠性:Hadoop底層維護(hù)多個(gè)數(shù)據(jù)副本符糊,所以即使Hadoop某個(gè)計(jì)算元素或存儲(chǔ)出現(xiàn)故障,也不會(huì)導(dǎo)致數(shù)據(jù)的丟失甘改。
- 高擴(kuò)展性:在集群間分配任務(wù)數(shù)據(jù)旅东,可方便的擴(kuò)展數(shù)以千計(jì)的節(jié)點(diǎn)。
- 高效性:在MapReduce的思想下十艾,Hadoop的并行工作的抵代,比加快任務(wù)處理速度。
- 高容錯(cuò)性:能夠自動(dòng)將失敗的任務(wù)重新分配忘嫉。
Hadoop組成
image.png
HDFS架構(gòu)概述
- NameNode(nn):存儲(chǔ)文件的元數(shù)據(jù)荤牍,如文件名,文件目錄結(jié)構(gòu)榄融,文件屬性(生成時(shí)間参淫,副本數(shù),文件權(quán)限)愧杯,以及每個(gè)文件的塊列表和塊所在的DataNode等涎才。
- DataNode(dn):在本地文件系統(tǒng)存儲(chǔ)文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗(yàn)和力九。
- Secondary NameNode(2nn):用來(lái)監(jiān)控HDFS狀態(tài)的輔助后臺(tái)程序耍铜,每隔一段時(shí)間獲取HDFS元數(shù)據(jù)的快照。
YARN架構(gòu)概述
image.png
MapReduce架構(gòu)概述
- MapReduce將計(jì)算過(guò)程分為兩個(gè)階段:Map和Reduce
- Map階段并行處理輸入數(shù)據(jù)
- Reduce階段對(duì)Map結(jié)果進(jìn)行匯總
image.png
Hadoop生態(tài)體系
image.png