Hadoop概述
開源分布式計算平臺侵蒙,以HDFS、MapReduce為核心,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu).
高容錯、高伸縮
MR允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應(yīng)用程序疗疟,充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理.
NameNode恬吕,元數(shù)據(jù)的管理者
DataNode
JobTracker
TaskTracker
數(shù)據(jù)分割Partition
把map任務(wù)輸出的中間結(jié)果按key的范圍劃分成R份铃在,劃分時通常使用hash函數(shù),這樣可以保證某一范圍內(nèi)的key一定是由一個reduce任務(wù)來處理的痢缎,可以簡化reduce的過程
數(shù)據(jù)合并Combine
在數(shù)據(jù)分割之前胁勺,還可以先對中間結(jié)果進行數(shù)據(jù)合并,即將中間結(jié)果中有相同key的<key,value>對合并成一對独旷。Combine作為map任務(wù)的一部分署穗,在執(zhí)行完map函數(shù)后緊接著執(zhí)行。Combine能夠減少中間結(jié)果中<key,value>對的數(shù)據(jù)嵌洼,從而降低網(wǎng)絡(luò)流量