大數(shù)據(jù)是收集、整理俏橘、處理大規(guī)模數(shù)據(jù)集,并從中獲得見解所需的非傳統(tǒng)思維和技術(shù)的總稱圈浇。大數(shù)據(jù)時代不僅需要解決大規(guī)模、多樣化數(shù)據(jù)的高效存儲問題靴寂,同時還需要解決大規(guī)模磷蜀、多樣化數(shù)據(jù)的高效處理問題。
分布式并行程序是一種常用的可以大幅度提高程序性能百炬,實(shí)現(xiàn)高效的數(shù)據(jù)處理的編程模式褐隆。通過運(yùn)行在由大規(guī)模的通用計算機(jī)組成的集群上,分布式程序可以并行地進(jìn)行大規(guī)模數(shù)據(jù)處理剖踊,從而提高數(shù)據(jù)處理的效率庶弃。
MapReduce是由Google提出的一種并行編程模式,適合于進(jìn)行大規(guī)模數(shù)據(jù)集的并行運(yùn)算德澈。它提供了一個統(tǒng)一的并行計算框架歇攻,把并行計算所涉及的諸多系統(tǒng)層細(xì)節(jié)都交給計算框架去完成,以此大大簡化了程序員進(jìn)行并行化程序設(shè)計的負(fù)擔(dān)梆造。MapReduce的簡單易用性使其成為目前大數(shù)據(jù)處理技術(shù)中最成功的主流并行計算模式缴守。開源的Hadoop系統(tǒng)實(shí)現(xiàn)了MapReduce計算模式,目前已成為成熟的大數(shù)據(jù)處理平臺镇辉。