1 Hadoop是個(gè)什么鬼?
簡單的說逆粹,Hadoop是一個(gè)用來處理大數(shù)據(jù)的分布式軟件,它提供了一個(gè)分布式文件存儲(chǔ)(HDFS)、一個(gè)資源調(diào)度系統(tǒng)(YARN)以及一個(gè)分布式并行計(jì)算框架(MAPREDUCE)重父。作為介紹Hadoop的第一篇文章,筆者認(rèn)為還是有必要好好嘮嘮嗑忽匈,說說它的前世今生房午,顏值妙用。
Hadoop最早起源于Nutch丹允。Nutch的目標(biāo)是創(chuàng)建出一個(gè)大型的郭厌、健壯袋倔、可擴(kuò)展的搜索引擎,
1.HADOOP最早起源于Nutch折柠。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎宾娜,包括網(wǎng)頁抓取、索引扇售、查詢等功能碳默,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問題——如何解決數(shù)十億網(wǎng)頁的存儲(chǔ)和索引問題缘眶。
2.2003年嘱根、2004年谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案。
——分布式文件系統(tǒng)(GFS)巷懈,可用于處理海量網(wǎng)頁的存儲(chǔ)
——分布式計(jì)算框架MAPREDUCE该抒,可用于處理海量網(wǎng)頁的索引計(jì)算問題。
3.Nutch的開發(fā)人員完成了相應(yīng)的開源實(shí)現(xiàn)HDFS和MAPREDUCE顶燕,并從Nutch中剝離成為獨(dú)立項(xiàng)目HADOOP凑保,到2008年1月,HADOOP成為Apache頂級(jí)項(xiàng)目涌攻,迎來了它的快速發(fā)展期欧引。