個人感覺一篇很不錯的文章-----《Hadoop核心技術》作者翟周偉 :我與Hadoop的不解之緣 - 似水流年 - CSDN博客 http://blog.csdn.net/xiaoshunzi111/article/details/49075715
Hadoop發(fā)展現狀终娃、特性及發(fā)展前景
CSDN:你怎么看待國內外的Hadoop發(fā)展現狀?可否預測下Hadoop未來的發(fā)展前景逛尚?
翟周偉:目前Hadoop可以說是已經成為工業(yè)界大數據領域的事實標準牙言,在國外主要以Yahoo艘儒、Facebook袜漩、EBay通殃、IBM等為代表度液;在國內則以百度、騰訊、阿里等互聯網公司為主堕担。而Hadoop作為開源軟件已慢,這些大公司的使用和改進迭代進而又完善并推動Hadoop的進一步發(fā)展,因此Hadoop的發(fā)展是離不開這些互聯網公司的使用照宝,從本質上看還是因為互聯網的快速發(fā)展導致了海量數據的分布式存儲和計算需求蛇受,而Hadoop正是為這樣的需求提供了非常好的解決方案。
對于Hadoop的發(fā)展前景我從以下幾個方面談談:
第一個方向就是統(tǒng)一資源管理與調度方向厕鹃,目前各大互聯網公司商用的Hadoop集群還是以Hadoop-1.X版本為主兢仰,Hadoop-1.X版本的有效性和穩(wěn)定性已經得到驗證,但是Hadoop-1.X也存在很多問題剂碴,例如資源分配以槽位為基本單元把将,沒有考慮到應用實際需要的內存,CPU等資源忆矛;還有就是Hadoop-1.X僅僅只支持MapReduce模型察蹲,計算資源利用率不高,一個MR任務只能包含一個map和一個reduce任務催训,而實際需求往往是一個DAG任務洽议。針對這些問題社區(qū)版Hadoop-2.X提出了YARN框架,在資源管理層來解決這些問題漫拭,同時各大商用發(fā)行版以及互聯網公司也提出類似的框架來解決Hadoop-1.X中的問題亚兄。
第二個發(fā)展方向就是Hadoop高可用性解決方案,目前的Hadoop還是單Master節(jié)點設計采驻,因此集群的規(guī)模受到主節(jié)點的硬件配置限制审胚,同時可靠性上存在單點故障(SPOF )問題,這一點目前各大Hadoop商業(yè)發(fā)行版以及各大互聯網公司都在研發(fā)多Master節(jié)點設計的解決方案礼旅,因此也是未來重點方向膳叨。
第三個發(fā)展方向就是Hadoop生態(tài)系統(tǒng)集成,目前Hadoop已經發(fā)展為一個完備的生態(tài)系統(tǒng)痘系,這個生態(tài)系統(tǒng)最底層以HDFS和MapReduce為核心菲嘴,上層為各種存儲,計算汰翠,分析等應用系統(tǒng)龄坪,如何將這些系統(tǒng)很好的集成起來形成一個類似完善的分布式操作系統(tǒng)和云計算應用系統(tǒng)是一個非常誘人的發(fā)展方向。
第四點就是靈活性上奴璃,目前的Hadoop為用戶提供了非常便利的并行計算框架悉默,但是這個框架本身的流程過于復雜,用戶實際的需求往往很簡單苟穆,例如Hadoop中在map的輸出和reduce的輸入都需要進行排序抄课,而實際上并不是所有的任務都需要排序唱星,因此對于那些不需要排序的應用就會造成資源的浪費又消耗了時間。如果可以提供是否配需的可控制參數就可以很好的解決類似的問題跟磨。因此Hadoop的靈活性上也是一個發(fā)展方向间聊。
CSDN:給學習Hadoop集群方面的開發(fā)者分享些經驗吧。
翟周偉:首先搞清楚什么是Hadoop以及Hadoop可以用來做什么抵拘,可以查閱相關網站介紹或者Hadoop綜述相關論文文獻資料等哎榴。
然后,可以從最經典的詞頻統(tǒng)計程序開始僵蛛,初步了解MapReduce的基本思路和處理數據的方式尚蝌。這里建議大家直接瀏覽Hadoop的官方網站上WiKi文章,并按照WiKi一步一步完成實例的理解和學習充尉。
接著飘言,就可以正式學習Hadoop的基本原理,包括HDFS和MapReduce驼侠,先從整體姿鸿,宏觀核心原理看,先別看源碼級別倒源。建議這塊先閱讀Google的相關兩篇核心論文:《The Google File System》苛预、《MapReduce: Simplied Data Processing on Large Clusters》;進一步笋熬,就可以深入HDFS热某、MapReduce和模塊細節(jié),這個時候可以結合源碼深入理解突诬,以及實現機制苫拍。
最后就是需要實戰(zhàn)了芜繁,可以結合自己的項目或者相關需求來完成一些Hadoop相關應用旺隙,建議一些比較經典的Hadoop英文原版技術相關叢書:《Hadoop TheDefinitive Guide》、《Hadoop inAction》骏令、《Pro Hadoop》蔬捷,以及我新出版的《Hadoop核心技術》。