《Hadoop核心技術》作者翟周偉 :我與Hadoop的不解之緣

個人感覺一篇很不錯的文章-----《Hadoop核心技術》作者翟周偉 :我與Hadoop的不解之緣 - 似水流年 - CSDN博客 http://blog.csdn.net/xiaoshunzi111/article/details/49075715

Hadoop發(fā)展現狀终娃、特性及發(fā)展前景
CSDN:你怎么看待國內外的Hadoop發(fā)展現狀?可否預測下Hadoop未來的發(fā)展前景逛尚?
翟周偉:目前Hadoop可以說是已經成為工業(yè)界大數據領域的事實標準牙言,在國外主要以Yahoo艘儒、Facebook袜漩、EBay通殃、IBM等為代表度液;在國內則以百度、騰訊、阿里等互聯網公司為主堕担。而Hadoop作為開源軟件已慢,這些大公司的使用和改進迭代進而又完善并推動Hadoop的進一步發(fā)展,因此Hadoop的發(fā)展是離不開這些互聯網公司的使用照宝,從本質上看還是因為互聯網的快速發(fā)展導致了海量數據的分布式存儲和計算需求蛇受,而Hadoop正是為這樣的需求提供了非常好的解決方案。
對于Hadoop的發(fā)展前景我從以下幾個方面談談:
第一個方向就是統(tǒng)一資源管理與調度方向厕鹃,目前各大互聯網公司商用的Hadoop集群還是以Hadoop-1.X版本為主兢仰,Hadoop-1.X版本的有效性和穩(wěn)定性已經得到驗證,但是Hadoop-1.X也存在很多問題剂碴,例如資源分配以槽位為基本單元把将,沒有考慮到應用實際需要的內存,CPU等資源忆矛;還有就是Hadoop-1.X僅僅只支持MapReduce模型察蹲,計算資源利用率不高,一個MR任務只能包含一個map和一個reduce任務催训,而實際需求往往是一個DAG任務洽议。針對這些問題社區(qū)版Hadoop-2.X提出了YARN框架,在資源管理層來解決這些問題漫拭,同時各大商用發(fā)行版以及互聯網公司也提出類似的框架來解決Hadoop-1.X中的問題亚兄。
第二個發(fā)展方向就是Hadoop高可用性解決方案,目前的Hadoop還是單Master節(jié)點設計采驻,因此集群的規(guī)模受到主節(jié)點的硬件配置限制审胚,同時可靠性上存在單點故障(SPOF )問題,這一點目前各大Hadoop商業(yè)發(fā)行版以及各大互聯網公司都在研發(fā)多Master節(jié)點設計的解決方案礼旅,因此也是未來重點方向膳叨。
第三個發(fā)展方向就是Hadoop生態(tài)系統(tǒng)集成,目前Hadoop已經發(fā)展為一個完備的生態(tài)系統(tǒng)痘系,這個生態(tài)系統(tǒng)最底層以HDFS和MapReduce為核心菲嘴,上層為各種存儲,計算汰翠,分析等應用系統(tǒng)龄坪,如何將這些系統(tǒng)很好的集成起來形成一個類似完善的分布式操作系統(tǒng)和云計算應用系統(tǒng)是一個非常誘人的發(fā)展方向。
第四點就是靈活性上奴璃,目前的Hadoop為用戶提供了非常便利的并行計算框架悉默,但是這個框架本身的流程過于復雜,用戶實際的需求往往很簡單苟穆,例如Hadoop中在map的輸出和reduce的輸入都需要進行排序抄课,而實際上并不是所有的任務都需要排序唱星,因此對于那些不需要排序的應用就會造成資源的浪費又消耗了時間。如果可以提供是否配需的可控制參數就可以很好的解決類似的問題跟磨。因此Hadoop的靈活性上也是一個發(fā)展方向间聊。

CSDN:給學習Hadoop集群方面的開發(fā)者分享些經驗吧。
翟周偉:首先搞清楚什么是Hadoop以及Hadoop可以用來做什么抵拘,可以查閱相關網站介紹或者Hadoop綜述相關論文文獻資料等哎榴。
然后,可以從最經典的詞頻統(tǒng)計程序開始僵蛛,初步了解MapReduce的基本思路和處理數據的方式尚蝌。這里建議大家直接瀏覽Hadoop的官方網站上WiKi文章,并按照WiKi一步一步完成實例的理解和學習充尉。
接著飘言,就可以正式學習Hadoop的基本原理,包括HDFS和MapReduce驼侠,先從整體姿鸿,宏觀核心原理看,先別看源碼級別倒源。建議這塊先閱讀Google的相關兩篇核心論文:《The Google File System》苛预、《MapReduce: Simplied Data Processing on Large Clusters》;進一步笋熬,就可以深入HDFS热某、MapReduce和模塊細節(jié),這個時候可以結合源碼深入理解突诬,以及實現機制苫拍。
最后就是需要實戰(zhàn)了芜繁,可以結合自己的項目或者相關需求來完成一些Hadoop相關應用旺隙,建議一些比較經典的Hadoop英文原版技術相關叢書:《Hadoop TheDefinitive Guide》、《Hadoop inAction》骏令、《Pro Hadoop》蔬捷,以及我新出版的《Hadoop核心技術》。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末榔袋,一起剝皮案震驚了整個濱河市周拐,隨后出現的幾起案子,更是在濱河造成了極大的恐慌凰兑,老刑警劉巖妥粟,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異吏够,居然都是意外死亡勾给,警方通過查閱死者的電腦和手機滩报,發(fā)現死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來播急,“玉大人脓钾,你說我怎么就攤上這事∽” “怎么了可训?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長捶枢。 經常有香客問我握截,道長,這世上最難降的妖魔是什么烂叔? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任川蒙,我火速辦了婚禮,結果婚禮上长已,老公的妹妹穿的比我還像新娘畜眨。我一直安慰自己,他們只是感情好术瓮,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布康聂。 她就那樣靜靜地躺著,像睡著了一般胞四。 火紅的嫁衣襯著肌膚如雪恬汁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天辜伟,我揣著相機與錄音氓侧,去河邊找鬼。 笑死导狡,一個胖子當著我的面吹牛约巷,可吹牛的內容都是我干的。 我是一名探鬼主播旱捧,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼独郎,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了枚赡?” 一聲冷哼從身側響起氓癌,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贫橙,沒想到半個月后贪婉,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡卢肃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年疲迂,在試婚紗的時候發(fā)現自己被綠了星压。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡鬼譬,死狀恐怖娜膘,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情优质,我是刑警寧澤竣贪,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站巩螃,受9級特大地震影響演怎,放射性物質發(fā)生泄漏。R本人自食惡果不足惜避乏,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一爷耀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拍皮,春花似錦歹叮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至爹橱,卻和暖如春萨螺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背愧驱。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工慰技, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人组砚。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓吻商,卻偏偏與公主長得像,于是被迫代替她去往敵國和親惫确。 傳聞我的和親對象是個殘疾皇子手报,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內容