Hadoop生態(tài)系統(tǒng)介紹(轉(zhuǎn)載)

轉(zhuǎn)自洪乍;http://blog.csdn.net/woshiwanxin102213/article/details/19688393


1、Hadoop生態(tài)系統(tǒng)概況

Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架匾乓。具有可靠、高效又谋、可伸縮的特點拼缝。

Hadoop的核心是HDFS和Mapreduce,hadoop2.0還包括YARN彰亥。

下圖為hadoop的生態(tài)系統(tǒng):

2咧七、HDFS(Hadoop分布式文件系統(tǒng))

源自于Google的GFS論文,發(fā)表于2003年10月任斋,HDFS是GFS克隆版继阻。

是Hadoop體系中數(shù)據(jù)存儲管理的基礎(chǔ)。它是一個高度容錯的系統(tǒng)废酷,能檢測和應(yīng)對硬件故障瘟檩,用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型澈蟆,通過流式數(shù)據(jù)訪問墨辛,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序趴俘。

Client:切分文件睹簇;訪問HDFS奏赘;與NameNode交互,獲取文件位置信息带膀;與DataNode交互志珍,讀取和寫入數(shù)據(jù)。

NameNode:Master節(jié)點垛叨,在hadoop1.X中只有一個,管理HDFS的名稱空間和數(shù)據(jù)塊映射信息柜某,配置副本策略嗽元,處理客戶端請求。

DataNode:Slave節(jié)點喂击,存儲實際的數(shù)據(jù)剂癌,匯報存儲信息給NameNode。

Secondary NameNode:輔助NameNode翰绊,分擔(dān)其工作量佩谷;定期合并fsimage和fsedits,推送給NameNode监嗜;緊急情況下谐檀,可輔助恢復(fù)NameNode,但Secondary NameNode并非NameNode的熱備裁奇。

3桐猬、Mapreduce(分布式計算框架)

源自于google的MapReduce論文,發(fā)表于2004年12月刽肠,Hadoop MapReduce是google MapReduce 克隆版溃肪。

源自于google的MapReduce論文

MapReduce是一種計算模型,用以進行大數(shù)據(jù)量的計算音五。其中Map對數(shù)據(jù)集上的獨立元素進行指定的操作惫撰,生成鍵-值對形式中間結(jié)果。Reduce則對中間結(jié)果中相同“鍵”的所有“值”進行規(guī)約躺涝,以得到最終結(jié)果厨钻。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分布式并行環(huán)境里進行數(shù)據(jù)處理诞挨。

JobTracker:Master節(jié)點莉撇,只有一個,管理所有作業(yè)惶傻,作業(yè)/任務(wù)的監(jiān)控棍郎、錯誤處理等;將任務(wù)分解成一系列任務(wù)银室,并分派給TaskTracker涂佃。

TaskTracker:Slave節(jié)點励翼,運行Map Task和Reduce Task;并與JobTracker交互辜荠,匯報任務(wù)狀態(tài)汽抚。

Map Task:解析每條數(shù)據(jù)記錄,傳遞給用戶編寫的map(),并執(zhí)行伯病,將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè)造烁,直接寫入HDFS)。

Reducer Task:從Map Task的執(zhí)行結(jié)果中午笛,遠程讀取輸入數(shù)據(jù)惭蟋,對數(shù)據(jù)進行排序,將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行药磺。

Mapreduce處理流程告组,以wordCount為例:

4、Hive(基于Hadoop的數(shù)據(jù)倉庫)

由facebook開源癌佩,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計問題木缝。

Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。

通常用于離線分析围辙。

5我碟、Hbase(分布式列存數(shù)據(jù)庫)

源自Google的Bigtable論文,發(fā)表于2006年11月酌畜,HBase是Google Bigtable克隆版

HBase是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮怎囚、高可靠、高性能桥胞、分布式和面向列的動態(tài)模式數(shù)據(jù)庫恳守。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強的稀疏排序映射表(Key/Value)贩虾,其中催烘,鍵由行關(guān)鍵字、列關(guān)鍵字和時間戳構(gòu)成缎罢。HBase提供了對大規(guī)模數(shù)據(jù)的隨機伊群、實時讀寫訪問,同時策精,HBase中保存的數(shù)據(jù)可以使用MapReduce來處理舰始,它將數(shù)據(jù)存儲和并行計算完美地結(jié)合在一起。

數(shù)據(jù)模型:Schema-->Table-->Column Family-->Column-->RowKey-->TimeStamp-->Value

6咽袜、Zookeeper(分布式協(xié)作服務(wù))

源自Google的Chubby論文丸卷,發(fā)表于2006年11月,Zookeeper是Chubby克隆版

解決分布式環(huán)境下的數(shù)據(jù)管理問題:統(tǒng)一命名询刹,狀態(tài)同步谜嫉,集群管理萎坷,配置同步等。

7沐兰、Sqoop(數(shù)據(jù)同步工具)

Sqoop是SQL-to-Hadoop的縮寫哆档,主要用于傳統(tǒng)數(shù)據(jù)庫和Hadoop之前傳輸數(shù)據(jù)。

數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是Mapreduce程序住闯,充分利用了MR的并行化和容錯性瓜浸。

8、Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))

由yahoo!開源比原,設(shè)計動機是提供一種基于MapReduce的ad-hoc(計算在query時發(fā)生)數(shù)據(jù)分析工具

定義了一種數(shù)據(jù)流語言—Pig Latin斟叼,將腳本轉(zhuǎn)換為MapReduce任務(wù)在Hadoop上執(zhí)行。

通常用于進行離線分析春寿。

9、Mahout(數(shù)據(jù)挖掘算法庫)

Mahout起源于2008年忽孽,最初是Apache Lucent的子項目绑改,它在極短的時間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項目兄一。

Mahout的主要目標(biāo)是創(chuàng)建一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn)厘线,旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在已經(jīng)包含了聚類出革、分類造壮、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法骂束,Mahout還包含數(shù)據(jù)的輸入/輸出工具耳璧、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)展箱。

10旨枯、Flume(日志收集工具)

Cloudera開源的日志收集系統(tǒng),具有分布式混驰、高可靠攀隔、高容錯、易于定制和擴展的特點栖榨。

它將數(shù)據(jù)從產(chǎn)生昆汹、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流婴栽,在具體的數(shù)據(jù)流中满粗,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)居夹。同時败潦,F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力本冲,如過濾、格式轉(zhuǎn)換等劫扒。此外檬洞,F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力」导ⅲ總的來說添怔,F(xiàn)lume是一個可擴展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)贤旷。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末广料,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子幼驶,更是在濱河造成了極大的恐慌艾杏,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盅藻,死亡現(xiàn)場離奇詭異购桑,居然都是意外死亡,警方通過查閱死者的電腦和手機氏淑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門勃蜘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人假残,你說我怎么就攤上這事缭贡。” “怎么了辉懒?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵阳惹,是天一觀的道長。 經(jīng)常有香客問我耗帕,道長穆端,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任仿便,我火速辦了婚禮体啰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘嗽仪。我一直安慰自己荒勇,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布闻坚。 她就那樣靜靜地躺著沽翔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仅偎,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天跨蟹,我揣著相機與錄音,去河邊找鬼橘沥。 笑死窗轩,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的座咆。 我是一名探鬼主播痢艺,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼介陶!你這毒婦竟也來了堤舒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤哺呜,失蹤者是張志新(化名)和其女友劉穎舌缤,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體某残,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡友驮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了驾锰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡走越,死狀恐怖椭豫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情旨指,我是刑警寧澤赏酥,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站谆构,受9級特大地震影響裸扶,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜搬素,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一呵晨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧熬尺,春花似錦摸屠、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春胯舷,著一層夾襖步出監(jiān)牢的瞬間刻蚯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工桑嘶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留炊汹,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓不翩,卻偏偏與公主長得像兵扬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子口蝠,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容