大數(shù)據(jù)Hadoop架構(gòu)概覽

image-20211107131701563

Hadoop架構(gòu)概覽

參考:尚硅谷大數(shù)據(jù)Hadoop 3.x

1 Hadoop組成

  1. HDFS
  2. Yarn
  3. MapReduce
  4. Common輔助工具
image-20211107121931071

1.1 HDFS概述

Hadoop Distributed File System,簡稱HDFS穴翩,是一個分布式文件系統(tǒng)

包含:NameNode(nn)劝术、DataNode(dn) 和 Secondary NameNode (2nn)

image-20211107123345141

1.1.1 NameNode(nn)

就是Master,它是一個主管县耽、管理者匈勋。
(1)管理HDFS的名稱空間监憎;
(2)配置副本策略绞呈;
(3)管理數(shù)據(jù)塊(Block)映射信息贸人;
(4)處理客戶端讀寫請求。

1.1.2 DataNode(dn)

就是Slave佃声,NameNode下達(dá)命令艺智,DataNode執(zhí)行實(shí)際的操作。
(1)存儲實(shí)際的數(shù)據(jù)塊圾亏;
(2)執(zhí)行數(shù)據(jù)塊的讀/寫操作十拣。

1.1.3 Client

就是需要使用HDFS能力的客戶端。
(1)文件切分志鹃。文件上傳HDFS的時候父晶,Client將文件切分成一個一個的Block,然后進(jìn)行上傳弄跌;
(2)與NameNode交互,獲取文件的位置信息尝苇;
(3)與DataNode交互铛只,讀取或者寫入數(shù)據(jù)埠胖;
(4)Client提供一些命令來管理HDFS,比如NameNode格式化淳玩;
(5)Client可以通過一些命令來訪問HDFS直撤,比如對HDFS增刪查改操作。

1.1.4 Secondary NameNode(2nn)

并非NameNode的熱備份蜕着。當(dāng)NameNode掛掉的時候谋竖,它并不能馬上替換NameNode并提供服務(wù)。
(1)輔助NameNode承匣,分擔(dān)其工作量蓖乘,比如定期合并Fsimage和Edits,并推送給NameNode 韧骗;
(2)在緊急情況下嘉抒,可輔助恢復(fù)NameNode。


1.2 Yarn概述

Yet Another Resource Negotiator 簡稱YARN 袍暴,另一種資源協(xié)調(diào)者些侍,是Hadoop 的資源管理器。

包含

  1. ResourceManager(RM):整個集群資源(內(nèi)存政模、CPU等)的老大
  2. ApplicationMaster(AM):單個任務(wù)運(yùn)行的老大
  3. NodeManager(NM):單個節(jié)點(diǎn)服務(wù)器資源老大
  4. Container:容器岗宣,相當(dāng)一臺獨(dú)立的服務(wù)器,里面封裝了任務(wù)運(yùn)行所需要的資源淋样,如內(nèi)存耗式、CPU、磁盤习蓬、網(wǎng)絡(luò)等纽什。
image-20211107124730778

說明

  1. 客戶端可以有多個
  2. 集群上可以運(yùn)行多個ApplicationMaster
  3. 每個NodeManager上可以有多個Container

1.2.1 ResourceManager(RM)

主要作用如下

  1. 處理客戶端請求
  2. 監(jiān)控NodeManager
  3. 啟動或監(jiān)控ApplicationMaster
  4. 資源的分配與調(diào)度

1.2.2 ApplicationMaster(AM)

作用如下

  1. 任務(wù)的監(jiān)控與容錯
  2. 為應(yīng)用程序申請資源并分配給內(nèi)部的任務(wù)

1.2.3 NodeManager(NM)

主要作用如下

  1. 管理單個節(jié)點(diǎn)上的資源
  2. 處理來自ResourceManager的命令
  3. 處理來自ApplicationMaster的命令

1.2.4 Container

Container 是YARN 中的資源抽象,它封裝了某個節(jié)點(diǎn)上的多維度資源躲叼,如內(nèi)存芦缰、CPU、磁盤枫慷、網(wǎng)絡(luò)等让蕾。


1.3 MapReduce概述

MapReduce 是一個分布式運(yùn)算程序的編程框架,是用戶開發(fā)“基于Hadoop 的數(shù)據(jù)分析應(yīng)用”的核心框架或听。
MapReduce 核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認(rèn)組件整合成一個完整的分布式運(yùn)算程序探孝,并發(fā)運(yùn)行在一個Hadoop 集群上。

MapReduce 將計算過程分為兩個階段:Map 和Reduce
1)Map 階段并行處理輸入數(shù)據(jù)
2)Reduce 階段對Map 結(jié)果進(jìn)行匯總

image-20211107130618514

2 HDFS誉裆、YARN顿颅、MapReduce 三者關(guān)系

image-20211107130825227

3 大數(shù)據(jù)技術(shù)生態(tài)體系

image-20211107130857988

圖中涉及的技術(shù)名詞解釋:

3.1 Sqoop

Sqoop 是一款開源的工具,主要用于在Hadoop足丢、Hive 與傳統(tǒng)的數(shù)據(jù)庫(MySQL)間進(jìn)行數(shù)據(jù)的傳遞粱腻,可以將一個關(guān)系型數(shù)據(jù)庫(例如 :MySQL庇配,Oracle 等)中的數(shù)據(jù)導(dǎo)入到Hadoop 的HDFS 中,也可以將HDFS 的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中

3.2 Flume

Flume 是一個高可用的绍些,高可靠的捞慌,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)柬批,F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方啸澡,用于收集數(shù)據(jù)

3.3 Kafka

Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)

3.4 Spark

Spark 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計算框架〉剩可以基于Hadoop 上存儲的大數(shù)據(jù)進(jìn)行計算

3.5 Flink

Flink 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計算框架嗅虏。用于實(shí)時計算的場景較多

3.6 Oozie

Oozie 是一個管理Hadoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)

3.7 Hbase

HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫揪漩。HBase 不同于一般的關(guān)系數(shù)據(jù)庫旋恼,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫

3.8 Hive

Hive 是基于Hadoop 的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表奄容,并提供簡單的SQL 查詢功能冰更,可以將SQL 語句轉(zhuǎn)換為MapReduce 任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低昂勒,可以通過類SQL 語句快速實(shí)現(xiàn)簡單的MapReduce 統(tǒng)計蜀细,不必開發(fā)專門的MapReduce 應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析

3.9 ZooKeeper

是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)戈盈,提供的功能包括:配置維護(hù)奠衔、名字服務(wù)、分布式同步塘娶、組服務(wù)等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末归斤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子刁岸,更是在濱河造成了極大的恐慌脏里,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件虹曙,死亡現(xiàn)場離奇詭異迫横,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)酝碳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門矾踱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人疏哗,你說我怎么就攤上這事呛讲。” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵圣蝎,是天一觀的道長刃宵。 經(jīng)常有香客問我,道長徘公,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任哮针,我火速辦了婚禮关面,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘十厢。我一直安慰自己等太,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布蛮放。 她就那樣靜靜地躺著缩抡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪包颁。 梳的紋絲不亂的頭發(fā)上瞻想,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機(jī)與錄音娩嚼,去河邊找鬼蘑险。 笑死,一個胖子當(dāng)著我的面吹牛岳悟,可吹牛的內(nèi)容都是我干的佃迄。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贵少,長吁一口氣:“原來是場噩夢啊……” “哼呵俏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起滔灶,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤普碎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后宽气,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體随常,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年萄涯,在試婚紗的時候發(fā)現(xiàn)自己被綠了绪氛。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡涝影,死狀恐怖枣察,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤序目,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布臂痕,位于F島的核電站,受9級特大地震影響猿涨,放射性物質(zhì)發(fā)生泄漏握童。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一叛赚、第九天 我趴在偏房一處隱蔽的房頂上張望澡绩。 院中可真熱鬧,春花似錦俺附、人聲如沸肥卡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽步鉴。三九已至,卻和暖如春璃哟,著一層夾襖步出監(jiān)牢的瞬間氛琢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工沮稚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留艺沼,地道東北人。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓蕴掏,卻偏偏與公主長得像障般,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子盛杰,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容