HDFS架構(gòu)


1. 數(shù)據(jù)塊(Block)

HDFS中的文件是以數(shù)據(jù)塊(Block)的形式存儲(chǔ)的扣草,默認(rèn)最基本的存儲(chǔ)單位是128 MB(Hadoop 1.x為64 MB)的數(shù)據(jù)塊。也就是說肖油,存儲(chǔ)在HDFS中的文件都會(huì)被分割成128 MB一塊的數(shù)據(jù)塊進(jìn)行存儲(chǔ)啡浊,如果文件本身小于一個(gè)數(shù)據(jù)塊的大小,則按實(shí)際大小存儲(chǔ)态蒂,并不占用整個(gè)數(shù)據(jù)塊空間。HDFS的數(shù)據(jù)塊之所以會(huì)設(shè)置這么大费什,其目的是減少尋址開銷钾恢。數(shù)據(jù)塊數(shù)量越多,尋址數(shù)據(jù)塊所耗的時(shí)間就越多鸳址。當(dāng)然也不會(huì)設(shè)置過大瘩蚪,MapReduce中的Map任務(wù)通常一次只處理一個(gè)塊中的數(shù)據(jù),如果任務(wù)數(shù)太少稿黍,作業(yè)的運(yùn)行速度就會(huì)比較慢疹瘦。HDFS的每一個(gè)數(shù)據(jù)塊默認(rèn)都有三個(gè)副本,分別存儲(chǔ)在不同的DataNode上巡球,以實(shí)現(xiàn)容錯(cuò)功能言沐。因此,若數(shù)據(jù)塊的某個(gè)副本丟失并不會(huì)影響對(duì)數(shù)據(jù)塊的訪問酣栈。數(shù)據(jù)塊大小和副本數(shù)量可在配置文件中更改

HDFS數(shù)據(jù)塊的存儲(chǔ)結(jié)構(gòu)

2. NameNode

NameNode是HDFS中存儲(chǔ)元數(shù)據(jù)(文件名稱险胰、大小和位置等信息)的地方,它將所有文件和文件夾的元數(shù)據(jù)保存在一個(gè)文件系統(tǒng)目錄樹中矿筝,任何元數(shù)據(jù)信息的改變起便,NameNode都會(huì)記錄。HDFS中的每個(gè)文件都被拆分為多個(gè)數(shù)據(jù)塊存放窖维,這種文件與數(shù)據(jù)塊的對(duì)應(yīng)關(guān)系也存儲(chǔ)在文件系統(tǒng)目錄樹中榆综,由NameNode維護(hù)。NameNode還存儲(chǔ)數(shù)據(jù)塊到DataNode的映射信息陈辱,這種映射信息包括:數(shù)據(jù)塊存放在哪些DataNode上奖年、每個(gè)DataNode上保存了哪些數(shù)據(jù)塊。NameNode也會(huì)周期性地接收來自集群中DataNode的“心跳”和“塊報(bào)告”沛贪。通過“心跳”與DataNode保持通信陋守,監(jiān)控DataNode的狀態(tài)(活著還是宕機(jī)),若長(zhǎng)時(shí)間接收不到“心跳”信息利赋,NameNode會(huì)認(rèn)為DataNode已經(jīng)宕機(jī)水评,從而做出相應(yīng)的調(diào)整策略∶乃停“塊報(bào)告”包含了DataNode上所有數(shù)據(jù)塊的列表信息中燥。

3. DataNode

DataNode是HDFS中真正存儲(chǔ)數(shù)據(jù)的地方√临耍客戶端可以向DataNode請(qǐng)求寫入或讀取數(shù)據(jù)塊疗涉,DataNode還在來自NameNode的指令下執(zhí)行塊的創(chuàng)建拿霉、刪除和復(fù)制,并且周期性地向NameNode匯報(bào)數(shù)據(jù)塊信息咱扣。

4. SecondaryName

NodeSecondaryNameNode用于幫助NameNode管理元數(shù)據(jù)绽淘,從而使NameNode能夠快速、高效地工作闹伪。它并不是第二個(gè)NameNode沪铭,僅是NameNode的一個(gè)輔助工具。HDFS的元數(shù)據(jù)信息主要存儲(chǔ)于兩個(gè)文件中:fsimage和edits偏瓤。fsimage是文件系統(tǒng)映射文件杀怠,主要存儲(chǔ)文件元數(shù)據(jù)信息,其中包含文件系統(tǒng)所有目錄厅克、文件信息以及數(shù)據(jù)塊的索引赔退;edits是HDFS操作日志文件,HDFS對(duì)文件系統(tǒng)的修改日志會(huì)存儲(chǔ)到該文件中已骇。當(dāng)NameNode啟動(dòng)時(shí)离钝,會(huì)從文件fsimage中讀取HDFS的狀態(tài)票编,也會(huì)對(duì)文件fsimage和edits進(jìn)行合并褪储,得到完整的元數(shù)據(jù)信息,隨后會(huì)將新HDFS狀態(tài)寫入fsimage慧域。但是在繁忙的集群中鲤竹,edits文件會(huì)隨著時(shí)間的推移變得非常大,這就導(dǎo)致NameNode下一次啟動(dòng)的時(shí)間會(huì)非常長(zhǎng)昔榴。為了解決這個(gè)問題辛藻,則產(chǎn)生了SecondaryNameNode,SecondaryNameNode會(huì)定期協(xié)助NameNode合并fsimage和edits文件互订,并使edits文件的大小保持在一定的限制內(nèi)吱肌。SecondaryNameNode通常與NameNode在不同的計(jì)算機(jī)上運(yùn)行,因?yàn)樗膬?nèi)存需求與NameNode相同仰禽,這樣可以減輕NameNode所在計(jì)算機(jī)的壓力氮墨。


SecondaryNameNode的工作流程
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吐葵,隨后出現(xiàn)的幾起案子规揪,更是在濱河造成了極大的恐慌,老刑警劉巖温峭,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猛铅,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡凤藏,警方通過查閱死者的電腦和手機(jī)奸忽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門堕伪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人栗菜,你說我怎么就攤上這事刃跛。” “怎么了苛萎?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵桨昙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我腌歉,道長(zhǎng)蛙酪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任翘盖,我火速辦了婚禮桂塞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘馍驯。我一直安慰自己阁危,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布汰瘫。 她就那樣靜靜地躺著狂打,像睡著了一般。 火紅的嫁衣襯著肌膚如雪混弥。 梳的紋絲不亂的頭發(fā)上趴乡,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音蝗拿,去河邊找鬼晾捏。 笑死,一個(gè)胖子當(dāng)著我的面吹牛哀托,可吹牛的內(nèi)容都是我干的惦辛。 我是一名探鬼主播,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼仓手,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼胖齐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起俗或,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤市怎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辛慰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體区匠,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驰弄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片麻汰。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖戚篙,靈堂內(nèi)的尸體忽然破棺而出五鲫,到底是詐尸還是另有隱情,我是刑警寧澤岔擂,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布位喂,位于F島的核電站,受9級(jí)特大地震影響乱灵,放射性物質(zhì)發(fā)生泄漏塑崖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一痛倚、第九天 我趴在偏房一處隱蔽的房頂上張望规婆。 院中可真熱鬧,春花似錦蝉稳、人聲如沸抒蚜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)嗡髓。三九已至,卻和暖如春毕莱,著一層夾襖步出監(jiān)牢的瞬間器贩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工朋截, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吧黄。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓部服,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親拗慨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子廓八,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容

  • Hadoop特點(diǎn) 擴(kuò)容能力: 能可靠地存儲(chǔ)和處理PB級(jí)的數(shù)據(jù) 成本低: 可以通過普通機(jī)器組成的服務(wù)器集群來分發(fā)以及...
    ArthurIsUsed閱讀 532評(píng)論 0 0
  • 本文將從NameNode,DataNode赵抢,SecondaryNameNode剧蹂,心跳檢測(cè),負(fù)載均衡五個(gè)方面展開討論...
    HideOnStream閱讀 599評(píng)論 0 3
  • HDFS架構(gòu) NameNode: 就是Master烦却,它就是一個(gè)主管宠叼,管理者(1)管理hdfs的名稱空間(2)配置副...
    Jasper_Chen閱讀 307評(píng)論 0 0
  • 版本一 1.HDFS是一個(gè)主從架構(gòu),NameNode是老大,SecondaryNameNode是老二冒冬,老大掛了伸蚯,老...
    Sql強(qiáng)閱讀 371評(píng)論 0 0
  • 1.背景 HDFS最初是參考谷歌GFS論文原理開發(fā)的一個(gè)開源產(chǎn)品,由Lucene開源項(xiàng)目的創(chuàng)始人Doug Cutt...
    架構(gòu)禪話閱讀 1,373評(píng)論 0 2