HDFS詳解

一.HDFS簡(jiǎn)介

hdfs是一個(gè)文件系統(tǒng)诀紊,用于存儲(chǔ)文件巍杈,通過統(tǒng)一的命名空間——目錄樹來定位文件,并且是分布式的闺金,由很多服務(wù)器聯(lián)合起來實(shí)現(xiàn)其功能拒课,集群中相關(guān)角色各自負(fù)責(zé)自己的功能狼牺。

重要特征:

1.HDFS中的文件在物理上是分塊存儲(chǔ)(block)羡儿,塊的大小可以通過配置參數(shù)( dfs.blocksize)來規(guī)定,默認(rèn)大小在hadoop2.x版本中是128M是钥,老版本中是64M掠归。

2.HDFS文件系統(tǒng)會(huì)給客戶端提供一個(gè)統(tǒng)一的抽象目錄樹(和linux文件系統(tǒng)類似),客戶端通過路徑來訪問文件悄泥,形如:/etc/test/...

3.目錄結(jié)構(gòu)及文件分塊信息(元數(shù)據(jù))的管理由namenode節(jié)點(diǎn)承擔(dān)——namenode是HDFS集群主節(jié)點(diǎn)虏冻,負(fù)責(zé)維護(hù)整個(gè)hdfs文件系統(tǒng)的目錄樹,以及每一個(gè)路徑(文件)所對(duì)應(yīng)的block塊信息(block的id,及所在的datanode服務(wù)器)

4.文件的各個(gè)block的存儲(chǔ)管理由datanode節(jié)點(diǎn)承擔(dān)---- datanode是HDFS集群從節(jié)點(diǎn),每一個(gè)block都可以在多個(gè)datanode上存儲(chǔ)多個(gè)副本(副本數(shù)量也可以通過參數(shù)設(shè)置dfs.replication)

5.HDFS是設(shè)計(jì)成適應(yīng)一次寫入懒闷,多次讀出的場(chǎng)景惧盹,不支持文件的修改子姜,但支持?jǐn)?shù)據(jù) append(追加)

二.HDFS的工作機(jī)制

1.概述

(1)HDFS集群分為兩大角色:NameNode栏饮、DataNode

(2)NameNode負(fù)責(zé)管理整個(gè)文件系統(tǒng)的元數(shù)據(jù)

(3)DataNode 負(fù)責(zé)管理用戶的文件數(shù)據(jù)塊

(4)文件會(huì)按照固定的大兄鸦取(blocksize)切成若干塊后分布式存儲(chǔ)在若干臺(tái)datanode上

(5)每一個(gè)文件塊可以有多個(gè)副本巷怜,并存放在不同的datanode上

(6)Datanode會(huì)定期向Namenode匯報(bào)自身所保存的文件block信息绪撵,而namenode則會(huì)負(fù)責(zé)保持文件的副本數(shù)量

(7)HDFS的內(nèi)部工作機(jī)制對(duì)客戶端保持透明瓢姻,客戶端請(qǐng)求訪問HDFS都是通過向namenode申請(qǐng)來進(jìn)行

2.HDFS如何存儲(chǔ)數(shù)據(jù)

HDFS存儲(chǔ)數(shù)據(jù)架構(gòu)圖

HDFS 采用Master/Slave的架構(gòu)來存儲(chǔ)數(shù)據(jù),這種架構(gòu)主要由四個(gè)部分組成音诈,分別為HDFS Client幻碱、NameNode、DataNode和Secondary NameNode细溅。下面我們分別介紹這四個(gè)組成部分褥傍。

Client:就是客戶端。

1喇聊、文件切分恍风。文件上傳 HDFS 的時(shí)候,Client 將文件切分成 一個(gè)一個(gè)的Block誓篱,然后進(jìn)行存儲(chǔ)朋贬。

2、與 NameNode 交互窜骄,獲取文件的位置信息锦募。

3、與 DataNode 交互邻遏,讀取或者寫入數(shù)據(jù)糠亩。

4、Client 提供一些命令來管理 HDFS准验,比如啟動(dòng)或者關(guān)閉HDFS赎线。

5、Client 可以通過一些命令來訪問 HDFS糊饱。

NameNode:就是 master氛驮,它是一個(gè)主管、管理者济似。

1、管理 HDFS 的名稱空間盏缤。

2砰蠢、管理數(shù)據(jù)塊(Block)映射信息

3、配置副本策略

4唉铜、處理客戶端讀寫請(qǐng)求台舱。

DataNode:就是Slave。NameNode 下達(dá)命令,DataNode 執(zhí)行實(shí)際的操作竞惋。

1柜去、存儲(chǔ)實(shí)際的數(shù)據(jù)塊。

2拆宛、執(zhí)行數(shù)據(jù)塊的讀/寫操作嗓奢。

Secondary NameNode:并非 NameNode 的熱備。當(dāng)NameNode 掛掉的時(shí)候浑厚,它并不能馬上替換 NameNode 并提供服務(wù)股耽。

1、輔助 NameNode钳幅,分擔(dān)其工作量物蝙。

2、定期合并 fsimage和fsedits敢艰,并推送給NameNode诬乞。

3、在緊急情況下钠导,可輔助恢復(fù) NameNode震嫉。

3.HDFS如何讀取文件

HDFS文件讀取原理

1、跟namenode通信查詢?cè)獢?shù)據(jù)辈双,找到文件塊所在的datanode服務(wù)器(這一步是由DistributedFileSystem通過RPC(遠(yuǎn)程過程調(diào)用)完成的)责掏。

2、然后從獲得的服務(wù)器地址(因?yàn)橐粋€(gè)block一般由3個(gè)服務(wù)器備份)中根據(jù)Hadoop拓?fù)浣Y(jié)構(gòu)排序(可以簡(jiǎn)單理解為最近的服務(wù)器)選擇最優(yōu)的datanode湃望,請(qǐng)求建立socket連接换衬。

3、datanode開始發(fā)送數(shù)據(jù)(從磁盤里面讀取數(shù)據(jù)放入流证芭,以packet為單位來做校驗(yàn))

4瞳浦、客戶端以packet為單位接收,先在本地緩存废士,然后寫入目標(biāo)文件

5叫潦、如果第一個(gè)block塊的數(shù)據(jù)讀完了,就會(huì)關(guān)閉指向第一個(gè)block塊的datanode連接官硝,接著讀取下一個(gè)block塊(因?yàn)榈谝徊娇赡塬@取多個(gè)block的地址)矗蕊。這些操作對(duì)客戶端來說是透明的,從客戶端的角度來看只是讀一個(gè)持續(xù)不斷的流氢架。

6傻咖、如果第一批block都讀完了,DFSInputStream就會(huì)去namenode拿下一批blocks的namenode地址岖研,然后繼續(xù)讀卿操,如果所有的block塊都讀完,這時(shí)就會(huì)關(guān)閉掉所有的流。

4.HDFS如何寫文件

HDFS寫文件原理

1.客戶端通過調(diào)用 DistributedFileSystem 的create方法害淤,創(chuàng)建一個(gè)新的文件扇雕。

2.DistributedFileSystem 通過 RPC(遠(yuǎn)程過程調(diào)用)調(diào)用 NameNode,去創(chuàng)建一個(gè)沒有blocks關(guān)聯(lián)的新文件窥摄。創(chuàng)建前镶奉,NameNode 會(huì)做各種校驗(yàn),比如文件是否存在溪王,客戶端有無權(quán)限去創(chuàng)建等腮鞍。如果校驗(yàn)通過,NameNode 就會(huì)記錄下新文件莹菱,否則就會(huì)拋出IO異常移国。

3.前兩步結(jié)束后會(huì)返回 FSDataOutputStream 的對(duì)象,和讀文件的時(shí)候相似道伟,F(xiàn)SDataOutputStream 被封裝成 DFSOutputStream迹缀,DFSOutputStream 可以協(xié)調(diào) NameNode和 DataNode∶刍眨客戶端開始寫數(shù)據(jù)到DFSOutputStream,DFSOutputStream會(huì)把數(shù)據(jù)切成一個(gè)個(gè)小packet祝懂,然后排成隊(duì)列 data queue。

4.DataStreamer 會(huì)去處理接受 data queue拘鞋,它先問詢 NameNode 這個(gè)新的 block 最適合存儲(chǔ)的在哪幾個(gè)DataNode里砚蓬,比如重復(fù)數(shù)是3,那么就找到3個(gè)最適合的 DataNode盆色,把它們排成一個(gè) pipeline灰蛙。DataStreamer 把 packet 按隊(duì)列輸出到管道的第一個(gè) DataNode 中,第一個(gè) DataNode又把 packet 輸出到第二個(gè) DataNode 中隔躲,以此類推摩梧。

5.DFSOutputStream 還有一個(gè)隊(duì)列叫 ack queue,也是由 packet 組成宣旱,等待DataNode的收到響應(yīng)仅父,當(dāng)pipeline中的所有DataNode都表示已經(jīng)收到的時(shí)候,這時(shí)akc queue才會(huì)把對(duì)應(yīng)的packet包移除掉浑吟。

6.客戶端完成寫數(shù)據(jù)后笙纤,調(diào)用close方法關(guān)閉寫入流。

7.DataStreamer 把剩余的包都刷到 pipeline 里组力,然后等待 ack 信息粪糙,收到最后一個(gè) ack 后,通知 DataNode 把文件標(biāo)示為已完成忿项。

5.Namenode工作機(jī)制

1.Namenode工作職責(zé):負(fù)責(zé)客戶端請(qǐng)求的響應(yīng),元數(shù)據(jù)的管理(查詢,修改)

2.元數(shù)據(jù)管理 : namenode對(duì)數(shù)據(jù)的管理采用了三種存儲(chǔ)形式:內(nèi)存元數(shù)據(jù)(NameSystem) 磁盤元數(shù)據(jù)鏡像文件 數(shù)據(jù)操作日志文件(可通過日志運(yùn)算出元數(shù)據(jù))

3.元數(shù)據(jù)存儲(chǔ)機(jī)制:

A轩触、內(nèi)存中有一份完整的元數(shù)據(jù)(內(nèi)存meta data)

B寞酿、磁盤有一個(gè)“準(zhǔn)完整”的元數(shù)據(jù)鏡像(fsimage)文件(在namenode的工作目錄中)

C、用于銜接內(nèi)存metadata和持久化元數(shù)據(jù)鏡像fsimage之間的操作日志(edits****文件注:當(dāng)客戶端對(duì)hdfs中的文件進(jìn)行新增或者修改操作脱柱,操作記錄首先被記入edits日志文件中伐弹,當(dāng)客戶端操作成功后,相應(yīng)的元數(shù)據(jù)會(huì)更新到內(nèi)存meta.data

4.元數(shù)據(jù)的checkpoint:每隔一段時(shí)間榨为,會(huì)由secondary namenode將namenode上積累的所有edits和一個(gè)最新的fsimage下載到本地惨好,并加載到內(nèi)存進(jìn)行merge(這個(gè)過程稱為checkpoint)

image

checkpoint操作的觸發(fā)條件配置參數(shù):

dfs.namenode.checkpoint.check.period=60 #檢查觸發(fā)條件是否滿足的頻率,60秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

#以上兩個(gè)參數(shù)做checkpoint操作時(shí)随闺,secondary namenode的本地工作目錄

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

dfs.namenode.checkpoint.max-retries=3 #最大重試次數(shù)

dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時(shí)間間隔3600秒

dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄

checkpoint的附帶作用

namenode和secondary namenode的工作目錄存儲(chǔ)結(jié)構(gòu)完全相同日川,所以,當(dāng)namenode故障退出需要重新恢復(fù)時(shí)矩乐,可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄龄句,以恢復(fù)namenode的元數(shù)據(jù)

6.Datanode工作機(jī)制

1.Datanode工作職責(zé):存儲(chǔ)管理用戶的文件塊數(shù)據(jù),定期向namenode匯報(bào)自身所持有的block信息(通過心跳信息上報(bào))

<property>

       <name>dfs.blockreport.intervalMsec</name>

       <value>3600000</value>

       <description>Determines block reporting interval in milliseconds.</description>

</property>

2.Datanode掉線判斷時(shí)限參數(shù)

datanode進(jìn)程死亡或者網(wǎng)絡(luò)故障造成datanode無法與namenode通信散罕,namenode不會(huì)立即把該節(jié)點(diǎn)判定為死亡分歇,要經(jīng)過一段時(shí)間,這段時(shí)間暫稱作超時(shí)時(shí)長(zhǎng)欧漱。HDFS默認(rèn)的超時(shí)時(shí)長(zhǎng)為10分鐘+30秒职抡。如果定義超時(shí)時(shí)間為timeout,則超時(shí)時(shí)長(zhǎng)的計(jì)算公式為:

timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval误甚。

而默認(rèn)的heartbeat.recheck.interval 大小為5分鐘缚甩,dfs.heartbeat.interval默認(rèn)為3秒。

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的單位為毫秒靶草,dfs.heartbeat.interval的單位為秒蹄胰。所以,舉個(gè)例子奕翔,如果heartbeat.recheck.interval設(shè)置為5000(毫秒)裕寨,dfs.heartbeat.interval設(shè)置為3(秒,默認(rèn))派继,則總的超時(shí)時(shí)間為40秒宾袜。

  <property>

          <name>heartbeat.recheck.interval</name>

          <value>2000</value>

  </property>

  <property>

          <name>dfs.heartbeat.interval</name>

          <value>1</value>

  </property>

參考博客:
https://blog.csdn.net/kezhong_wxl/article/details/76573901
https://www.cnblogs.com/growth-hong/p/6396332.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市驾窟,隨后出現(xiàn)的幾起案子庆猫,更是在濱河造成了極大的恐慌,老刑警劉巖绅络,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件月培,死亡現(xiàn)場(chǎng)離奇詭異嘁字,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)杉畜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門纪蜒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人此叠,你說我怎么就攤上這事纯续。” “怎么了灭袁?”我有些...
    開封第一講書人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵猬错,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我茸歧,道長(zhǎng)倦炒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任举娩,我火速辦了婚禮析校,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘铜涉。我一直安慰自己智玻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開白布芙代。 她就那樣靜靜地躺著吊奢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纹烹。 梳的紋絲不亂的頭發(fā)上页滚,一...
    開封第一講書人閱讀 49,185評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音铺呵,去河邊找鬼裹驰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛片挂,可吹牛的內(nèi)容都是我干的幻林。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼音念,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼沪饺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起闷愤,我...
    開封第一講書人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤整葡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后讥脐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體遭居,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡啼器,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了魏滚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镀首。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖鼠次,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情芋齿,我是刑警寧澤腥寇,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站觅捆,受9級(jí)特大地震影響赦役,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜栅炒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一掂摔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赢赊,春花似錦乙漓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至玩讳,卻和暖如春涩蜘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背熏纯。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來泰國打工同诫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人樟澜。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓误窖,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親往扔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子贩猎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • 目錄 HDFS的工作機(jī)制 概述 HDFS 寫數(shù)據(jù)流程 HDFS 讀數(shù)據(jù)流程 NameNode的工作機(jī)制 NameN...
    Singer_Au閱讀 9,850評(píng)論 0 5
  • 1. 概述 HDFS集群分為兩大角色:NameNode吭服、DataNode(Secondary NameNode)N...
    如果仲有聽日閱讀 9,563評(píng)論 1 7
  • 認(rèn)識(shí)HDFS HDFS的特點(diǎn): 高容錯(cuò)性高吞吐量故障的檢測(cè)和自動(dòng)快速恢復(fù)流式的數(shù)據(jù)訪問大數(shù)據(jù)集一次寫入,多次讀寫 ...
    Bloo_m閱讀 3,242評(píng)論 6 8
  • I am a teacher,但我不是蠟燭蝗罗,不是園丁艇棕,不是靈魂的工程師蝌戒,因?yàn)槲壹炔幌氚炎约喊镜接捅M燈枯,也沒有養(yǎng)活...
    Blowingwind閱讀 259評(píng)論 0 0
  • 安之聽了耳熱心跳沼琉,沒想到信之會(huì)這樣的曲解北苟。 “你應(yīng)該去聽聽?zhēng)熓宓闹v經(jīng),”安之看著信之打瘪,“眾生相無相...
    甄弛閱讀 156評(píng)論 0 0