HDFS詳解

一.HDFS簡(jiǎn)介

hdfs是一個(gè)文件系統(tǒng)诀紊，用于存儲(chǔ)文件巍杈，通過統(tǒng)一的命名空間——目錄樹來定位文件,并且是分布式的闺金，由很多服務(wù)器聯(lián)合起來實(shí)現(xiàn)其功能拒课，集群中相關(guān)角色各自負(fù)責(zé)自己的功能狼牺。

重要特征：

1.HDFS中的文件在物理上是分塊存儲(chǔ)（block）羡儿，塊的大小可以通過配置參數(shù)( dfs.blocksize)來規(guī)定，默認(rèn)大小在hadoop2.x版本中是128M是钥，老版本中是64M掠归。

2.HDFS文件系統(tǒng)會(huì)給客戶端提供一個(gè)統(tǒng)一的抽象目錄樹(和linux文件系統(tǒng)類似)，客戶端通過路徑來訪問文件悄泥，形如：/etc/test/...

3.目錄結(jié)構(gòu)及文件分塊信息(元數(shù)據(jù))的管理由namenode節(jié)點(diǎn)承擔(dān)——namenode是HDFS集群主節(jié)點(diǎn)虏冻，負(fù)責(zé)維護(hù)整個(gè)hdfs文件系統(tǒng)的目錄樹，以及每一個(gè)路徑（文件）所對(duì)應(yīng)的block塊信息（block的id，及所在的datanode服務(wù)器）

4.文件的各個(gè)block的存儲(chǔ)管理由datanode節(jié)點(diǎn)承擔(dān)---- datanode是HDFS集群從節(jié)點(diǎn)，每一個(gè)block都可以在多個(gè)datanode上存儲(chǔ)多個(gè)副本（副本數(shù)量也可以通過參數(shù)設(shè)置dfs.replication）

5.HDFS是設(shè)計(jì)成適應(yīng)一次寫入懒闷，多次讀出的場(chǎng)景惧盹，不支持文件的修改子姜，但支持?jǐn)?shù)據(jù) append（追加）

二.HDFS的工作機(jī)制

1.概述

（1）HDFS集群分為兩大角色：NameNode栏饮、DataNode

（2）NameNode負(fù)責(zé)管理整個(gè)文件系統(tǒng)的元數(shù)據(jù)

（3）DataNode 負(fù)責(zé)管理用戶的文件數(shù)據(jù)塊

（4）文件會(huì)按照固定的大兄鸦取（blocksize）切成若干塊后分布式存儲(chǔ)在若干臺(tái)datanode上

（5）每一個(gè)文件塊可以有多個(gè)副本巷怜，并存放在不同的datanode上

（6）Datanode會(huì)定期向Namenode匯報(bào)自身所保存的文件block信息绪撵，而namenode則會(huì)負(fù)責(zé)保持文件的副本數(shù)量

（7）HDFS的內(nèi)部工作機(jī)制對(duì)客戶端保持透明瓢姻，客戶端請(qǐng)求訪問HDFS都是通過向namenode申請(qǐng)來進(jìn)行

2.HDFS如何存儲(chǔ)數(shù)據(jù)

HDFS存儲(chǔ)數(shù)據(jù)架構(gòu)圖

HDFS 采用Master/Slave的架構(gòu)來存儲(chǔ)數(shù)據(jù)，這種架構(gòu)主要由四個(gè)部分組成音诈，分別為HDFS Client幻碱、NameNode、DataNode和Secondary NameNode细溅。下面我們分別介紹這四個(gè)組成部分褥傍。

Client：就是客戶端。

1喇聊、文件切分恍风。文件上傳 HDFS 的時(shí)候，Client 將文件切分成一個(gè)一個(gè)的Block誓篱，然后進(jìn)行存儲(chǔ)朋贬。

2、與 NameNode 交互窜骄，獲取文件的位置信息锦募。

3、與 DataNode 交互邻遏，讀取或者寫入數(shù)據(jù)糠亩。

4、Client 提供一些命令來管理 HDFS准验，比如啟動(dòng)或者關(guān)閉HDFS赎线。

5、Client 可以通過一些命令來訪問 HDFS糊饱。

NameNode：就是 master氛驮，它是一個(gè)主管、管理者济似。

1、管理 HDFS 的名稱空間盏缤。

2砰蠢、管理數(shù)據(jù)塊（Block）映射信息

3、配置副本策略

4唉铜、處理客戶端讀寫請(qǐng)求台舱。

DataNode：就是Slave。NameNode 下達(dá)命令，DataNode 執(zhí)行實(shí)際的操作竞惋。

1柜去、存儲(chǔ)實(shí)際的數(shù)據(jù)塊。

2拆宛、執(zhí)行數(shù)據(jù)塊的讀/寫操作嗓奢。

Secondary NameNode：并非 NameNode 的熱備。當(dāng)NameNode 掛掉的時(shí)候浑厚，它并不能馬上替換 NameNode 并提供服務(wù)股耽。

1、輔助 NameNode钳幅，分擔(dān)其工作量物蝙。

2、定期合并 fsimage和fsedits敢艰，并推送給NameNode诬乞。

3、在緊急情況下钠导，可輔助恢復(fù) NameNode震嫉。

3.HDFS如何讀取文件

HDFS文件讀取原理

1、跟namenode通信查詢?cè)獢?shù)據(jù)辈双，找到文件塊所在的datanode服務(wù)器(這一步是由DistributedFileSystem通過RPC(遠(yuǎn)程過程調(diào)用)完成的)责掏。

2、然后從獲得的服務(wù)器地址（因?yàn)橐粋€(gè)block一般由3個(gè)服務(wù)器備份）中根據(jù)Hadoop拓?fù)浣Y(jié)構(gòu)排序(可以簡(jiǎn)單理解為最近的服務(wù)器)選擇最優(yōu)的datanode湃望，請(qǐng)求建立socket連接换衬。

3、datanode開始發(fā)送數(shù)據(jù)（從磁盤里面讀取數(shù)據(jù)放入流证芭，以packet為單位來做校驗(yàn)）

4瞳浦、客戶端以packet為單位接收，先在本地緩存废士，然后寫入目標(biāo)文件

5叫潦、如果第一個(gè)block塊的數(shù)據(jù)讀完了，就會(huì)關(guān)閉指向第一個(gè)block塊的datanode連接官硝，接著讀取下一個(gè)block塊(因?yàn)榈谝徊娇赡塬@取多個(gè)block的地址)矗蕊。這些操作對(duì)客戶端來說是透明的，從客戶端的角度來看只是讀一個(gè)持續(xù)不斷的流氢架。

6傻咖、如果第一批block都讀完了，DFSInputStream就會(huì)去namenode拿下一批blocks的namenode地址岖研，然后繼續(xù)讀卿操，如果所有的block塊都讀完，這時(shí)就會(huì)關(guān)閉掉所有的流。

4.HDFS如何寫文件

HDFS寫文件原理

1.客戶端通過調(diào)用 DistributedFileSystem 的create方法害淤，創(chuàng)建一個(gè)新的文件扇雕。

2.DistributedFileSystem 通過 RPC（遠(yuǎn)程過程調(diào)用）調(diào)用 NameNode，去創(chuàng)建一個(gè)沒有blocks關(guān)聯(lián)的新文件窥摄。創(chuàng)建前镶奉，NameNode 會(huì)做各種校驗(yàn)，比如文件是否存在溪王，客戶端有無權(quán)限去創(chuàng)建等腮鞍。如果校驗(yàn)通過，NameNode 就會(huì)記錄下新文件莹菱，否則就會(huì)拋出IO異常移国。

3.前兩步結(jié)束后會(huì)返回 FSDataOutputStream 的對(duì)象，和讀文件的時(shí)候相似道伟，F(xiàn)SDataOutputStream 被封裝成 DFSOutputStream迹缀，DFSOutputStream 可以協(xié)調(diào) NameNode和 DataNode∶刍眨客戶端開始寫數(shù)據(jù)到DFSOutputStream,DFSOutputStream會(huì)把數(shù)據(jù)切成一個(gè)個(gè)小packet祝懂，然后排成隊(duì)列 data queue。

4.DataStreamer 會(huì)去處理接受 data queue拘鞋，它先問詢 NameNode 這個(gè)新的 block 最適合存儲(chǔ)的在哪幾個(gè)DataNode里砚蓬，比如重復(fù)數(shù)是3，那么就找到3個(gè)最適合的 DataNode盆色，把它們排成一個(gè) pipeline灰蛙。DataStreamer 把 packet 按隊(duì)列輸出到管道的第一個(gè) DataNode 中，第一個(gè) DataNode又把 packet 輸出到第二個(gè) DataNode 中隔躲，以此類推摩梧。

5.DFSOutputStream 還有一個(gè)隊(duì)列叫 ack queue，也是由 packet 組成宣旱，等待DataNode的收到響應(yīng)仅父，當(dāng)pipeline中的所有DataNode都表示已經(jīng)收到的時(shí)候，這時(shí)akc queue才會(huì)把對(duì)應(yīng)的packet包移除掉浑吟。

6.客戶端完成寫數(shù)據(jù)后笙纤，調(diào)用close方法關(guān)閉寫入流。

7.DataStreamer 把剩余的包都刷到 pipeline 里组力，然后等待 ack 信息粪糙，收到最后一個(gè) ack 后，通知 DataNode 把文件標(biāo)示為已完成忿项。

5.Namenode工作機(jī)制

1.Namenode工作職責(zé)：負(fù)責(zé)客戶端請(qǐng)求的響應(yīng)，元數(shù)據(jù)的管理（查詢，修改）

2.元數(shù)據(jù)管理： namenode對(duì)數(shù)據(jù)的管理采用了三種存儲(chǔ)形式：內(nèi)存元數(shù)據(jù)(NameSystem) 磁盤元數(shù)據(jù)鏡像文件數(shù)據(jù)操作日志文件（可通過日志運(yùn)算出元數(shù)據(jù)）

3.元數(shù)據(jù)存儲(chǔ)機(jī)制：

A轩触、內(nèi)存中有一份完整的元數(shù)據(jù)(內(nèi)存meta data)

B寞酿、磁盤有一個(gè)“準(zhǔn)完整”的元數(shù)據(jù)鏡像（fsimage）文件(在namenode的工作目錄中)

C、用于銜接內(nèi)存metadata和持久化元數(shù)據(jù)鏡像fsimage之間的操作日志（edits****文件）注：當(dāng)客戶端對(duì)hdfs中的文件進(jìn)行新增或者修改操作脱柱，操作記錄首先被記入edits日志文件中伐弹，當(dāng)客戶端操作成功后，相應(yīng)的元數(shù)據(jù)會(huì)更新到內(nèi)存meta.data中

4.元數(shù)據(jù)的checkpoint：每隔一段時(shí)間榨为，會(huì)由secondary namenode將namenode上積累的所有edits和一個(gè)最新的fsimage下載到本地惨好，并加載到內(nèi)存進(jìn)行merge（這個(gè)過程稱為checkpoint）

image

checkpoint操作的觸發(fā)條件配置參數(shù)：

dfs.namenode.checkpoint.check.period=60 #檢查觸發(fā)條件是否滿足的頻率，60秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

#以上兩個(gè)參數(shù)做checkpoint操作時(shí)随闺，secondary namenode的本地工作目錄

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

dfs.namenode.checkpoint.max-retries=3 #最大重試次數(shù)

dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時(shí)間間隔3600秒

dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄

checkpoint的附帶作用

namenode和secondary namenode的工作目錄存儲(chǔ)結(jié)構(gòu)完全相同日川，所以，當(dāng)namenode故障退出需要重新恢復(fù)時(shí)矩乐，可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄龄句，以恢復(fù)namenode的元數(shù)據(jù)

6.Datanode工作機(jī)制

1.Datanode工作職責(zé)：存儲(chǔ)管理用戶的文件塊數(shù)據(jù)，定期向namenode匯報(bào)自身所持有的block信息（通過心跳信息上報(bào)）

<property>

       <name>dfs.blockreport.intervalMsec</name>

       <value>3600000</value>

       <description>Determines block reporting interval in milliseconds.</description>

</property>

2.Datanode掉線判斷時(shí)限參數(shù)

datanode進(jìn)程死亡或者網(wǎng)絡(luò)故障造成datanode無法與namenode通信散罕，namenode不會(huì)立即把該節(jié)點(diǎn)判定為死亡分歇，要經(jīng)過一段時(shí)間，這段時(shí)間暫稱作超時(shí)時(shí)長(zhǎng)欧漱。HDFS默認(rèn)的超時(shí)時(shí)長(zhǎng)為10分鐘+30秒职抡。如果定義超時(shí)時(shí)間為timeout，則超時(shí)時(shí)長(zhǎng)的計(jì)算公式為：

timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval误甚。

而默認(rèn)的heartbeat.recheck.interval 大小為5分鐘缚甩，dfs.heartbeat.interval默認(rèn)為3秒。

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的單位為毫秒靶草，dfs.heartbeat.interval的單位為秒蹄胰。所以，舉個(gè)例子奕翔，如果heartbeat.recheck.interval設(shè)置為5000（毫秒）裕寨，dfs.heartbeat.interval設(shè)置為3（秒，默認(rèn)）派继，則總的超時(shí)時(shí)間為40秒宾袜。

　　<property>

        　　<name>heartbeat.recheck.interval</name>

        　　<value>2000</value>

　　</property>

　　<property>

      　　  <name>dfs.heartbeat.interval</name>

        　　<value>1</value>

　　</property>

參考博客：
https://blog.csdn.net/kezhong_wxl/article/details/76573901
https://www.cnblogs.com/growth-hong/p/6396332.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市驾窟，隨后出現(xiàn)的幾起案子庆猫，更是在濱河造成了極大的恐慌，老刑警劉巖绅络，帶你破解...
沈念sama閱讀 207,248評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件月培，死亡現(xiàn)場(chǎng)離奇詭異嘁字，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)杉畜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,681評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門纪蜒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人此叠，你說我怎么就攤上這事纯续。” “怎么了灭袁？”我有些...
開封第一講書人閱讀 153,443評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵猬错，是天一觀的道長(zhǎng)。經(jīng)常有香客問我茸歧，道長(zhǎng)倦炒，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,475評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任举娩，我火速辦了婚禮析校，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘铜涉。我一直安慰自己智玻，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,458評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布芙代。她就那樣靜靜地躺著吊奢，像睡著了一般。火紅的嫁衣襯著肌膚如雪纹烹。梳的紋絲不亂的頭發(fā)上页滚，一...
開封第一講書人閱讀 49,185評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音铺呵，去河邊找鬼裹驰。笑死，一個(gè)胖子當(dāng)著我的面吹牛片挂，可吹牛的內(nèi)容都是我干的幻林。我是一名探鬼主播，決...
沈念sama閱讀 38,451評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼音念，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼沪饺！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起闷愤，我...
開封第一講書人閱讀 37,112評(píng)論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤整葡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后讥脐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體遭居，經(jīng)...
沈念sama閱讀 43,609評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡啼器，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,083評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了魏滚。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镀首。...
茶點(diǎn)故事閱讀 38,163評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖鼠次，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情芋齿，我是刑警寧澤腥寇，帶...
沈念sama閱讀 33,803評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站觅捆，受9級(jí)特大地震影響赦役，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜栅炒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,357評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一掂摔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧赢赊，春花似錦乙漓、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,357評(píng)論 0贊 19
一樁弒父案叭披，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至玩讳，卻和暖如春涩蜘，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背熏纯。一陣腳步聲響...
開封第一講書人閱讀 31,590評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工同诫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人樟澜。一個(gè)月前我還...
沈念sama閱讀 45,636評(píng)論 2贊 355
代替公主和親
正文我出身青樓误窖，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親往扔。傳聞我的和親對(duì)象是個(gè)殘疾皇子贩猎，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,925評(píng)論 2贊 344