HDFS(2)- 概念

1、數(shù)據(jù)塊(block)

數(shù)據(jù)塊是磁盤(pán)讀/寫(xiě)的最小單位,每個(gè)磁盤(pán)都有默認(rèn)的數(shù)據(jù)塊大小沐兵。HDFS作為分布式文件系統(tǒng)也有塊的概念,但是數(shù)據(jù)塊比較大便监,默認(rèn)128MB扎谎。與磁盤(pán)上的文件系統(tǒng)相似,HDFS上的文件也被劃分為塊大小的多個(gè)分塊(chunk)烧董,作為存儲(chǔ)單元毁靶。但HDFS中小于128MB的文件不會(huì)占用整個(gè)塊的空間。(如1MB的文件存在一個(gè)128MB的塊中逊移,文件只占用1MB预吆,而不是128MB)

為什么HDFS中的塊是128MB,這么大胳泉?

  • HDFS中的塊比磁盤(pán)的塊大很多拐叉,其目的是為了最小化尋址開(kāi)銷。

  • 不宜過(guò)小胶背,因?yàn)閚amenode中存儲(chǔ)了文件巷嚣、文件塊等元信息喘先,塊很小的話钳吟,元信息變大,namenode的內(nèi)存需求就變大窘拯。

  • 不宜過(guò)大红且,因?yàn)镸apReduce中的map任務(wù)通常一次只處理一個(gè)塊中的數(shù)據(jù)。塊越大涤姊,map任務(wù)數(shù)越小暇番,如果任務(wù)數(shù)過(guò)少(少于集群中的節(jié)點(diǎn)數(shù)量),任務(wù)的運(yùn)行效率就是降低思喊。

對(duì)分布式文件系統(tǒng)中的“塊”進(jìn)行抽象帶來(lái)的好處

  • 一個(gè)文件的大小可以大于網(wǎng)絡(luò)中任意一個(gè)磁盤(pán)的容量壁酬。因?yàn)橐粋€(gè)大文件的所有塊并不需要存儲(chǔ)在一個(gè)磁盤(pán)上,可以在集群的任意一個(gè)磁盤(pán)上進(jìn)行存儲(chǔ)恨课。

  • 使用抽象塊而不是使用整個(gè)文件作為存儲(chǔ)單元舆乔,簡(jiǎn)化了存儲(chǔ)系統(tǒng)的設(shè)計(jì)。如簡(jiǎn)化了存儲(chǔ)管理剂公,塊大小是固定的希俩,計(jì)算一個(gè)磁盤(pán)能存儲(chǔ)多少個(gè)塊比較容易。

  • 塊非常適合用于數(shù)據(jù)備份進(jìn)而提供數(shù)據(jù)容錯(cuò)能力和提高可用性纲辽。HDFS中默認(rèn)一個(gè)塊有三個(gè)副本颜武,確保在塊璃搜、磁盤(pán)或機(jī)器發(fā)生問(wèn)題時(shí)數(shù)據(jù)不會(huì)丟失。

  • 可以為一些常用的文件設(shè)置更多的副本數(shù)來(lái)提高讀取效率鳞上。

2这吻、namenode 和 datanode

HDFS集群運(yùn)行的節(jié)點(diǎn)有兩類:管理節(jié)點(diǎn)(namenode)和工作節(jié)點(diǎn)(datanode)。

namenode

  • namenode負(fù)責(zé)管理文件系統(tǒng)的命名空間篙议。

  • 負(fù)責(zé)維護(hù)文件系統(tǒng)樹(shù)及整個(gè)樹(shù)內(nèi)所有的文件和目錄橘原。這些信息以兩個(gè)文件形式永久保存在本地磁盤(pán)上:命名空間鏡像文件和編輯日志文件。

  • 記錄著每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息涡上,但并不是永久保存塊的位置信息趾断。系統(tǒng)在啟動(dòng)時(shí),datanode會(huì)向namenode匯報(bào)吩愧,namenode根據(jù)匯報(bào)重建這些信息芋酌。

datanode

  • datanode是文件系統(tǒng)的工作節(jié)點(diǎn)。

  • datanode根據(jù)客戶端或namenode的需要存儲(chǔ)并檢索數(shù)據(jù)塊雁佳。

  • 定期向namenode發(fā)送自己所存儲(chǔ)的塊的列表脐帝。

3、塊緩存

通常datanode都是從磁盤(pán)中讀取塊糖权。對(duì)于訪問(wèn)很頻繁的文件堵腹,其對(duì)應(yīng)的塊可以被顯示的緩存在datanode的內(nèi)存中,以堆外緩存(off-heap block cache)的形式存在星澳。默認(rèn)是一個(gè)塊僅緩存在一個(gè)datanode的內(nèi)存中疚顷,也可以根據(jù)每個(gè)文件配置datanode的數(shù)量,來(lái)提高讀操作性能禁偎。

4腿堤、聯(lián)邦HDFS(federation)

namenode在內(nèi)存中保存文件系統(tǒng)中每個(gè)文件和每個(gè)數(shù)據(jù)塊的引用關(guān)系,對(duì)于一個(gè)擁有大量文件的超大集群來(lái)說(shuō)如暖,內(nèi)存將成為限制系統(tǒng)橫向擴(kuò)展的瓶頸笆檀。

在Hadoop2.x發(fā)行版中引入了聯(lián)邦HDFS,允許系統(tǒng)通過(guò)添加namenode實(shí)現(xiàn)擴(kuò)展盒至,每個(gè)namenode管理文件系統(tǒng)命名空間中的一部分酗洒。如一個(gè)namenode管理/user目錄下文件,另一個(gè)namenode管理/share目錄下的文件枷遂。

namespace volume

在聯(lián)邦環(huán)境下樱衷,每個(gè)namenode維護(hù)一個(gè)命名空間卷(namespace volume),由命名空間的元數(shù)據(jù)和一個(gè)數(shù)據(jù)塊池(block pool)組成登淘,數(shù)據(jù)塊池包含該命名空間下文件的所有數(shù)據(jù)塊箫老。

命名空間卷之間相互獨(dú)立,兩兩互補(bǔ)通信黔州。一個(gè)失效也不影響其他耍鬓。因此集群中的datanode要注冊(cè)到每個(gè)namenode阔籽,并且存儲(chǔ)來(lái)自多個(gè)數(shù)據(jù)塊池中的數(shù)據(jù)塊。

5 牲蜀、HDFS的高可用

Hadoop2 增加了對(duì)HDFS高可用性的支持笆制。
第一種配置了一對(duì) 活動(dòng)-備用(active-standby)namenode。當(dāng)active namenode失效后涣达,standby namenode就會(huì)接管它的任務(wù)并開(kāi)始服務(wù)來(lái)自客戶端的請(qǐng)求在辆,對(duì)客戶端來(lái)說(shuō)不會(huì)有明顯的中斷。
第二種通過(guò)federation機(jī)制也就是聯(lián)邦HDFS可以將多個(gè)namenode組成一個(gè)集群度苔,外部可通過(guò)viewfs://URI來(lái)訪問(wèn)匆篓。Hadoop會(huì)通過(guò)你訪問(wèn)的路徑來(lái)自動(dòng)選擇集群。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末寇窑,一起剝皮案震驚了整個(gè)濱河市鸦概,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌甩骏,老刑警劉巖窗市,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異饮笛,居然都是意外死亡咨察,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門福青,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)摄狱,“玉大人,你說(shuō)我怎么就攤上這事素跺《叮” “怎么了誉券?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵指厌,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我踊跟,道長(zhǎng)踩验,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任商玫,我火速辦了婚禮箕憾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拳昌。我一直安慰自己袭异,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布炬藤。 她就那樣靜靜地躺著御铃,像睡著了一般碴里。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上上真,一...
    開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1 305
  • 那天咬腋,我揣著相機(jī)與錄音,去河邊找鬼睡互。 笑死根竿,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的就珠。 我是一名探鬼主播寇壳,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼妻怎!你這毒婦竟也來(lái)了九巡?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蹂季,失蹤者是張志新(化名)和其女友劉穎冕广,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體偿洁,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡撒汉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了涕滋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片睬辐。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖宾肺,靈堂內(nèi)的尸體忽然破棺而出溯饵,到底是詐尸還是另有隱情,我是刑警寧澤锨用,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布丰刊,位于F島的核電站,受9級(jí)特大地震影響增拥,放射性物質(zhì)發(fā)生泄漏啄巧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一掌栅、第九天 我趴在偏房一處隱蔽的房頂上張望秩仆。 院中可真熱鬧,春花似錦猾封、人聲如沸澄耍。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)齐莲。三九已至卿城,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間铅搓,已是汗流浹背瑟押。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留星掰,地道東北人多望。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像氢烘,于是被迫代替她去往敵國(guó)和親怀偷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 認(rèn)識(shí)HDFS HDFS的特點(diǎn): 高容錯(cuò)性高吞吐量故障的檢測(cè)和自動(dòng)快速恢復(fù)流式的數(shù)據(jù)訪問(wèn)大數(shù)據(jù)集一次寫(xiě)入,多次讀寫(xiě) ...
    Bloo_m閱讀 3,263評(píng)論 6 8
  • 首先播玖,我們?cè)谑褂们跋瓤纯碒DFS是什麼椎工?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,196評(píng)論 0 2
  • hadoop HDFS原理解析01 HDFS架構(gòu)?NameNode?DataNode?Sencondary Nam...
    白菜青蘿卜閱讀 2,728評(píng)論 2 30
  • 《人人都能用好英語(yǔ)》的讀書(shū)筆記(一) 作 者:李笑來(lái) 作者簡(jiǎn)介: 姓名:李笑來(lái) 簡(jiǎn)介:中國(guó)比特幣首富蜀踏、英語(yǔ)培訓(xùn)名...
    格式化_001閱讀 2,896評(píng)論 0 10
  • 當(dāng)我們因?yàn)槟挲g限制而被迫走進(jìn)婚姻的時(shí)候果覆,選擇對(duì)象的出發(fā)點(diǎn)因?yàn)槿鄙偾楦幸蛩囟紤]的更加完整一些颅痊。因?yàn)闉榱藧?ài)而去結(jié)婚...
    柏燕誼心理咨詢師閱讀 463評(píng)論 0 1