hadoop基本知識(shí)點(diǎn)之HDFS

1.Hadoop組成

Hadoop主要由三大模塊組成:

1.1 HDFS

存儲(chǔ)模塊

* 分布式文件存儲(chǔ)系統(tǒng)

* 提供了高可靠性省店、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)

* hdfs典型結(jié)構(gòu):物理結(jié)構(gòu)+邏輯結(jié)構(gòu)

1.2. YARN

資源調(diào)配模塊(引擎)(分布式資源管理框架)

* 負(fù)責(zé)集群資源的管理和調(diào)度

1.3. MapReduce

計(jì)算引擎

* 分布式計(jì)算框架(計(jì)算向數(shù)據(jù)移動(dòng)-->移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù))

* 具有易于編程鲁纠、高容錯(cuò)性和高擴(kuò)展性的優(yōu)點(diǎn)

2.HDFS存儲(chǔ)模型

* 文件線性切割成Block:偏移量(offset)

* Block分散存儲(chǔ)在集群節(jié)點(diǎn)中

* 單一文件Block大小一致,文件與文件可以不一致

* Block可以設(shè)置副本數(shù)呻拌,副本分散在不同的節(jié)點(diǎn)中

* 副本數(shù)不要超過節(jié)點(diǎn)數(shù)量

* 文件上傳可以設(shè)置Block大小和副本數(shù)

* 已上傳的文件Block副本數(shù)可以調(diào)整,大小不變

* 只支持一次寫入多次讀取,同一時(shí)刻只有一個(gè)寫入者

* 只能追加,不能修改

3.HDFS架構(gòu)模型

* 文件的元數(shù)據(jù)(metadata)和文件數(shù)據(jù)是分開存儲(chǔ)

* (主)NameNode存儲(chǔ)文件元數(shù)據(jù)进陡,單節(jié)點(diǎn)(posix)

* (從)DataNode存儲(chǔ)文件數(shù)據(jù)

* DataNode與NameNode保持心跳,由dataNode提交Block列表

* HdfsClient(用戶)與NameNode交互元數(shù)據(jù)信息

* HdfsClient(用戶)與DataNode交互文件數(shù)據(jù)信息

HDFS架構(gòu).png

HDFS設(shè)計(jì)思想.png

4.NameNode

4.1 基于內(nèi)存存儲(chǔ)

- 只存在內(nèi)存中(除了初始化和持久化的時(shí)候跟硬盤打交道微服,其余時(shí)候全部在內(nèi)存中操作)

- 持久化操作(假設(shè)內(nèi)存只有1G,現(xiàn)在數(shù)據(jù)有1.2G缨历,則需要做持久化)

* 不存儲(chǔ)Block位置信息(由DataNode上報(bào)給NameNode)-不存儲(chǔ)到fsimage中

* NameNOde的metadata信息在啟動(dòng)后加載到內(nèi)存

* Metadata信息存儲(chǔ)到fsimage文件中

* edits記錄對(duì)metadata的操作日志(類似redis)

4.2 NameNode主要功能

接受客戶端的讀寫要求

收集DataNode匯報(bào)的Block列表信息

4.3 NameNode保存Metadata主要信息

文件Owership和pemissions

文件大小和時(shí)間

Block列表(offset等)

Block每個(gè)副本的位置(由DataNode上報(bào))

5. DataNode

本地磁盤目錄存儲(chǔ)數(shù)據(jù)(Block)以蕴,文件形式

同時(shí)存儲(chǔ)Block的元數(shù)據(jù)信息

啟動(dòng)datanode時(shí),會(huì)向namenode匯報(bào)block信息

通過向NameNode發(fā)送心跳信息保持與其聯(lián)系(每3秒一次)辛孵,如果NameNode 10分鐘沒有收到DataNode的心跳丛肮,則認(rèn)為其已經(jīng)lost,則將其block信息copy到其他DataNode上

6.HDFS優(yōu)點(diǎn)

高容錯(cuò)性

* 數(shù)據(jù)自動(dòng)保存多個(gè)副本

* 副本丟失后魄缚,自動(dòng)恢復(fù)

適合批處理

* 移動(dòng)計(jì)算非數(shù)據(jù)(把計(jì)算的邏輯在有數(shù)據(jù)的地方進(jìn)行計(jì)算)

* 數(shù)據(jù)位置暴露給計(jì)算框架

適合大數(shù)據(jù)處理

* GB TB 甚至PB級(jí)數(shù)據(jù)

* 百萬規(guī)模以上的

可構(gòu)建在廉價(jià)的機(jī)器上

7.HDFS缺點(diǎn)

無法進(jìn)行低延遲數(shù)據(jù)訪問

* 比如毫秒級(jí)

* 低延遲與高吞吐率

小文件存取

* 占用NameNode大量?jī)?nèi)存

* 尋道時(shí)間超過讀取時(shí)間

并發(fā)寫入宝与、文件隨機(jī)修改

* 一個(gè)文件只能有一個(gè)寫者

* 僅支持append

8.Block副本的放置策略

第一個(gè)副本:放置在上傳文件的datanode上焚廊,如果是集群外提交,則隨機(jī)挑選一臺(tái)磁盤不太滿习劫,cpu不太忙的節(jié)點(diǎn)

第二個(gè)副本:放置在第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上

第三個(gè)副本:與第二個(gè)副本相同的機(jī)架的節(jié)點(diǎn)

更多副本:隨機(jī)節(jié)點(diǎn)

Block副本的放置策略.png

11.總結(jié)

HDFS就是一個(gè)分余展的大硬盤:分--分塊 余--可以冗余咆瘟,展--動(dòng)態(tài)擴(kuò)展

云計(jì)算:分布式計(jì)算,分布在不懂服務(wù)器中的計(jì)算

設(shè)計(jì)原則:移動(dòng)計(jì)算诽里,而不是移動(dòng)數(shù)據(jù)

在生產(chǎn)環(huán)境中袒餐,nameNode和resourceManager一般情況是在不同機(jī)器上,而nodeManageer和datanode一般情況是在同一臺(tái)機(jī)器上(至少離得近)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谤狡,一起剝皮案震驚了整個(gè)濱河市灸眼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌墓懂,老刑警劉巖焰宣,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異捕仔,居然都是意外死亡匕积,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門逻澳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來闸天,“玉大人,你說我怎么就攤上這事斜做“” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵瓤逼,是天一觀的道長(zhǎng)笼吟。 經(jīng)常有香客問我,道長(zhǎng)霸旗,這世上最難降的妖魔是什么贷帮? 我笑而不...
    開封第一講書人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮诱告,結(jié)果婚禮上撵枢,老公的妹妹穿的比我還像新娘。我一直安慰自己精居,他們只是感情好锄禽,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開白布捧存。 她就那樣靜靜地躺著练链,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拣挪。 梳的紋絲不亂的頭發(fā)上佛吓,一...
    開封第一講書人閱讀 51,598評(píng)論 1 305
  • 那天宵晚,我揣著相機(jī)與錄音垂攘,去河邊找鬼。 笑死淤刃,一個(gè)胖子當(dāng)著我的面吹牛晒他,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播钝凶,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼仪芒,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了耕陷?” 一聲冷哼從身側(cè)響起掂名,我...
    開封第一講書人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎哟沫,沒想到半個(gè)月后饺蔑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嗜诀,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年猾警,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隆敢。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡发皿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拂蝎,到底是詐尸還是另有隱情穴墅,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布温自,位于F島的核電站玄货,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏悼泌。R本人自食惡果不足惜松捉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望馆里。 院中可真熱鬧隘世,春花似錦、人聲如沸鸠踪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽慢哈。三九已至,卻和暖如春永票,著一層夾襖步出監(jiān)牢的瞬間卵贱,已是汗流浹背滥沫。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留键俱,地道東北人兰绣。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像编振,于是被迫代替她去往敵國(guó)和親缀辩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 自上一篇文章《Hadoop安裝與集群配置》之后踪央,需要對(duì)hadoop的一些基礎(chǔ)知識(shí)進(jìn)行一些總結(jié)臀玄。此文為HDFS相關(guān)的...
    landy8530閱讀 1,827評(píng)論 2 8
  • HDFS的設(shè)計(jì)目標(biāo) 通過上一篇文章的介紹我們已經(jīng)了解到HDFS到底是怎樣的東西,以及它是怎樣通過多副本機(jī)制來提供高...
    陌上疏影涼閱讀 1,446評(píng)論 0 3
  • hdfs是什么? 問題: 1. hdfs是基于什么樣的原理將文件分塊存儲(chǔ)到分布式環(huán)境中的各個(gè)設(shè)備上的畅蹂? 2. h...
    4762d2980c91閱讀 4,724評(píng)論 0 6
  • 很遙遠(yuǎn)很遙遠(yuǎn)的時(shí)空中 存在著一個(gè)由光與世上一切美好事物所構(gòu)筑的世界 在那個(gè)世界中住著許許多多不同的種族 他們各司其...
    奢客閱讀 244評(píng)論 0 0