hadoop基本知識(shí)點(diǎn)之HDFS

1.Hadoop組成

Hadoop主要由三大模塊組成：

1.1 HDFS

存儲(chǔ)模塊

* 分布式文件存儲(chǔ)系統(tǒng)

* 提供了高可靠性省店、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)

* hdfs典型結(jié)構(gòu)：物理結(jié)構(gòu)+邏輯結(jié)構(gòu)

1.2. YARN

資源調(diào)配模塊（引擎）（分布式資源管理框架）

* 負(fù)責(zé)集群資源的管理和調(diào)度

1.3. MapReduce

計(jì)算引擎

* 分布式計(jì)算框架（計(jì)算向數(shù)據(jù)移動(dòng)-->移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)）

* 具有易于編程鲁纠、高容錯(cuò)性和高擴(kuò)展性的優(yōu)點(diǎn)

2.HDFS存儲(chǔ)模型

* 文件線性切割成Block：偏移量（offset）

* Block分散存儲(chǔ)在集群節(jié)點(diǎn)中

* 單一文件Block大小一致，文件與文件可以不一致

* Block可以設(shè)置副本數(shù)呻拌，副本分散在不同的節(jié)點(diǎn)中

* 副本數(shù)不要超過節(jié)點(diǎn)數(shù)量

* 文件上傳可以設(shè)置Block大小和副本數(shù)

* 已上傳的文件Block副本數(shù)可以調(diào)整，大小不變

* 只支持一次寫入多次讀取，同一時(shí)刻只有一個(gè)寫入者

* 只能追加，不能修改

3.HDFS架構(gòu)模型

* 文件的元數(shù)據(jù)（metadata）和文件數(shù)據(jù)是分開存儲(chǔ)

* （主）NameNode存儲(chǔ)文件元數(shù)據(jù)进陡，單節(jié)點(diǎn)（posix）

* （從）DataNode存儲(chǔ)文件數(shù)據(jù)

* DataNode與NameNode保持心跳，由dataNode提交Block列表

* HdfsClient（用戶）與NameNode交互元數(shù)據(jù)信息

* HdfsClient（用戶）與DataNode交互文件數(shù)據(jù)信息

HDFS架構(gòu).png

HDFS設(shè)計(jì)思想.png

4.NameNode

4.1 基于內(nèi)存存儲(chǔ)

- 只存在內(nèi)存中（除了初始化和持久化的時(shí)候跟硬盤打交道微服，其余時(shí)候全部在內(nèi)存中操作）

- 持久化操作（假設(shè)內(nèi)存只有1G，現(xiàn)在數(shù)據(jù)有1.2G缨历，則需要做持久化）

* 不存儲(chǔ)Block位置信息（由DataNode上報(bào)給NameNode）-不存儲(chǔ)到fsimage中

* NameNOde的metadata信息在啟動(dòng)后加載到內(nèi)存

* Metadata信息存儲(chǔ)到fsimage文件中

* edits記錄對(duì)metadata的操作日志（類似redis）

4.2 NameNode主要功能

接受客戶端的讀寫要求

收集DataNode匯報(bào)的Block列表信息

4.3 NameNode保存Metadata主要信息

文件Owership和pemissions

文件大小和時(shí)間

Block列表（offset等）

Block每個(gè)副本的位置（由DataNode上報(bào)）

5. DataNode

本地磁盤目錄存儲(chǔ)數(shù)據(jù)（Block）以蕴，文件形式

同時(shí)存儲(chǔ)Block的元數(shù)據(jù)信息

啟動(dòng)datanode時(shí)，會(huì)向namenode匯報(bào)block信息

通過向NameNode發(fā)送心跳信息保持與其聯(lián)系（每3秒一次）辛孵，如果NameNode 10分鐘沒有收到DataNode的心跳丛肮，則認(rèn)為其已經(jīng)lost，則將其block信息copy到其他DataNode上

6.HDFS優(yōu)點(diǎn)

高容錯(cuò)性

* 數(shù)據(jù)自動(dòng)保存多個(gè)副本

* 副本丟失后魄缚，自動(dòng)恢復(fù)

適合批處理

* 移動(dòng)計(jì)算非數(shù)據(jù)（把計(jì)算的邏輯在有數(shù)據(jù)的地方進(jìn)行計(jì)算）

* 數(shù)據(jù)位置暴露給計(jì)算框架

適合大數(shù)據(jù)處理

* GB TB 甚至PB級(jí)數(shù)據(jù)

* 百萬規(guī)模以上的

可構(gòu)建在廉價(jià)的機(jī)器上

7.HDFS缺點(diǎn)

無法進(jìn)行低延遲數(shù)據(jù)訪問

* 比如毫秒級(jí)

* 低延遲與高吞吐率

小文件存取

* 占用NameNode大量?jī)?nèi)存

* 尋道時(shí)間超過讀取時(shí)間

并發(fā)寫入宝与、文件隨機(jī)修改

* 一個(gè)文件只能有一個(gè)寫者

* 僅支持append

8.Block副本的放置策略

第一個(gè)副本：放置在上傳文件的datanode上焚廊，如果是集群外提交，則隨機(jī)挑選一臺(tái)磁盤不太滿习劫，cpu不太忙的節(jié)點(diǎn)

第二個(gè)副本：放置在第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上

第三個(gè)副本：與第二個(gè)副本相同的機(jī)架的節(jié)點(diǎn)

更多副本：隨機(jī)節(jié)點(diǎn)

Block副本的放置策略.png

11.總結(jié)

HDFS就是一個(gè)分余展的大硬盤：分--分塊余--可以冗余咆瘟，展--動(dòng)態(tài)擴(kuò)展

云計(jì)算：分布式計(jì)算，分布在不懂服務(wù)器中的計(jì)算

設(shè)計(jì)原則：移動(dòng)計(jì)算诽里，而不是移動(dòng)數(shù)據(jù)

在生產(chǎn)環(huán)境中袒餐，nameNode和resourceManager一般情況是在不同機(jī)器上，而nodeManageer和datanode一般情況是在同一臺(tái)機(jī)器上（至少離得近）

最后編輯于：2017.12.11 07:10:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末谤狡，一起剝皮案震驚了整個(gè)濱河市灸眼，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌墓懂，老刑警劉巖焰宣，帶你破解...
沈念sama閱讀 218,546評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異捕仔，居然都是意外死亡匕积，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門逻澳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來闸天，“玉大人，你說我怎么就攤上這事斜做“” “怎么了？”我有些...
開封第一講書人閱讀 164,911評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵瓤逼，是天一觀的道長(zhǎng)笼吟。經(jīng)常有香客問我，道長(zhǎng)霸旗，這世上最難降的妖魔是什么贷帮？我笑而不...
開封第一講書人閱讀 58,737評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮诱告，結(jié)果婚禮上撵枢，老公的妹妹穿的比我還像新娘。我一直安慰自己精居，他們只是感情好锄禽，可當(dāng)我...
茶點(diǎn)故事閱讀 67,753評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布捧存。她就那樣靜靜地躺著练链，像睡著了一般。火紅的嫁衣襯著肌膚如雪拣挪。梳的紋絲不亂的頭發(fā)上佛吓，一...
開封第一講書人閱讀 51,598評(píng)論 1贊 305
城市分裂傳說
那天宵晚，我揣著相機(jī)與錄音垂攘，去河邊找鬼。笑死淤刃，一個(gè)胖子當(dāng)著我的面吹牛晒他，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播钝凶，決...
沈念sama閱讀 40,338評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼仪芒，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了耕陷？” 一聲冷哼從身側(cè)響起掂名，我...
開封第一講書人閱讀 39,249評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎哟沫，沒想到半個(gè)月后饺蔑，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,696評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡嗜诀，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,888評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年猾警，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隆敢。...
茶點(diǎn)故事閱讀 40,013評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡发皿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出拂蝎，到底是詐尸還是另有隱情穴墅，我是刑警寧澤，帶...
沈念sama閱讀 35,731評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布温自，位于F島的核電站玄货，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏悼泌。R本人自食惡果不足惜松捉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,348評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望馆里。院中可真熱鬧隘世，春花似錦、人聲如沸鸠踪。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,929評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽慢哈。三九已至，卻和暖如春永票，著一層夾襖步出監(jiān)牢的瞬間卵贱，已是汗流浹背滥沫。一陣腳步聲響...
開封第一講書人閱讀 33,048評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留键俱，地道東北人兰绣。一個(gè)月前我還...
沈念sama閱讀 48,203評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像编振，于是被迫代替她去往敵國(guó)和親缀辩。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,960評(píng)論 2贊 355