Hadoop基本知識點之HDFS

自上一篇文章《Hadoop安裝與集群配置》之后，需要對hadoop的一些基礎(chǔ)知識進行一些總結(jié)。此文為HDFS相關(guān)的知識點總結(jié)像屋。

1.Hadoop組成

Hadoop主要由三大模塊組成：

1.1 HDFS

存儲模塊

    * 分布式文件存儲系統(tǒng)
    * 提供了高可靠性崭放、高擴展性和高吞吐率的數(shù)據(jù)存儲服務(wù)
    * hdfs典型結(jié)構(gòu)：物理結(jié)構(gòu)+邏輯結(jié)構(gòu)

1.2. YARN

資源調(diào)配模塊（引擎）（分布式資源管理框架）

    * 負(fù)責(zé)集群資源的管理和調(diào)度

1.3. MapReduce

計算引擎

    * 分布式計算框架（計算向數(shù)據(jù)移動-->移動計算而非移動數(shù)據(jù)）
    * 具有易于編程、高容錯性和高擴展性的優(yōu)點

2.HDFS存儲模型

    * 文件線性切割成Block：偏移量（offset）
    * Block分散存儲在集群節(jié)點中
    * 單一文件Block大小一致扣甲，文件與文件可以不一致
    * Block可以設(shè)置副本數(shù)篮赢，副本分散在不同的節(jié)點中
    * 副本數(shù)不要超過節(jié)點數(shù)量
    * 文件上傳可以設(shè)置Block大小和副本數(shù)
    * 已上傳的文件Block副本數(shù)可以調(diào)整齿椅，大小不變
    * 只支持一次寫入多次讀取，同一時刻只有一個寫入者
    * 只能追加启泣，不能修改

3.HDFS架構(gòu)模型

    * 文件的元數(shù)據(jù)（metadata）和文件數(shù)據(jù)是分開存儲
    * （主）NameNode存儲文件元數(shù)據(jù)涣脚，單節(jié)點（posix）
    * （從）DataNode存儲文件數(shù)據(jù)
    * DataNode與NameNode保持心跳，由dataNode提交Block列表
    * HdfsClient（用戶）與NameNode交互元數(shù)據(jù)信息
    * HdfsClient（用戶）與DataNode交互文件數(shù)據(jù)信息

HDFS架構(gòu).png

HDFS設(shè)計思想.png

4.NameNode

4.1 基于內(nèi)存存儲

    - 只存在內(nèi)存中（除了初始化和持久化的時候跟硬盤打交道寥茫，其余時候全部在內(nèi)存中操作）
    - 持久化操作（假設(shè)內(nèi)存只有1G遣蚀，現(xiàn)在數(shù)據(jù)有1.2G，則需要做持久化）
            * 不存儲Block位置信息（由DataNode上報給NameNode）-不存儲到fsimage中
            * NameNOde的metadata信息在啟動后加載到內(nèi)存
            * Metadata信息存儲到fsimage文件中
            * edits記錄對metadata的操作日志（類似redis）

4.2 NameNode主要功能

接受客戶端的讀寫要求
收集DataNode匯報的Block列表信息

4.3 NameNode保存Metadata主要信息

文件Owership和pemissions
文件大小和時間
Block列表（offset等）
Block每個副本的位置（由DataNode上報）

5. DataNode

本地磁盤目錄存儲數(shù)據(jù)（Block）纱耻，文件形式
同時存儲Block的元數(shù)據(jù)信息
啟動datanode時芭梯，會向namenode匯報block信息
通過向NameNode發(fā)送心跳信息保持與其聯(lián)系（每3秒一次），如果NameNode 10分鐘沒有收到DataNode的心跳弄喘，則認(rèn)為其已經(jīng)lost玖喘，則將其block信息copy到其他DataNode上

6.HDFS優(yōu)點

高容錯性

 * 數(shù)據(jù)自動保存多個副本
 * 副本丟失后，自動恢復(fù)

適合批處理

 * 移動計算非數(shù)據(jù)（把計算的邏輯在有數(shù)據(jù)的地方進行計算）
 * 數(shù)據(jù)位置暴露給計算框架

適合大數(shù)據(jù)處理

 * GB TB 甚至PB級數(shù)據(jù)
 * 百萬規(guī)模以上的

可構(gòu)建在廉價的機器上

7.HDFS缺點

無法進行低延遲數(shù)據(jù)訪問

 * 比如毫秒級
 * 低延遲與高吞吐率

小文件存取

 * 占用NameNode大量內(nèi)存
 * 尋道時間超過讀取時間

并發(fā)寫入蘑志、文件隨機修改

 * 一個文件只能有一個寫者
 * 僅支持append

8.Block副本的放置策略

第一個副本：放置在上傳文件的datanode上累奈，如果是集群外提交，則隨機挑選一臺磁盤不太滿急但，cpu不太忙的節(jié)點
第二個副本：放置在第一個副本不同的機架的節(jié)點上
第三個副本：與第二個副本相同的機架的節(jié)點
更多副本：隨機節(jié)點

Block副本的放置策略.png

9.HDFS寫流程

（待續(xù)）

10.HDFS讀流程

（待續(xù)）

11.總結(jié)

HDFS就是一個分余展的大硬盤：分--分塊余--可以冗余澎媒，展--動態(tài)擴展
云計算：分布式計算，分布在不懂服務(wù)器中的計算
設(shè)計原則：移動計算羊始，而不是移動數(shù)據(jù)
在生產(chǎn)環(huán)境中旱幼，nameNode和resourceManager一般情況是在不同機器上，而nodeManageer和datanode一般情況是在同一臺機器上（至少離得近）

最后編輯于：2017.12.11 04:27:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末突委，一起剝皮案震驚了整個濱河市柏卤，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌匀油，老刑警劉巖缘缚，帶你破解...
沈念sama閱讀 218,607評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異敌蚜，居然都是意外死亡桥滨，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門弛车，熙熙樓的掌柜王于貴愁眉苦臉地迎上來齐媒，“玉大人，你說我怎么就攤上這事纷跛∮骼ǎ” “怎么了？”我有些...
開封第一講書人閱讀 164,960評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵贫奠，是天一觀的道長唬血。經(jīng)常有香客問我望蜡，道長，這世上最難降的妖魔是什么拷恨？我笑而不...
開封第一講書人閱讀 58,750評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任脖律，我火速辦了婚禮，結(jié)果婚禮上腕侄，老公的妹妹穿的比我還像新娘小泉。我一直安慰自己，他們只是感情好兜挨，可當(dāng)我...
茶點故事閱讀 67,764評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布膏孟。她就那樣靜靜地躺著，像睡著了一般拌汇。火紅的嫁衣襯著肌膚如雪柒桑。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,604評論 1贊 305
城市分裂傳說
那天噪舀，我揣著相機與錄音魁淳，去河邊找鬼。笑死与倡，一個胖子當(dāng)著我的面吹牛界逛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播纺座，決...
沈念sama閱讀 40,347評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼息拜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了净响？” 一聲冷哼從身側(cè)響起少欺，我...
開封第一講書人閱讀 39,253評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎馋贤，沒想到半個月后赞别，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,702評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡配乓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,893評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年仿滔，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片犹芹。...
茶點故事閱讀 40,015評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡崎页，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出腰埂，到底是詐尸還是另有隱情实昨，我是刑警寧澤，帶...
沈念sama閱讀 35,734評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布盐固，位于F島的核電站荒给，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏刁卜。R本人自食惡果不足惜志电，卻給世界環(huán)境...
茶點故事閱讀 41,352評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蛔趴。院中可真熱鬧挑辆，春花似錦、人聲如沸孝情。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,934評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽箫荡。三九已至魁亦，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間羔挡，已是汗流浹背洁奈。一陣腳步聲響...
開封第一講書人閱讀 33,052評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绞灼，地道東北人利术。一個月前我還...
沈念sama閱讀 48,216評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像低矮，于是被迫代替她去往敵國和親印叁。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,969評論 2贊 355

Hadoop基本知識點之HDFS

1.Hadoop組成

1.1 HDFS

1.2. YARN

1.3. MapReduce

2.HDFS存儲模型

3.HDFS架構(gòu)模型

4.NameNode

4.1 基于內(nèi)存存儲

4.2 NameNode主要功能

4.3 NameNode保存Metadata主要信息

5. DataNode

6.HDFS優(yōu)點

7.HDFS缺點

8.Block副本的放置策略

9.HDFS寫流程

10.HDFS讀流程

11.總結(jié)

推薦閱讀更多精彩內(nèi)容