Hadoop基本知識點之HDFS

自上一篇文章《Hadoop安裝與集群配置》之后,需要對hadoop的一些基礎(chǔ)知識進行一些總結(jié)。此文為HDFS相關(guān)的知識點總結(jié)像屋。

1.Hadoop組成

Hadoop主要由三大模塊組成:

1.1 HDFS

存儲模塊

    * 分布式文件存儲系統(tǒng)
    * 提供了高可靠性崭放、高擴展性和高吞吐率的數(shù)據(jù)存儲服務(wù)
    * hdfs典型結(jié)構(gòu):物理結(jié)構(gòu)+邏輯結(jié)構(gòu)

1.2. YARN

資源調(diào)配模塊(引擎)(分布式資源管理框架)

    * 負(fù)責(zé)集群資源的管理和調(diào)度

1.3. MapReduce

計算引擎

    * 分布式計算框架(計算向數(shù)據(jù)移動-->移動計算而非移動數(shù)據(jù))
    * 具有易于編程、高容錯性和高擴展性的優(yōu)點

2.HDFS存儲模型

    * 文件線性切割成Block:偏移量(offset)
    * Block分散存儲在集群節(jié)點中
    * 單一文件Block大小一致扣甲,文件與文件可以不一致
    * Block可以設(shè)置副本數(shù)篮赢,副本分散在不同的節(jié)點中
    * 副本數(shù)不要超過節(jié)點數(shù)量
    * 文件上傳可以設(shè)置Block大小和副本數(shù)
    * 已上傳的文件Block副本數(shù)可以調(diào)整齿椅,大小不變
    * 只支持一次寫入多次讀取,同一時刻只有一個寫入者
    * 只能追加启泣,不能修改

3.HDFS架構(gòu)模型

    * 文件的元數(shù)據(jù)(metadata)和文件數(shù)據(jù)是分開存儲
    * (主)NameNode存儲文件元數(shù)據(jù)涣脚,單節(jié)點(posix)
    * (從)DataNode存儲文件數(shù)據(jù)
    * DataNode與NameNode保持心跳,由dataNode提交Block列表
    * HdfsClient(用戶)與NameNode交互元數(shù)據(jù)信息
    * HdfsClient(用戶)與DataNode交互文件數(shù)據(jù)信息

HDFS架構(gòu).png
HDFS設(shè)計思想.png

4.NameNode

4.1 基于內(nèi)存存儲

    - 只存在內(nèi)存中(除了初始化和持久化的時候跟硬盤打交道寥茫,其余時候全部在內(nèi)存中操作)
    - 持久化操作(假設(shè)內(nèi)存只有1G遣蚀,現(xiàn)在數(shù)據(jù)有1.2G,則需要做持久化)
            * 不存儲Block位置信息(由DataNode上報給NameNode)-不存儲到fsimage中
            * NameNOde的metadata信息在啟動后加載到內(nèi)存
            * Metadata信息存儲到fsimage文件中
            * edits記錄對metadata的操作日志(類似redis)

4.2 NameNode主要功能

  1. 接受客戶端的讀寫要求
  2. 收集DataNode匯報的Block列表信息

4.3 NameNode保存Metadata主要信息

  1. 文件Owership和pemissions
  2. 文件大小和時間
  3. Block列表(offset等)
  4. Block每個副本的位置(由DataNode上報)

5. DataNode

  1. 本地磁盤目錄存儲數(shù)據(jù)(Block)纱耻,文件形式
  2. 同時存儲Block的元數(shù)據(jù)信息
  3. 啟動datanode時芭梯,會向namenode匯報block信息
  4. 通過向NameNode發(fā)送心跳信息保持與其聯(lián)系(每3秒一次),如果NameNode 10分鐘沒有收到DataNode的心跳弄喘,則認(rèn)為其已經(jīng)lost玖喘,則將其block信息copy到其他DataNode上

6.HDFS優(yōu)點

  1. 高容錯性

     * 數(shù)據(jù)自動保存多個副本
     * 副本丟失后,自動恢復(fù)
    
  2. 適合批處理

     * 移動計算非數(shù)據(jù)(把計算的邏輯在有數(shù)據(jù)的地方進行計算)
     * 數(shù)據(jù)位置暴露給計算框架
    
  3. 適合大數(shù)據(jù)處理

     * GB TB 甚至PB級數(shù)據(jù)
     * 百萬規(guī)模以上的
    
  4. 可構(gòu)建在廉價的機器上

7.HDFS缺點

  1. 無法進行低延遲數(shù)據(jù)訪問

     * 比如毫秒級
     * 低延遲與高吞吐率
    
  2. 小文件存取

     * 占用NameNode大量內(nèi)存
     * 尋道時間超過讀取時間
    
  3. 并發(fā)寫入蘑志、文件隨機修改

     * 一個文件只能有一個寫者
     * 僅支持append
    

8.Block副本的放置策略

  1. 第一個副本:放置在上傳文件的datanode上累奈,如果是集群外提交,則隨機挑選一臺磁盤不太滿急但,cpu不太忙的節(jié)點
  2. 第二個副本:放置在第一個副本不同的機架的節(jié)點上
  3. 第三個副本:與第二個副本相同的機架的節(jié)點
  4. 更多副本:隨機節(jié)點
Block副本的放置策略.png

9.HDFS寫流程

(待續(xù))

10.HDFS讀流程

(待續(xù))

11.總結(jié)

  1. HDFS就是一個分余展的大硬盤:分--分塊 余--可以冗余澎媒,展--動態(tài)擴展
  2. 云計算:分布式計算,分布在不懂服務(wù)器中的計算
  3. 設(shè)計原則:移動計算羊始,而不是移動數(shù)據(jù)
  4. 在生產(chǎn)環(huán)境中旱幼,nameNode和resourceManager一般情況是在不同機器上,而nodeManageer和datanode一般情況是在同一臺機器上(至少離得近)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末突委,一起剝皮案震驚了整個濱河市柏卤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌匀油,老刑警劉巖缘缚,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異敌蚜,居然都是意外死亡桥滨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門弛车,熙熙樓的掌柜王于貴愁眉苦臉地迎上來齐媒,“玉大人,你說我怎么就攤上這事纷跛∮骼ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵贫奠,是天一觀的道長唬血。 經(jīng)常有香客問我望蜡,道長,這世上最難降的妖魔是什么拷恨? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任脖律,我火速辦了婚禮,結(jié)果婚禮上腕侄,老公的妹妹穿的比我還像新娘小泉。我一直安慰自己,他們只是感情好兜挨,可當(dāng)我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布膏孟。 她就那樣靜靜地躺著,像睡著了一般拌汇。 火紅的嫁衣襯著肌膚如雪柒桑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天噪舀,我揣著相機與錄音魁淳,去河邊找鬼。 笑死与倡,一個胖子當(dāng)著我的面吹牛界逛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纺座,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼息拜,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了净响?” 一聲冷哼從身側(cè)響起少欺,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎馋贤,沒想到半個月后赞别,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡配乓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年仿滔,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片犹芹。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡崎页,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出腰埂,到底是詐尸還是另有隱情实昨,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布盐固,位于F島的核電站荒给,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏刁卜。R本人自食惡果不足惜志电,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蛔趴。 院中可真熱鬧挑辆,春花似錦、人聲如沸孝情。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽箫荡。三九已至魁亦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間羔挡,已是汗流浹背洁奈。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绞灼,地道東北人利术。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像低矮,于是被迫代替她去往敵國和親印叁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容