HDFS

一匀伏、HDFS簡介
  • Hadoop Distributed filesystem:Hadoop分布式文件系統(tǒng)
  • HDFS以流式數(shù)據(jù)訪問模式來存儲超大文件。一次寫入、多次讀取单默。能存儲PB級的數(shù)據(jù)。
  • 運行在普通硬件上忘瓦。因為HDFS可以防止宕機時數(shù)據(jù)丟失搁廓。
  • HDFS是為高數(shù)據(jù)吞吐量應用優(yōu)化的,間接提高了時間延遲,所以對于低延遲的的訪問需求境蜕,最好使用HBase蝙场。
  • 不適合存儲大量的小文件。namenode將文件系統(tǒng)的元數(shù)據(jù)存儲在內(nèi)存中粱年,因此該文件系統(tǒng)所能存儲的文件總數(shù)受限于namenode的內(nèi)存容量售滤。
  • HDFS中的文件只有一個writer,而且寫操作總是將數(shù)據(jù)添加在文件的末尾逼泣,他不支持具有多個寫入者的操作趴泌,也不支持在文件的任意位置進行修改。
二拉庶、HDFS相關概念
1.數(shù)據(jù)塊
  • 傳統(tǒng)磁盤塊:每個磁盤都有默認的數(shù)據(jù)塊大小嗜憔,這是磁盤進行數(shù)據(jù)讀寫的最小單位。構建于單個磁盤之上的文件系統(tǒng)通過磁盤塊來管理該文件系統(tǒng)中的塊氏仗,該文件系統(tǒng)塊的大小可以使磁盤塊的整數(shù)倍吉捶。文件系統(tǒng)塊一般為幾千字節(jié),而磁盤塊一般為512字節(jié)皆尔。

  • HDFS中的塊(block):默認為64MB(根據(jù)需要修改)呐舔。HDFS上的文件也被劃分為塊大小的多個分塊,作為獨立的存儲單元慷蠕。

    1.HDFS的塊比磁盤的塊大珊拼,目的是為了最小化尋址開銷。
    2.塊不能設置的過大流炕,map任務通常一次只處理一個塊中的數(shù)據(jù)澎现,任務數(shù)過少會影響運行速度。
    3.HDFS中的塊是抽象的每辟。
      好處一:一個文件的大小可以大于網(wǎng)絡中任何一個磁盤的容量剑辫。
      好處二:簡化了存儲子系統(tǒng)的設計。
      好初三:塊非常適合用于數(shù)據(jù)備份進而提供數(shù)據(jù)容錯能力和提高可用性渠欺。
    
2.namenode和datanode

HDFS集群有兩類節(jié)點:一個namenode(管理者)和多個datanode(工作者)妹蔽。

  • namenode管理文件系統(tǒng)的命名空間。它維護著文件系統(tǒng)樹及整棵樹內(nèi)所有的文件和目錄挠将。這些信息以兩個文件形式永久保存在本地磁盤上:命名空間鏡像文件和編輯日志文件胳岂。namenode也記錄著每個文件中各個塊所在的數(shù)據(jù)節(jié)點信息,但它并不永久保存塊的位置信息舔稀,因為這些信息會在系統(tǒng)啟動時由數(shù)據(jù)節(jié)點重建旦万。
  • 客戶端(client)代表用戶通過與namenode和datanode交互來訪問整個文件系統(tǒng)。
  • datanode是文件系統(tǒng)的工作節(jié)點镶蹋。根據(jù)需要存儲并檢索數(shù)據(jù)塊,并定期向namenode發(fā)送它們所存儲的塊的列表。

namenode的兩種容錯機制

  • 機制一:備份組成文件系統(tǒng)元數(shù)據(jù)持久狀態(tài)的文件贺归。將持久狀態(tài)寫入本地磁盤的同時淆两,寫入一個遠程掛載的網(wǎng)絡文件系統(tǒng)。
  • 機制二:運行一個輔助namenode拂酣,作用是定期通過編輯日志合并命名空間鏡像秋冰,以防止編輯日志過大。這個輔助namenode一般在另一臺單獨的物理計算機上運行婶熬,它會保存合并后的命名空間鏡像的副本剑勾,并在namenode發(fā)生故障時啟用。
3.HDFS的高可用性

Hadoop的2.X發(fā)行版本中赵颅,配置了一對活動-備用namenode虽另,當活動namenode失效,備用namenode就會將接管他的任務并開始服務于來自客戶端的請求饺谬,不會有任何明顯中斷捂刺。實現(xiàn)這一目標需要在架構上做如下修改:

  • namenode之間需要通過高可用的共享存儲實現(xiàn)編輯日志的共享。當備用namenode接管工作之后募寨,它將通讀共享編輯日志直至末尾族展,以實現(xiàn)與活動namenode的狀態(tài)同步,并繼續(xù)讀取由活動namenode寫入的新條目拔鹰。
  • datanode需要同時向兩個namenode發(fā)送數(shù)據(jù)塊處理報告仪缸,因為數(shù)據(jù)塊的映射信息存儲在namenode的內(nèi)存中,而非磁盤列肢。
  • 客戶端需要使用特定的機制來處理namemode的失效問題恰画,這一機制對用戶是透明的。
4.數(shù)據(jù)流
3.png
4.png
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末例书,一起剝皮案震驚了整個濱河市锣尉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌决采,老刑警劉巖自沧,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異树瞭,居然都是意外死亡拇厢,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門晒喷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孝偎,“玉大人,你說我怎么就攤上這事凉敲∫露埽” “怎么了寺旺?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長势决。 經(jīng)常有香客問我阻塑,道長,這世上最難降的妖魔是什么果复? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任陈莽,我火速辦了婚禮,結果婚禮上虽抄,老公的妹妹穿的比我還像新娘走搁。我一直安慰自己,他們只是感情好迈窟,可當我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布私植。 她就那樣靜靜地躺著,像睡著了一般菠隆。 火紅的嫁衣襯著肌膚如雪兵琳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天骇径,我揣著相機與錄音躯肌,去河邊找鬼。 笑死破衔,一個胖子當著我的面吹牛清女,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播晰筛,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼嫡丙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了读第?” 一聲冷哼從身側(cè)響起曙博,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怜瞒,沒想到半個月后父泳,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡吴汪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年惠窄,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漾橙。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡杆融,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出霜运,到底是詐尸還是另有隱情脾歇,我是刑警寧澤蒋腮,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站介劫,受9級特大地震影響徽惋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜座韵,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望踢京。 院中可真熱鬧誉碴,春花似錦、人聲如沸瓣距。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蹈丸。三九已至成黄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間逻杖,已是汗流浹背奋岁。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留荸百,地道東北人闻伶。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像够话,于是被迫代替她去往敵國和親蓝翰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 首先女嘲,我們在使用前先看看HDFS是什麼畜份?這將有助于我們是以后的運維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,181評論 0 2
  • hdfs是什么? 問題: 1. hdfs是基于什么樣的原理將文件分塊存儲到分布式環(huán)境中的各個設備上的欣尼? 2. h...
    4762d2980c91閱讀 4,717評論 0 6
  • 公司要利用現(xiàn)有業(yè)務及資源媒至,涉足互聯(lián)網(wǎng)餐飲O2O業(yè)務領域顶别。但能否涉足,需要弄懂六個問題: 如果要涉足新領域拒啰,拓展新業(yè)...
    王毓瓊閱讀 949評論 0 2
  • 阿黃它總是異于常人(狗)驯绎,也總能機靈過人(狗)。 作為一條聰明的狗,阿黃最近又悟出一個道理 叫做~輕財足以聚人(狗...
    拙劣的王閱讀 479評論 0 0
  • **使用支付寶開發(fā)的時候遇到這個提示 **關鍵的就是紅框內(nèi)的提示 ld: '/Users/fcl/Desktop/...
    胖子程閱讀 1,354評論 0 8