2.Hadoop-HDFS簡介

HDFS(The Hadoop Distributed File System)是Hadoop的可以運行在普通硬件上的分布式文件系統(tǒng)外莲。

1.HDFS特點

1.1 高容錯率

HDFS把硬件故障看做常態(tài),來做設計绷蹲。增加數(shù)據(jù)副本简识,冗余存儲,利用集群的優(yōu)勢,使數(shù)據(jù)高可用斯棒。集群本身也有錯誤檢測和快速、自動的恢復機制主经。

1.2 流式數(shù)據(jù)訪問

HDFS是建立在一次寫多次讀的模式的概念之上的荣暮,HDFS存儲的數(shù)據(jù)集作為hadoop的分析對象。在數(shù)據(jù)集生成后罩驻,長時間在此數(shù)據(jù)集上進行各種分析穗酥。每次分析都將設計該數(shù)據(jù)集的大部分數(shù)據(jù)甚至全部數(shù)據(jù)称诗,因此使用場景大多是蛾坯,讀取整個數(shù)據(jù)集通贞。流式讀取最小化了硬盤的尋址開銷取具,只需要尋址一次实抡,然后就一直讀弛房。對于大文件的特點也更適合流式讀取皆辽。

與流數(shù)據(jù)訪問對應的是隨機數(shù)據(jù)訪問跛梗,它要求定位透绩、查詢或修改數(shù)據(jù)的延遲較小翘骂,比較適合于創(chuàng)建數(shù)據(jù)后再多次讀寫的情況,如傳統(tǒng)的關(guān)系型數(shù)據(jù)庫帚豪。

1.3 適合超大數(shù)據(jù)集
1.4 移動計算比移動數(shù)據(jù)更經(jīng)濟

把與計算相關(guān)的邏輯碳竟,盡量晚的執(zhí)行。每個節(jié)點計算完成以后志鞍,再移動數(shù)據(jù)匯總瞭亮,而不是把數(shù)據(jù)匯總之后再進行計算。樣就能降低網(wǎng)絡阻塞的影響固棚,提高系統(tǒng)數(shù)據(jù)的吞吐量统翩。

2.Namenode 和 Datanode

HDFS采用master/slave架構(gòu)。一個HDFS集群是由一個Namenode和多個的Datanode組成此洲。顧名思義厂汗,Namenode是集群的中心服務器,負責管理集群呜师,以及存儲元數(shù)據(jù)娶桦,Datanode就是真正存儲數(shù)據(jù)的節(jié)點。

Namenode作為集群的中心服務器,主要存儲兩個東西:
1)所有數(shù)據(jù)的命名空間(Namespace Image)衷畦,包括文件名栗涂,副本數(shù),文件路徑等
2)用戶對數(shù)據(jù)的操作日志(edit log)

Datanode會以的形式祈争,存儲數(shù)據(jù)斤程。負責處理Client的讀寫數(shù)據(jù)的請求,并周期性發(fā)送心跳信號和塊狀態(tài)報告(Blockreport)到Namenode菩混。

hdfsarchitecture.png
2.1 Namenode的單點問題

Namenode是整個分布式文件系統(tǒng)的一個單點故障(single point of failure)忿墅,一旦故障,整個分布式文件系統(tǒng)就無法使用了沮峡,因為無法從blocks中重構(gòu)出相應的文件了疚脐。所以確保Namenode能從失敗中及時恢復是很重要的一件事。

應對故障一般有兩種做法:

2.1.1 備份Namenode中保存的永久信息

保存多份數(shù)據(jù)邢疙,最常用的做法是把永久信息保存到本地文件系統(tǒng)和某個遠程NFS(Network FileSystem)上去棍弄。這些多寫操作是同步和原子性的,因為Namenode上都是源數(shù)據(jù)疟游,寫少讀多照卦,每次保存的量比較小,消耗一些寫的性能乡摹,來保證集群的健壯,還是值得的采转。

2.1.2 運行一個Secondary Namenode

它最主要的工作就是把namespace image檢查點文件與edit log相融合(以防止edit log過大)并把融合后的namespace image保存在自己的本地文件系統(tǒng)上聪廉,同時發(fā)送這個新的備份給namenode。

SecondaryNamenode.png

由于secondary namenode上保存的狀態(tài)信息總是要滯后于namenode上的狀態(tài)信息的緣故(未融合的edit log記錄了這一部分改變)故慈,如果namenode完全失敗板熊,數(shù)據(jù)肯定要丟失一部分。

最保險最常用的方式察绷,是把上述兩種方法結(jié)合起來干签,也即當namenode故障時,把遠端NFS上的namespace image拷貝到secondary namenode上拆撼,然后把secondary namenode當做namenode來運行容劳。

2.2 DataNode的數(shù)據(jù)存儲和讀取

HDFS把文件轉(zhuǎn)化為另一種數(shù)據(jù)格式,并以Block的形式闸度,分散存儲在每一個DataNode上竭贩。
其中Block的默認大小是128M,HDFS為了保證數(shù)據(jù)的安全莺禁,會把同一份Block復制多份副本留量,分別存儲在不同的DataNode上,默認是3個副本。

下面是HDFS寫入數(shù)據(jù)的過程:

writeBlocks.png

下面是HDFS讀取數(shù)據(jù)的過程:


readBlocks.png

3.結(jié)尾

HDFS是Hadoop的主要功能之一楼熄,Hadoop的所有計算忆绰,都是基于HDFS的存儲結(jié)構(gòu)之上的。所以要先梳理好HDFS的基本結(jié)構(gòu)可岂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末错敢,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子青柄,更是在濱河造成了極大的恐慌伐债,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件致开,死亡現(xiàn)場離奇詭異峰锁,居然都是意外死亡,警方通過查閱死者的電腦和手機双戳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進店門虹蒋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人飒货,你說我怎么就攤上這事魄衅。” “怎么了塘辅?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵晃虫,是天一觀的道長。 經(jīng)常有香客問我扣墩,道長哲银,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任呻惕,我火速辦了婚禮荆责,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘亚脆。我一直安慰自己做院,他們只是感情好,可當我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布濒持。 她就那樣靜靜地躺著键耕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柑营。 梳的紋絲不亂的頭發(fā)上郁竟,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天,我揣著相機與錄音由境,去河邊找鬼棚亩。 笑死蓖议,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的讥蟆。 我是一名探鬼主播勒虾,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼瘸彤!你這毒婦竟也來了修然?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤质况,失蹤者是張志新(化名)和其女友劉穎愕宋,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體结榄,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡中贝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了臼朗。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邻寿。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖视哑,靈堂內(nèi)的尸體忽然破棺而出绣否,到底是詐尸還是另有隱情,我是刑警寧澤挡毅,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布蒜撮,位于F島的核電站,受9級特大地震影響跪呈,放射性物質(zhì)發(fā)生泄漏淀弹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一庆械、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菌赖,春花似錦缭乘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至邑时,卻和暖如春奴紧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背晶丘。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工黍氮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留唐含,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓沫浆,卻偏偏與公主長得像捷枯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子专执,可洞房花燭夜當晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容