2.Hadoop-HDFS簡介

HDFS（The Hadoop Distributed File System）是Hadoop的可以運行在普通硬件上的分布式文件系統(tǒng)外莲。

1.HDFS特點

1.1 高容錯率

HDFS把硬件故障看做常態(tài)，來做設計绷蹲。增加數(shù)據(jù)副本简识，冗余存儲，利用集群的優(yōu)勢，使數(shù)據(jù)高可用斯棒。集群本身也有錯誤檢測和快速、自動的恢復機制主经。

1.2 流式數(shù)據(jù)訪問

HDFS是建立在一次寫多次讀的模式的概念之上的荣暮，HDFS存儲的數(shù)據(jù)集作為hadoop的分析對象。在數(shù)據(jù)集生成后罩驻，長時間在此數(shù)據(jù)集上進行各種分析穗酥。每次分析都將設計該數(shù)據(jù)集的大部分數(shù)據(jù)甚至全部數(shù)據(jù)称诗，因此使用場景大多是蛾坯，讀取整個數(shù)據(jù)集通贞。流式讀取最小化了硬盤的尋址開銷取具，只需要尋址一次实抡，然后就一直讀弛房。對于大文件的特點也更適合流式讀取皆辽。

與流數(shù)據(jù)訪問對應的是隨機數(shù)據(jù)訪問跛梗，它要求定位透绩、查詢或修改數(shù)據(jù)的延遲較小翘骂，比較適合于創(chuàng)建數(shù)據(jù)后再多次讀寫的情況，如傳統(tǒng)的關(guān)系型數(shù)據(jù)庫帚豪。

1.3 適合超大數(shù)據(jù)集

1.4 移動計算比移動數(shù)據(jù)更經(jīng)濟

把與計算相關(guān)的邏輯碳竟，盡量晚的執(zhí)行。每個節(jié)點計算完成以后志鞍，再移動數(shù)據(jù)匯總瞭亮，而不是把數(shù)據(jù)匯總之后再進行計算。樣就能降低網(wǎng)絡阻塞的影響固棚，提高系統(tǒng)數(shù)據(jù)的吞吐量统翩。

2.Namenode 和 Datanode

HDFS采用master/slave架構(gòu)。一個HDFS集群是由一個Namenode和多個的Datanode組成此洲。顧名思義厂汗，Namenode是集群的中心服務器，負責管理集群呜师，以及存儲元數(shù)據(jù)娶桦，Datanode就是真正存儲數(shù)據(jù)的節(jié)點。

Namenode作為集群的中心服務器，主要存儲兩個東西：
1）所有數(shù)據(jù)的命名空間（Namespace Image）衷畦，包括文件名栗涂，副本數(shù)，文件路徑等
2）用戶對數(shù)據(jù)的操作日志（edit log）

Datanode會以塊的形式祈争，存儲數(shù)據(jù)斤程。負責處理Client的讀寫數(shù)據(jù)的請求，并周期性發(fā)送心跳信號和塊狀態(tài)報告(Blockreport)到Namenode菩混。

hdfsarchitecture.png

2.1 Namenode的單點問題

Namenode是整個分布式文件系統(tǒng)的一個單點故障（single point of failure）忿墅，一旦故障，整個分布式文件系統(tǒng)就無法使用了沮峡，因為無法從blocks中重構(gòu)出相應的文件了疚脐。所以確保Namenode能從失敗中及時恢復是很重要的一件事。

應對故障一般有兩種做法：

2.1.1 備份Namenode中保存的永久信息

保存多份數(shù)據(jù)邢疙，最常用的做法是把永久信息保存到本地文件系統(tǒng)和某個遠程NFS（Network FileSystem）上去棍弄。這些多寫操作是同步和原子性的，因為Namenode上都是源數(shù)據(jù)疟游，寫少讀多照卦，每次保存的量比較小，消耗一些寫的性能乡摹，來保證集群的健壯，還是值得的采转。

2.1.2 運行一個Secondary Namenode

它最主要的工作就是把namespace image檢查點文件與edit log相融合（以防止edit log過大）并把融合后的namespace image保存在自己的本地文件系統(tǒng)上聪廉，同時發(fā)送這個新的備份給namenode。

SecondaryNamenode.png

由于secondary namenode上保存的狀態(tài)信息總是要滯后于namenode上的狀態(tài)信息的緣故（未融合的edit log記錄了這一部分改變）故慈，如果namenode完全失敗板熊，數(shù)據(jù)肯定要丟失一部分。

最保險最常用的方式察绷，是把上述兩種方法結(jié)合起來干签，也即當namenode故障時，把遠端NFS上的namespace image拷貝到secondary namenode上拆撼，然后把secondary namenode當做namenode來運行容劳。

2.2 DataNode的數(shù)據(jù)存儲和讀取

HDFS把文件轉(zhuǎn)化為另一種數(shù)據(jù)格式，并以Block的形式闸度，分散存儲在每一個DataNode上竭贩。
其中Block的默認大小是128M，HDFS為了保證數(shù)據(jù)的安全莺禁，會把同一份Block復制多份副本留量，分別存儲在不同的DataNode上，默認是3個副本。

下面是HDFS寫入數(shù)據(jù)的過程：

writeBlocks.png

下面是HDFS讀取數(shù)據(jù)的過程：

readBlocks.png

3.結(jié)尾

HDFS是Hadoop的主要功能之一楼熄，Hadoop的所有計算忆绰，都是基于HDFS的存儲結(jié)構(gòu)之上的。所以要先梳理好HDFS的基本結(jié)構(gòu)可岂。

最后編輯于：2018.01.10 21:52:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末错敢，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子青柄，更是在濱河造成了極大的恐慌伐债，老刑警劉巖，帶你破解...
沈念sama閱讀 221,820評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件致开，死亡現(xiàn)場離奇詭異峰锁，居然都是意外死亡，警方通過查閱死者的電腦和手機双戳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門虹蒋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人飒货，你說我怎么就攤上這事魄衅。” “怎么了塘辅？”我有些...
開封第一講書人閱讀 168,324評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵晃虫，是天一觀的道長。經(jīng)常有香客問我扣墩，道長哲银，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,714評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任呻惕，我火速辦了婚禮荆责，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘亚脆。我一直安慰自己做院，他們只是感情好，可當我...
茶點故事閱讀 68,724評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布濒持。她就那樣靜靜地躺著键耕，像睡著了一般。火紅的嫁衣襯著肌膚如雪柑营。梳的紋絲不亂的頭發(fā)上郁竟，一...
開封第一講書人閱讀 52,328評論 1贊 310
城市分裂傳說
那天，我揣著相機與錄音由境，去河邊找鬼棚亩。笑死蓖议，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的讥蟆。我是一名探鬼主播勒虾，決...
沈念sama閱讀 40,897評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼瘸彤！你這毒婦竟也來了修然？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,804評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤质况，失蹤者是張志新（化名）和其女友劉穎愕宋，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體结榄，經(jīng)...
沈念sama閱讀 46,345評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡中贝，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,431評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了臼朗。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邻寿。...
茶點故事閱讀 40,561評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖视哑，靈堂內(nèi)的尸體忽然破棺而出绣否，到底是詐尸還是另有隱情，我是刑警寧澤挡毅，帶...
沈念sama閱讀 36,238評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蒜撮，位于F島的核電站，受9級特大地震影響跪呈，放射性物質(zhì)發(fā)生泄漏淀弹。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,928評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一庆械、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧菌赖，春花似錦缭乘、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,417評論 0贊 24
一樁弒父案堕绩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至邑时，卻和暖如春奴紧，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背晶丘。一陣腳步聲響...
開封第一講書人閱讀 33,528評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工黍氮，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留唐含，地道東北人。一個月前我還...
沈念sama閱讀 48,983評論 3贊 376
代替公主和親
正文我出身青樓沫浆，卻偏偏與公主長得像捷枯，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子专执，可洞房花燭夜當晚...
茶點故事閱讀 45,573評論 2贊 359