大數(shù)據(jù) HDFS原理詳解

1慕的、HDFS有什么作用

HDFS是Hadoop Distribute File System 的簡稱,也就是Hadoop的一個分布式文件系統(tǒng)。
1)高容錯:提供較高的容錯率纺弊,因為數(shù)據(jù)有備份,通過機架感知策略骡男,namenode會盡量將數(shù)據(jù)的復(fù)本放到不同的機架上淆游,所以小規(guī)模的宕機不影響數(shù)據(jù)的存儲。
對于網(wǎng)絡(luò)的就近原則洞翩,先近再遠稽犁,如果有多個機架,會在多個機架建立副本骚亿。

宕機:操作系統(tǒng)無法從一個嚴(yán)重系統(tǒng)錯誤中恢復(fù)過來已亥,或系統(tǒng)硬件層面出問題,以致系統(tǒng)長時間無響應(yīng)来屠,而不得不重新啟動計算機的現(xiàn)象虑椎。

2)成本低:可以使用低成本的硬件搭建一個分布式文件系統(tǒng)。

3)規(guī)模大:能提供大規(guī)模的數(shù)據(jù)存儲俱笛,上TB捆姜、PB級的規(guī)模。

4)高吞吐:高吞吐的數(shù)據(jù)訪問迎膜,獲得一個完整的數(shù)據(jù)可以從多個機器上同時讀取泥技。

5)讀取方式多樣:計算時數(shù)據(jù)讀取的方式多采用本地化方式,如果本地化方式不滿足則采用臨近網(wǎng)絡(luò)的方式磕仅,這也是通過機架感知策略珊豹。

2、機架感知策略的實現(xiàn)機制

默認情況下榕订,Hadoop機架感知是沒有啟用的店茶,需要在NameNode機器的hadoop-site.xml里配置一個選項,例如:

<property>  
    <name>topology.script.file.name</name>
    <value>/path/to/script</value>
</property>

這個配置選項的value指定為一個可執(zhí)行程序劫恒,通常為一個腳本贩幻,該腳本接受一個參數(shù),輸出一個值两嘴。接受的參數(shù)通常為datanode機器的ip地址丛楚,而輸出的值通常為該ip地址對應(yīng)的datanode所在的rackID,例如”/rackid1”憔辫。

Namenode啟動時鸯檬,會判斷該配置選項是否為空,如果非空螺垢,則表示已經(jīng)啟用機架感知的配置喧务,此時namenode會根據(jù)配置尋找該腳本赖歌,并在接收到每一個datanode的heartbeat時,將該datanode的ip地址作為參數(shù)傳給該腳本運行功茴,并將得到的輸出作為該datanode所屬的機架庐冯,保存到內(nèi)存的一個map中。

3坎穿、HDFS的系統(tǒng)結(jié)構(gòu)

namenode:大領(lǐng)導(dǎo)展父,管理數(shù)據(jù)塊映射;處理客戶端的讀寫請求玲昧。一般有一個active狀態(tài)的namenode栖茉,有一個standby狀態(tài)的namenode,其中孵延,active狀態(tài)的NameNode負責(zé)所有的客戶端操作吕漂,standby狀態(tài)的NameNode處于從屬地位,維護著數(shù)據(jù)狀態(tài)尘应,隨時準(zhǔn)備切換惶凝。

journalnode:負責(zé)兩個狀態(tài)的namenode進行數(shù)據(jù)同步,保持?jǐn)?shù)據(jù)一致犬钢。

ZKFC:作用是HA自動切換苍鲜。會將NameNode的active狀態(tài)信息保存到zookeeper。

datanode:干活的玷犹,負責(zé)存儲client發(fā)來的數(shù)據(jù)塊block混滔;執(zhí)行數(shù)據(jù)塊的讀寫操作。

namenode和datanode之間的關(guān)系:

1)datanode啟動時要在namenode上注冊歹颓,當(dāng)datanode改變時坯屿,也要通知namenode。datanode 會定期向NameNode發(fā)送心跳晴股,告知NameNode 該節(jié)點的datanode是活著的愿伴。

2)datanode之間可以相互傳輸數(shù)據(jù)肺魁。

4电湘、數(shù)據(jù)塊——block

1)數(shù)據(jù)塊是基本的數(shù)據(jù)存儲單位,一般大小為64M/128M/256M鹅经,一個大文件根據(jù)數(shù)據(jù)塊的大小寂呛,將文件分為若干個塊。NameNode存儲的文件對應(yīng)的block映射信息瘾晃;而datanode存儲塊信息對應(yīng)的數(shù)據(jù)贷痪。

2)塊越小讀取的速度就越快,但是整體占用namenode的空間就越大蹦误,因為不管塊大小一個塊所占用的namenode內(nèi)存存儲空間為一般為150字節(jié)劫拢。

3)一個大文件會被拆分成一個個的塊肉津,然后存儲于不同的機器。對于大規(guī)模的集群會存儲在不同的機架上舱沧,如果一個文件少于Block大小妹沙,那么實際占用的空間為其文件的大小。

4)數(shù)據(jù)塊也是基本的讀寫單位熟吏,類似于磁盤的扇區(qū)距糖,每次都是讀寫一個塊。讀寫多個塊就合成了一個文件牵寺。

5)為了容錯悍引,文件的所有數(shù)據(jù)塊都會有副本,也就是說復(fù)制的是數(shù)據(jù)塊而不是單獨的一個文件被復(fù)制了帽氓,默認復(fù)制3份趣斤,可以在hdft-site.xml里進行配置。

6)副本的數(shù)據(jù)的存儲規(guī)則:

① 若client為DataNode節(jié)點杏节,那存儲block時唬渗,規(guī)則為:副本1,同client的節(jié)點上奋渔;副本2镊逝,不同機架節(jié)點上;副本3嫉鲸,同第二個副本機架的另一個節(jié)點上撑蒜;其他副本隨機挑選。

② 若client不為DataNode節(jié)點玄渗,那存儲block時座菠,規(guī)則為:副本1,隨機選擇一個節(jié)點上藤树;副本2浴滴,不同機架節(jié)點上;副本3岁钓,同第二個副本機架的另一個節(jié)點上升略;其他副本隨機挑選。

5屡限、 namenode

1)namenode是整個集群的中心品嚣,負責(zé)安排管理集群中數(shù)據(jù)的存儲并記錄存儲文件的元數(shù)據(jù)和負責(zé)客戶端對文件的訪問。

2)存儲文件的元數(shù)據(jù)(metadata)钧大,主要包括整個文件系統(tǒng)的目錄樹翰撑、文件名與blockid的映射關(guān)系、blockid在哪個datanode上啊央。

3)在運行時把所有的元數(shù)據(jù)都保存到namenode機器的內(nèi)存中眶诈,所以整個HDFS可存儲的文件數(shù)受限于namenode的內(nèi)存大小涨醋。

4)一個block 在namenode中對應(yīng)一條記錄。

5)namenode的元數(shù)據(jù)的鏡像文件(fsimage)會保存到本地磁盤逝撬,但不保存block具體的位置信息东帅,而是由DataNode注冊和運行時進行上報維護。

6)namenode崩潰了球拦,那整個HDFS也就崩潰了靠闭,所以要采用冗余的方案來保證NameNode的高可用性。

7)元數(shù)據(jù)fsimage的保存不及時坎炼,如果namenode要是宕機了怎么辦愧膀?
可以通過HDFS的操作日志記錄文件(editlog)來恢復(fù),如果元數(shù)據(jù)fsimage完整就直接恢復(fù)谣光,不完整再用editlog進行補余檩淋。

6、datanode

1)保存block塊對應(yīng)的具體數(shù)據(jù)萄金;給NameNode發(fā)送心跳蟀悦;負責(zé)數(shù)據(jù)的讀寫和復(fù)制操作。

2)datanode啟動時會向namenode報告當(dāng)前存儲的數(shù)據(jù)塊信息氧敢,也會持續(xù)的報告數(shù)據(jù)塊的修改信息日戈。

3)datanode之間會進行互相通信,來完成復(fù)制數(shù)據(jù)塊的動作孙乖,以保證數(shù)據(jù)的冗余性浙炼。

7、HDFS數(shù)據(jù)的寫入過程

1)客戶端發(fā)起數(shù)據(jù)寫入請求唯袄,告訴namenode要寫入的文件信息弯屈;
2)namenode根據(jù)你的情況(client端所在位置、文件大辛悼健)分配給你分配寫入數(shù)據(jù)的位置也就是寫到那幾個機器上资厉;
3)向datanode寫入數(shù)據(jù);
4)datanode復(fù)制數(shù)據(jù)蔬顾;
5)復(fù)制完成之后宴偿,各數(shù)據(jù)節(jié)點向namenode上報block信息;
6)datanode通知客戶端已完成阎抒。

8酪我、HDFS數(shù)據(jù)的讀取過程

1)客戶端發(fā)起讀數(shù)據(jù)的請求消痛;
2)告訴namenode要讀那個文件且叁;
3)namenode返回block信息列表(包括要讀取的數(shù)據(jù)在那個機器上);
4)到指定的機器上讀取具體的數(shù)據(jù)秩伞;
5)datanode根據(jù)block信息找到數(shù)據(jù)的存儲位置并返回數(shù)據(jù)給客戶端逞带;
6)客戶端讀完數(shù)據(jù)之后告訴namenode我已經(jīng)讀取完成欺矫。

關(guān)注微信公眾號:Spark大數(shù)據(jù) 或許更多內(nèi)容

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者展氓。
  • 序言:七十年代末穆趴,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子遇汞,更是在濱河造成了極大的恐慌未妹,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件空入,死亡現(xiàn)場離奇詭異络它,居然都是意外死亡,警方通過查閱死者的電腦和手機歪赢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門化戳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人埋凯,你說我怎么就攤上這事点楼。” “怎么了白对?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵掠廓,是天一觀的道長。 經(jīng)常有香客問我甩恼,道長却盘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任媳拴,我火速辦了婚禮黄橘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘屈溉。我一直安慰自己塞关,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布子巾。 她就那樣靜靜地躺著帆赢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪线梗。 梳的紋絲不亂的頭發(fā)上椰于,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音仪搔,去河邊找鬼瘾婿。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的偏陪。 我是一名探鬼主播抢呆,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼笛谦!你這毒婦竟也來了抱虐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤饥脑,失蹤者是張志新(化名)和其女友劉穎恳邀,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灶轰,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡轩娶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了框往。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鳄抒。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖椰弊,靈堂內(nèi)的尸體忽然破棺而出许溅,到底是詐尸還是另有隱情,我是刑警寧澤秉版,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布贤重,位于F島的核電站,受9級特大地震影響清焕,放射性物質(zhì)發(fā)生泄漏并蝗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一秸妥、第九天 我趴在偏房一處隱蔽的房頂上張望滚停。 院中可真熱鬧,春花似錦粥惧、人聲如沸键畴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽起惕。三九已至,卻和暖如春咏删,著一層夾襖步出監(jiān)牢的瞬間惹想,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工督函, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留嘀粱,地道東北人激挪。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像草穆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子搓译,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,960評論 2 355