1慕的、HDFS有什么作用
HDFS是Hadoop Distribute File System 的簡稱,也就是Hadoop的一個分布式文件系統(tǒng)。
1)高容錯:提供較高的容錯率纺弊,因為數(shù)據(jù)有備份,通過機架感知策略骡男,namenode會盡量將數(shù)據(jù)的復(fù)本放到不同的機架上淆游,所以小規(guī)模的宕機不影響數(shù)據(jù)的存儲。
對于網(wǎng)絡(luò)的就近原則洞翩,先近再遠稽犁,如果有多個機架,會在多個機架建立副本骚亿。
宕機:操作系統(tǒng)無法從一個嚴(yán)重系統(tǒng)錯誤中恢復(fù)過來已亥,或系統(tǒng)硬件層面出問題,以致系統(tǒng)長時間無響應(yīng)来屠,而不得不重新啟動計算機的現(xiàn)象虑椎。
2)成本低:可以使用低成本的硬件搭建一個分布式文件系統(tǒng)。
3)規(guī)模大:能提供大規(guī)模的數(shù)據(jù)存儲俱笛,上TB捆姜、PB級的規(guī)模。
4)高吞吐:高吞吐的數(shù)據(jù)訪問迎膜,獲得一個完整的數(shù)據(jù)可以從多個機器上同時讀取泥技。
5)讀取方式多樣:計算時數(shù)據(jù)讀取的方式多采用本地化方式,如果本地化方式不滿足則采用臨近網(wǎng)絡(luò)的方式磕仅,這也是通過機架感知策略珊豹。
2、機架感知策略的實現(xiàn)機制
默認情況下榕订,Hadoop機架感知是沒有啟用的店茶,需要在NameNode機器的hadoop-site.xml里配置一個選項,例如:
<property>
<name>topology.script.file.name</name>
<value>/path/to/script</value>
</property>
這個配置選項的value指定為一個可執(zhí)行程序劫恒,通常為一個腳本贩幻,該腳本接受一個參數(shù),輸出一個值两嘴。接受的參數(shù)通常為datanode機器的ip地址丛楚,而輸出的值通常為該ip地址對應(yīng)的datanode所在的rackID,例如”/rackid1”憔辫。
Namenode啟動時鸯檬,會判斷該配置選項是否為空,如果非空螺垢,則表示已經(jīng)啟用機架感知的配置喧务,此時namenode會根據(jù)配置尋找該腳本赖歌,并在接收到每一個datanode的heartbeat時,將該datanode的ip地址作為參數(shù)傳給該腳本運行功茴,并將得到的輸出作為該datanode所屬的機架庐冯,保存到內(nèi)存的一個map中。
3坎穿、HDFS的系統(tǒng)結(jié)構(gòu)
namenode:大領(lǐng)導(dǎo)展父,管理數(shù)據(jù)塊映射;處理客戶端的讀寫請求玲昧。一般有一個active狀態(tài)的namenode栖茉,有一個standby狀態(tài)的namenode,其中孵延,active狀態(tài)的NameNode負責(zé)所有的客戶端操作吕漂,standby狀態(tài)的NameNode處于從屬地位,維護著數(shù)據(jù)狀態(tài)尘应,隨時準(zhǔn)備切換惶凝。
journalnode:負責(zé)兩個狀態(tài)的namenode進行數(shù)據(jù)同步,保持?jǐn)?shù)據(jù)一致犬钢。
ZKFC:作用是HA自動切換苍鲜。會將NameNode的active狀態(tài)信息保存到zookeeper。
datanode:干活的玷犹,負責(zé)存儲client發(fā)來的數(shù)據(jù)塊block混滔;執(zhí)行數(shù)據(jù)塊的讀寫操作。
namenode和datanode之間的關(guān)系:
1)datanode啟動時要在namenode上注冊歹颓,當(dāng)datanode改變時坯屿,也要通知namenode。datanode 會定期向NameNode發(fā)送心跳晴股,告知NameNode 該節(jié)點的datanode是活著的愿伴。
2)datanode之間可以相互傳輸數(shù)據(jù)肺魁。
4电湘、數(shù)據(jù)塊——block
1)數(shù)據(jù)塊是基本的數(shù)據(jù)存儲單位,一般大小為64M/128M/256M鹅经,一個大文件根據(jù)數(shù)據(jù)塊的大小寂呛,將文件分為若干個塊。NameNode存儲的文件對應(yīng)的block映射信息瘾晃;而datanode存儲塊信息對應(yīng)的數(shù)據(jù)贷痪。
2)塊越小讀取的速度就越快,但是整體占用namenode的空間就越大蹦误,因為不管塊大小一個塊所占用的namenode內(nèi)存存儲空間為一般為150字節(jié)劫拢。
3)一個大文件會被拆分成一個個的塊肉津,然后存儲于不同的機器。對于大規(guī)模的集群會存儲在不同的機架上舱沧,如果一個文件少于Block大小妹沙,那么實際占用的空間為其文件的大小。
4)數(shù)據(jù)塊也是基本的讀寫單位熟吏,類似于磁盤的扇區(qū)距糖,每次都是讀寫一個塊。讀寫多個塊就合成了一個文件牵寺。
5)為了容錯悍引,文件的所有數(shù)據(jù)塊都會有副本,也就是說復(fù)制的是數(shù)據(jù)塊而不是單獨的一個文件被復(fù)制了帽氓,默認復(fù)制3份趣斤,可以在hdft-site.xml里進行配置。
6)副本的數(shù)據(jù)的存儲規(guī)則:
① 若client為DataNode節(jié)點杏节,那存儲block時唬渗,規(guī)則為:副本1,同client的節(jié)點上奋渔;副本2镊逝,不同機架節(jié)點上;副本3嫉鲸,同第二個副本機架的另一個節(jié)點上撑蒜;其他副本隨機挑選。
② 若client不為DataNode節(jié)點玄渗,那存儲block時座菠,規(guī)則為:副本1,隨機選擇一個節(jié)點上藤树;副本2浴滴,不同機架節(jié)點上;副本3岁钓,同第二個副本機架的另一個節(jié)點上升略;其他副本隨機挑選。
5屡限、 namenode
1)namenode是整個集群的中心品嚣,負責(zé)安排管理集群中數(shù)據(jù)的存儲并記錄存儲文件的元數(shù)據(jù)和負責(zé)客戶端對文件的訪問。
2)存儲文件的元數(shù)據(jù)(metadata)钧大,主要包括整個文件系統(tǒng)的目錄樹翰撑、文件名與blockid的映射關(guān)系、blockid在哪個datanode上啊央。
3)在運行時把所有的元數(shù)據(jù)都保存到namenode機器的內(nèi)存中眶诈,所以整個HDFS可存儲的文件數(shù)受限于namenode的內(nèi)存大小涨醋。
4)一個block 在namenode中對應(yīng)一條記錄。
5)namenode的元數(shù)據(jù)的鏡像文件(fsimage)會保存到本地磁盤逝撬,但不保存block具體的位置信息东帅,而是由DataNode注冊和運行時進行上報維護。
6)namenode崩潰了球拦,那整個HDFS也就崩潰了靠闭,所以要采用冗余的方案來保證NameNode的高可用性。
7)元數(shù)據(jù)fsimage的保存不及時坎炼,如果namenode要是宕機了怎么辦愧膀?
可以通過HDFS的操作日志記錄文件(editlog)來恢復(fù),如果元數(shù)據(jù)fsimage完整就直接恢復(fù)谣光,不完整再用editlog進行補余檩淋。
6、datanode
1)保存block塊對應(yīng)的具體數(shù)據(jù)萄金;給NameNode發(fā)送心跳蟀悦;負責(zé)數(shù)據(jù)的讀寫和復(fù)制操作。
2)datanode啟動時會向namenode報告當(dāng)前存儲的數(shù)據(jù)塊信息氧敢,也會持續(xù)的報告數(shù)據(jù)塊的修改信息日戈。
3)datanode之間會進行互相通信,來完成復(fù)制數(shù)據(jù)塊的動作孙乖,以保證數(shù)據(jù)的冗余性浙炼。
7、HDFS數(shù)據(jù)的寫入過程
1)客戶端發(fā)起數(shù)據(jù)寫入請求唯袄,告訴namenode要寫入的文件信息弯屈;
2)namenode根據(jù)你的情況(client端所在位置、文件大辛悼健)分配給你分配寫入數(shù)據(jù)的位置也就是寫到那幾個機器上资厉;
3)向datanode寫入數(shù)據(jù);
4)datanode復(fù)制數(shù)據(jù)蔬顾;
5)復(fù)制完成之后宴偿,各數(shù)據(jù)節(jié)點向namenode上報block信息;
6)datanode通知客戶端已完成阎抒。
8酪我、HDFS數(shù)據(jù)的讀取過程
1)客戶端發(fā)起讀數(shù)據(jù)的請求消痛;
2)告訴namenode要讀那個文件且叁;
3)namenode返回block信息列表(包括要讀取的數(shù)據(jù)在那個機器上);
4)到指定的機器上讀取具體的數(shù)據(jù)秩伞;
5)datanode根據(jù)block信息找到數(shù)據(jù)的存儲位置并返回數(shù)據(jù)給客戶端逞带;
6)客戶端讀完數(shù)據(jù)之后告訴namenode我已經(jīng)讀取完成欺矫。
關(guān)注微信公眾號:Spark大數(shù)據(jù) 或許更多內(nèi)容