大數(shù)據(jù) HDFS原理詳解

1慕的、HDFS有什么作用

HDFS是Hadoop Distribute File System 的簡稱，也就是Hadoop的一個分布式文件系統(tǒng)。
1）高容錯：提供較高的容錯率纺弊，因為數(shù)據(jù)有備份，通過機架感知策略骡男，namenode會盡量將數(shù)據(jù)的復(fù)本放到不同的機架上淆游，所以小規(guī)模的宕機不影響數(shù)據(jù)的存儲。
對于網(wǎng)絡(luò)的就近原則洞翩，先近再遠稽犁，如果有多個機架，會在多個機架建立副本骚亿。

宕機：操作系統(tǒng)無法從一個嚴(yán)重系統(tǒng)錯誤中恢復(fù)過來已亥，或系統(tǒng)硬件層面出問題，以致系統(tǒng)長時間無響應(yīng)来屠，而不得不重新啟動計算機的現(xiàn)象虑椎。

2）成本低：可以使用低成本的硬件搭建一個分布式文件系統(tǒng)。

3）規(guī)模大：能提供大規(guī)模的數(shù)據(jù)存儲俱笛，上TB捆姜、PB級的規(guī)模。

4）高吞吐：高吞吐的數(shù)據(jù)訪問迎膜，獲得一個完整的數(shù)據(jù)可以從多個機器上同時讀取泥技。

5）讀取方式多樣：計算時數(shù)據(jù)讀取的方式多采用本地化方式，如果本地化方式不滿足則采用臨近網(wǎng)絡(luò)的方式磕仅，這也是通過機架感知策略珊豹。

2、機架感知策略的實現(xiàn)機制

默認情況下榕订，Hadoop機架感知是沒有啟用的店茶，需要在NameNode機器的hadoop-site.xml里配置一個選項，例如：

<property>  
    <name>topology.script.file.name</name>
    <value>/path/to/script</value>
</property>

這個配置選項的value指定為一個可執(zhí)行程序劫恒，通常為一個腳本贩幻，該腳本接受一個參數(shù)，輸出一個值两嘴。接受的參數(shù)通常為datanode機器的ip地址丛楚，而輸出的值通常為該ip地址對應(yīng)的datanode所在的rackID，例如”/rackid1”憔辫。

Namenode啟動時鸯檬，會判斷該配置選項是否為空，如果非空螺垢，則表示已經(jīng)啟用機架感知的配置喧务，此時namenode會根據(jù)配置尋找該腳本赖歌，并在接收到每一個datanode的heartbeat時，將該datanode的ip地址作為參數(shù)傳給該腳本運行功茴，并將得到的輸出作為該datanode所屬的機架庐冯，保存到內(nèi)存的一個map中。

3坎穿、HDFS的系統(tǒng)結(jié)構(gòu)

namenode：大領(lǐng)導(dǎo)展父，管理數(shù)據(jù)塊映射；處理客戶端的讀寫請求玲昧。一般有一個active狀態(tài)的namenode栖茉，有一個standby狀態(tài)的namenode，其中孵延，active狀態(tài)的NameNode負責(zé)所有的客戶端操作吕漂，standby狀態(tài)的NameNode處于從屬地位，維護著數(shù)據(jù)狀態(tài)尘应，隨時準(zhǔn)備切換惶凝。

journalnode：負責(zé)兩個狀態(tài)的namenode進行數(shù)據(jù)同步，保持?jǐn)?shù)據(jù)一致犬钢。

ZKFC：作用是HA自動切換苍鲜。會將NameNode的active狀態(tài)信息保存到zookeeper。

datanode：干活的玷犹，負責(zé)存儲client發(fā)來的數(shù)據(jù)塊block混滔；執(zhí)行數(shù)據(jù)塊的讀寫操作。

namenode和datanode之間的關(guān)系：

1）datanode啟動時要在namenode上注冊歹颓，當(dāng)datanode改變時坯屿，也要通知namenode。datanode 會定期向NameNode發(fā)送心跳晴股，告知NameNode 該節(jié)點的datanode是活著的愿伴。

2）datanode之間可以相互傳輸數(shù)據(jù)肺魁。

4电湘、數(shù)據(jù)塊——block

1）數(shù)據(jù)塊是基本的數(shù)據(jù)存儲單位，一般大小為64M/128M/256M鹅经，一個大文件根據(jù)數(shù)據(jù)塊的大小寂呛，將文件分為若干個塊。NameNode存儲的文件對應(yīng)的block映射信息瘾晃；而datanode存儲塊信息對應(yīng)的數(shù)據(jù)贷痪。

2）塊越小讀取的速度就越快，但是整體占用namenode的空間就越大蹦误，因為不管塊大小一個塊所占用的namenode內(nèi)存存儲空間為一般為150字節(jié)劫拢。

3）一個大文件會被拆分成一個個的塊肉津，然后存儲于不同的機器。對于大規(guī)模的集群會存儲在不同的機架上舱沧，如果一個文件少于Block大小妹沙，那么實際占用的空間為其文件的大小。

4）數(shù)據(jù)塊也是基本的讀寫單位熟吏，類似于磁盤的扇區(qū)距糖，每次都是讀寫一個塊。讀寫多個塊就合成了一個文件牵寺。

5）為了容錯悍引，文件的所有數(shù)據(jù)塊都會有副本，也就是說復(fù)制的是數(shù)據(jù)塊而不是單獨的一個文件被復(fù)制了帽氓，默認復(fù)制3份趣斤，可以在hdft-site.xml里進行配置。

6）副本的數(shù)據(jù)的存儲規(guī)則：

① 若client為DataNode節(jié)點杏节，那存儲block時唬渗，規(guī)則為：副本1，同client的節(jié)點上奋渔；副本2镊逝，不同機架節(jié)點上；副本3嫉鲸，同第二個副本機架的另一個節(jié)點上撑蒜；其他副本隨機挑選。

② 若client不為DataNode節(jié)點玄渗，那存儲block時座菠，規(guī)則為：副本1，隨機選擇一個節(jié)點上藤树；副本2浴滴，不同機架節(jié)點上；副本3岁钓，同第二個副本機架的另一個節(jié)點上升略；其他副本隨機挑選。

5屡限、 namenode

1）namenode是整個集群的中心品嚣，負責(zé)安排管理集群中數(shù)據(jù)的存儲并記錄存儲文件的元數(shù)據(jù)和負責(zé)客戶端對文件的訪問。

2）存儲文件的元數(shù)據(jù)（metadata）钧大，主要包括整個文件系統(tǒng)的目錄樹翰撑、文件名與blockid的映射關(guān)系、blockid在哪個datanode上啊央。

3）在運行時把所有的元數(shù)據(jù)都保存到namenode機器的內(nèi)存中眶诈，所以整個HDFS可存儲的文件數(shù)受限于namenode的內(nèi)存大小涨醋。

4）一個block 在namenode中對應(yīng)一條記錄。

5）namenode的元數(shù)據(jù)的鏡像文件（fsimage）會保存到本地磁盤逝撬，但不保存block具體的位置信息东帅，而是由DataNode注冊和運行時進行上報維護。

6）namenode崩潰了球拦，那整個HDFS也就崩潰了靠闭，所以要采用冗余的方案來保證NameNode的高可用性。

7）元數(shù)據(jù)fsimage的保存不及時坎炼，如果namenode要是宕機了怎么辦愧膀？
可以通過HDFS的操作日志記錄文件（editlog）來恢復(fù)，如果元數(shù)據(jù)fsimage完整就直接恢復(fù)谣光，不完整再用editlog進行補余檩淋。

6、datanode

1）保存block塊對應(yīng)的具體數(shù)據(jù)萄金；給NameNode發(fā)送心跳蟀悦；負責(zé)數(shù)據(jù)的讀寫和復(fù)制操作。

2）datanode啟動時會向namenode報告當(dāng)前存儲的數(shù)據(jù)塊信息氧敢，也會持續(xù)的報告數(shù)據(jù)塊的修改信息日戈。

3）datanode之間會進行互相通信，來完成復(fù)制數(shù)據(jù)塊的動作孙乖，以保證數(shù)據(jù)的冗余性浙炼。

7、HDFS數(shù)據(jù)的寫入過程

1）客戶端發(fā)起數(shù)據(jù)寫入請求唯袄，告訴namenode要寫入的文件信息弯屈；
2）namenode根據(jù)你的情況（client端所在位置、文件大辛悼健）分配給你分配寫入數(shù)據(jù)的位置也就是寫到那幾個機器上资厉；
3）向datanode寫入數(shù)據(jù)；
4）datanode復(fù)制數(shù)據(jù)蔬顾；
5）復(fù)制完成之后宴偿，各數(shù)據(jù)節(jié)點向namenode上報block信息；
6）datanode通知客戶端已完成阎抒。

8酪我、HDFS數(shù)據(jù)的讀取過程

1）客戶端發(fā)起讀數(shù)據(jù)的請求消痛；
2）告訴namenode要讀那個文件且叁；
3）namenode返回block信息列表（包括要讀取的數(shù)據(jù)在那個機器上）；
4）到指定的機器上讀取具體的數(shù)據(jù)秩伞；
5）datanode根據(jù)block信息找到數(shù)據(jù)的存儲位置并返回數(shù)據(jù)給客戶端逞带；
6）客戶端讀完數(shù)據(jù)之后告訴namenode我已經(jīng)讀取完成欺矫。

關(guān)注微信公眾號：Spark大數(shù)據(jù) 或許更多內(nèi)容